โครงการซุปสวยหลาม HTML / XML parser ออกแบบมาสำหรับโครงการที่ตอบสนองอย่างรวดเร็วเช่นเดียวกับหน้าจอขูด สามคุณสมบัติทำให้มันมีประสิทธิภาพ:
ซุปที่สวยงามจะไม่สำลักถ้าคุณให้มาร์กอัปที่ไม่ดี มันให้ต้นไม้แยกที่ทำให้รู้สึกประมาณเท่าที่เป็นเอกสารต้นฉบับ นี้มักจะเป็นสิ่งที่ดีพอที่จะเก็บรวบรวมข้อมูลที่คุณต้องการและวิ่งหนีไป
ซุปจึงมีวิธีการง่ายๆไม่กี่และสำนวน Pythonic สำหรับการนำ, การค้นหาและการปรับเปลี่ยนแจงต้นไม้: ชุดเครื่องมือสำหรับการตัดเอกสารและการสกัดสิ่งที่คุณต้องการ คุณไม่จำเป็นต้องสร้างแยกวิเคราะห์ที่กำหนดเองสำหรับแต่ละโปรแกรม
ซุปที่สวยงามโดยอัตโนมัติแปลงเอกสารเข้ามาเพื่อ Unicode และเอกสารออกเป็น UTF-8 คุณไม่ต้องคิดเกี่ยวกับการเข้ารหัสเว้นแต่เอกสารไม่ได้ระบุการเข้ารหัสและซุปที่สวยงามไม่สามารถตรวจสอบโดยอัตโนมัติหนึ่ง แล้วคุณก็จะต้องระบุการเข้ารหัสเดิม
ซุปสวยแยกวิเคราะห์สิ่งที่คุณให้มันและไม่สิ่ง traversal ต้นไม้สำหรับคุณ คุณสามารถบอกได้ว่า "ค้นหาการเชื่อมโยงทั้งหมด" หรือ "ค้นหาการเชื่อมโยงทั้งหมดของชั้น externalLink" หรือ "ค้นหาการเชื่อมโยงทั้งหมดที่มี URL ที่ตรงกับ" foo.com "หรือ" หาตารางมุ่งหน้าไปที่มีข้อความเป็นตัวหนาแล้วให้ ข้อความที่ฉัน. "
ข้อมูลที่มีค่าที่ถูกขังอยู่ครั้งหนึ่งในเว็บไซต์ที่ออกแบบไม่ดีอยู่ในขณะนี้ในมือของคุณ . โครงการที่จะมีการดำเนินการชั่วโมงใช้เวลาเพียงไม่กี่นาทีกับซุปสวยงาม
ต้องการ
- หลาม
ความคิดเห็นที่ไม่พบ