กระท่อนกระแท่น ถูกเขียนขึ้น 100% ในหลามและสามารถนำไปใช้สำหรับการทำเหมืองข้อมูลง่ายในการตรวจสอบหน้าเว็บเครื่องมือค้นหาและแม้กระทั่งสำหรับการทดสอบรหัส
Scrapy ไม่ได้เป็นเครื่องมือค้นหาความหมายที่แท้จริงของคำว่า แต่จะทำหน้าที่เช่นเดียว (ไม่มีส่วนดัชนี) อย่างไรก็ตาม Scrapy สามารถเป็นเครื่องมือที่ดีในการสร้างตรรกะของเครื่องมือค้นหาบน
พลังที่แท้จริงของกรอบนี้ต้องอาศัยความคล่องตัวในหลักของ Scrapy เป็นระบบที่จะสร้างแมงมุมค้นหาทั่วไปหรือเฉพาะ (ซอฟต์แวร์รวบรวมข้อมูล) บน
ขณะนี้อาจจะซับซ้อนมากกับผู้ใช้งานที่ไม่ใช่ด้านเทคนิคที่มีลักษณะอย่างรวดเร็วมากกว่าเอกสารและแบบฝึกหัดที่มีอยู่ก็สวยง่ายที่จะเห็นว่า Scrapy มีการจัดการที่จะออกทั้งหมดที่ยากในการทำงานออกจากนี้และลดกระบวนการทั้งหมดจะเพียงแค่ ไม่กี่บรรทัดของรหัส (สำหรับง่ายขึ้นซอฟต์แวร์รวบรวมข้อมูลที่มีขนาดเล็ก)
มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.
- เส้นทางคำขอได้นำมาอ้าง ก่อนที่จะผ่านไปยัง FTPClient มันแล้วหลบหนีเส้นทาง.
- รวมการทดสอบ / แหล่งจำหน่ายใน MANIFEST.in.
มีอะไรใหม่ ในรุ่น 1.0.1:
- ได้นำมาอ้างเส้นทางคำขอก่อนที่จะผ่านไปยัง FTPClient มันแล้ว เส้นทางหลบหนี.
- รวมการทดสอบ / แหล่งจำหน่ายใน MANIFEST.in.
มีอะไรใหม่ ในรุ่น 0.24.6:
- เพิ่มส่วนหัวของการเข้ารหัส UTF8 แม่แบบ
- คอนโซล Telnet ตอนนี้ผูกกับ 127.0.0.1 โดยเริ่มต้น
- การปรับปรุงเดเบียน / อูบุนตูคำแนะนำการติดตั้ง
- ปิดการใช้งานสมาร์ทในสาย lxml การประเมิน XPath
- Restore ระบบแฟ้มแคชตามเป็นค่าเริ่มต้นสำหรับตัวกลางแคช HTTP
- เปิดเผยซอฟต์แวร์รวบรวมข้อมูลในปัจจุบัน Scrapy เปลือก
- ปรับปรุง TestSuite เปรียบเทียบ CSV และผู้ส่งออก XML
- นอกสถานที่ใหม่ / กรองและนอกสถานที่ / โดเมนสถิติ
- การสนับสนุน process_links เป็นเครื่องกำเนิดไฟฟ้าใน CrawlSpider
มีอะไรใหม่ ในรุ่น 0.24.5:
- เพิ่มส่วนหัวของการเข้ารหัส UTF8 แม่แบบ
- คอนโซล Telnet ตอนนี้ผูกกับ 127.0.0.1 โดยเริ่มต้น
- การปรับปรุงเดเบียน / อูบุนตูคำแนะนำการติดตั้ง
- ปิดการใช้งานสมาร์ทในสาย lxml การประเมิน XPath
- Restore ระบบแฟ้มแคชตามเป็นค่าเริ่มต้นสำหรับตัวกลางแคช HTTP
- เปิดเผยซอฟต์แวร์รวบรวมข้อมูลในปัจจุบัน Scrapy เปลือก
- ปรับปรุง TestSuite เปรียบเทียบ CSV และผู้ส่งออก XML
- นอกสถานที่ใหม่ / กรองและนอกสถานที่ / โดเมนสถิติ
- การสนับสนุน process_links เป็นเครื่องกำเนิดไฟฟ้าใน CrawlSpider
มีอะไรใหม่ ในรุ่น 0.22.0:
- เปลี่ยนชื่อ scrapy.spider.BaseSpider เพื่อ scrapy.spider .Spider
- ส่งเสริมข้อมูลการเริ่มต้นกับการตั้งค่าและตัวกลางในระดับข้อมูล
- การสนับสนุน partials ใน get_func_args util
- อนุญาตทำงานผ่านการทดสอบ indiviual พิษ
- ส่วนขยายของการปรับปรุงการปฏิเสธโดยการเชื่อมโยงสกัด
- Selectors ลงทะเบียน namespaces EXSLT โดยเริ่มต้น
- รถตักรายการรวมกันคล้ายกับการเปลี่ยนชื่อตัวเลือก
- ทำให้ระดับ RFPDupeFilter ได้อย่างง่ายดาย subclassable
- ปรับปรุงการคุ้มครองการทดสอบและเตรียมพร้อมสนับสนุนหลาม 3
มีอะไรใหม่ ในรุ่น 0.20.1:
- include_package_data จะต้องสร้างล้อจากแหล่งตีพิมพ์
มีอะไรใหม่ ในรุ่น 0.18.4.
- คง AlreadyCalledError เปลี่ยนคำขอในคำสั่งเชลล์
- คง lazyness start_requests และแฮงค์ในช่วงต้น.
มีอะไรใหม่ ในรุ่น 0.18.1.
- ออกนำเข้าพิเศษเพิ่มโดยเชอร์รี่เลือกการเปลี่ยนแปลง
- รวบรวมข้อมูลการทดสอบคงอยู่ภายใต้การบิดก่อน 11.0.0.
- py26 ไม่สามารถจัดรูปแบบสาขาที่มีความยาวเป็นศูนย์ {}.
- ข้อผิดพลาดการทดสอบการตอบสนอง PotentiaDataLoss หลุด.
- การตอบสนองการรักษาโดยเนื้อหามีความยาวหรือ Transfer-การเข้ารหัสการตอบสนองที่ดี.
- ไม่รวมถึงการไม่มี ResponseFailed http11 ถ้าจัดการไม่ได้เปิดใช้.
ต้องการ
- งูหลาม 2.7 หรือสูงกว่า
- บิด 2.5.0 หรือสูงกว่า
- libxml2 2.6.28 หรือสูงกว่า
- pyOpenSSL
ความคิดเห็นที่ไม่พบ