Scrapy

ภาพหน้าจอของซอฟแวร์:
Scrapy
รายละเอียดซอฟแวร์:
รุ่น: 1.0.3 การปรับปรุง
วันที่อัพโหลด: 1 Oct 15
ผู้พัฒนา: Pablo Hoffman
การอนุญาต: ฟรี
ความนิยม: 400

Rating: nan/5 (Total Votes: 0)

กระท่อนกระแท่น ถูกเขียนขึ้น 100% ในหลามและสามารถนำไปใช้สำหรับการทำเหมืองข้อมูลง่ายในการตรวจสอบหน้าเว็บเครื่องมือค้นหาและแม้กระทั่งสำหรับการทดสอบรหัส
Scrapy ไม่ได้เป็นเครื่องมือค้นหาความหมายที่แท้จริงของคำว่า แต่จะทำหน้าที่เช่นเดียว (ไม่มีส่วนดัชนี) อย่างไรก็ตาม Scrapy สามารถเป็นเครื่องมือที่ดีในการสร้างตรรกะของเครื่องมือค้นหาบน
พลังที่แท้จริงของกรอบนี้ต้องอาศัยความคล่องตัวในหลักของ Scrapy เป็นระบบที่จะสร้างแมงมุมค้นหาทั่วไปหรือเฉพาะ (ซอฟต์แวร์รวบรวมข้อมูล) บน
ขณะนี้อาจจะซับซ้อนมากกับผู้ใช้งานที่ไม่ใช่ด้านเทคนิคที่มีลักษณะอย่างรวดเร็วมากกว่าเอกสารและแบบฝึกหัดที่มีอยู่ก็สวยง่ายที่จะเห็นว่า Scrapy มีการจัดการที่จะออกทั้งหมดที่ยากในการทำงานออกจากนี้และลดกระบวนการทั้งหมดจะเพียงแค่ ไม่กี่บรรทัดของรหัส (สำหรับง่ายขึ้นซอฟต์แวร์รวบรวมข้อมูลที่มีขนาดเล็ก)

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.

  • เส้นทางคำขอได้นำมาอ้าง ก่อนที่จะผ่านไปยัง FTPClient มันแล้วหลบหนีเส้นทาง.
  • รวมการทดสอบ / แหล่งจำหน่ายใน MANIFEST.in.

มีอะไรใหม่ ในรุ่น 1.0.1:

  • ได้นำมาอ้างเส้นทางคำขอก่อนที่จะผ่านไปยัง FTPClient มันแล้ว เส้นทางหลบหนี.
  • รวมการทดสอบ / แหล่งจำหน่ายใน MANIFEST.in.

มีอะไรใหม่ ในรุ่น 0.24.6:

  • เพิ่มส่วนหัวของการเข้ารหัส UTF8 แม่แบบ
  • คอนโซล Telnet ตอนนี้ผูกกับ 127.0.0.1 โดยเริ่มต้น
  • การปรับปรุงเดเบียน / อูบุนตูคำแนะนำการติดตั้ง
  • ปิดการใช้งานสมาร์ทในสาย lxml การประเมิน XPath
  • Restore ระบบแฟ้มแคชตามเป็นค่าเริ่มต้นสำหรับตัวกลางแคช HTTP
  • เปิดเผยซอฟต์แวร์รวบรวมข้อมูลในปัจจุบัน Scrapy เปลือก
  • ปรับปรุง TestSuite เปรียบเทียบ CSV และผู้ส่งออก XML
  • นอกสถานที่ใหม่ / กรองและนอกสถานที่ / โดเมนสถิติ
  • การสนับสนุน process_links เป็นเครื่องกำเนิดไฟฟ้าใน CrawlSpider

มีอะไรใหม่ ในรุ่น 0.24.5:

  • เพิ่มส่วนหัวของการเข้ารหัส UTF8 แม่แบบ
  • คอนโซล Telnet ตอนนี้ผูกกับ 127.0.0.1 โดยเริ่มต้น
  • การปรับปรุงเดเบียน / อูบุนตูคำแนะนำการติดตั้ง
  • ปิดการใช้งานสมาร์ทในสาย lxml การประเมิน XPath
  • Restore ระบบแฟ้มแคชตามเป็นค่าเริ่มต้นสำหรับตัวกลางแคช HTTP
  • เปิดเผยซอฟต์แวร์รวบรวมข้อมูลในปัจจุบัน Scrapy เปลือก
  • ปรับปรุง TestSuite เปรียบเทียบ CSV และผู้ส่งออก XML
  • นอกสถานที่ใหม่ / กรองและนอกสถานที่ / โดเมนสถิติ
  • การสนับสนุน process_links เป็นเครื่องกำเนิดไฟฟ้าใน CrawlSpider

มีอะไรใหม่ ในรุ่น 0.22.0:

  • เปลี่ยนชื่อ scrapy.spider.BaseSpider เพื่อ scrapy.spider .Spider
  • ส่งเสริมข้อมูลการเริ่มต้นกับการตั้งค่าและตัวกลางในระดับข้อมูล
  • การสนับสนุน partials ใน get_func_args util
  • อนุญาตทำงานผ่านการทดสอบ indiviual พิษ
  • ส่ว​​นขยายของการปรับปรุงการปฏิเสธโดยการเชื่อมโยงสกัด
  • Selectors ลงทะเบียน namespaces EXSLT โดยเริ่มต้น
  • รถตักรายการรวมกันคล้ายกับการเปลี่ยนชื่อตัวเลือก
  • ทำให้ระดับ RFPDupeFilter ได้อย่างง่ายดาย subclassable
  • ปรับปรุงการคุ้มครองการทดสอบและเตรียมพร้อมสนับสนุนหลาม 3

มีอะไรใหม่ ในรุ่น 0.20.1:

  • include_package_data จะต้องสร้างล้อจากแหล่งตีพิมพ์

มีอะไรใหม่ ในรุ่น 0.18.4.

  • คง AlreadyCalledError เปลี่ยนคำขอในคำสั่งเชลล์
  • คง lazyness start_requests และแฮงค์ในช่วงต้น.

มีอะไรใหม่ ในรุ่น 0.18.1.

  • ออกนำเข้าพิเศษเพิ่มโดยเชอร์รี่เลือกการเปลี่ยนแปลง
  • รวบรวมข้อมูลการทดสอบคงอยู่ภายใต้การบิดก่อน 11.0.0.
  • py26 ไม่สามารถจัดรูปแบบสาขาที่มีความยาวเป็นศูนย์ {}.
  • ข้อผิดพลาดการทดสอบการตอบสนอง PotentiaDataLoss หลุด.
  • การตอบสนองการรักษาโดยเนื้อหามีความยาวหรือ Transfer-การเข้ารหัสการตอบสนองที่ดี.
  • ไม่รวมถึงการไม่มี ResponseFailed http11 ถ้าจัดการไม่ได้เปิดใช้.

ต้องการ

  • งูหลาม 2.7 หรือสูงกว่า
  • บิด 2.5.0 หรือสูงกว่า
  • libxml2 2.6.28 หรือสูงกว่า
  • pyOpenSSL

ซอฟต์แวร์ที่คล้ายกัน

Packery
Packery

10 Feb 16

Radiant MediaLyzer
Radiant MediaLyzer

10 Feb 16

Baker
Baker

1 Mar 15

ซอฟแวร์อื่น ๆ ของนักพัฒนา Pablo Hoffman

Scrapy
Scrapy

14 Apr 15

ความคิดเห็นที่ Scrapy

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่