Apache Nutch

ภาพหน้าจอของซอฟแวร์:
Apache Nutch
รายละเอียดซอฟแวร์:
รุ่น: 2.3
วันที่อัพโหลด: 1 Mar 15
ผู้พัฒนา: Apache Software Foundation
การอนุญาต: ฟรี
ความนิยม: 36

Rating: 3.0/5 (Total Votes: 1)

Apache นัทช์ได้รับการสร้างขึ้นบน Apache Lucene ที่มีประสิทธิภาพของเครื่องมือค้นหา Java
นักพัฒนานัทช์แก้ไข Lucene codebase, เปลี่ยน codebase Lucene ข้อมูลที่ไม่เชื่อเรื่องพระเจ้าในโครงการที่อุทิศตนเพื่อการค้นหาข้อมูลบนเว็บโดยเฉพาะ
เทคโนโลยีนี้สามารถใช้ในการค้นหาบนหน้าเว็บของคุณเองเป็นเซิร์ฟเวอร์การค้นหาในตัวหรือรวบรวมข้อมูลเว็บที่กำลังมองหาข้อมูลที่จะแยกและขูดลงในฐานข้อมูลของคุณ
นัทช์สามารถทำงานบนเครื่องเดียว แต่ทำงานได้ดีขึ้นใน Hadoop กลุ่ม
ปลั๊กอินต่างๆที่มีอยู่สำหรับการขยายการใช้งานคลื่นความถี่

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.

  • ตรวจสอบให้แน่ใจแท็กที่ซ้ำกันไม่อยู่ ในไมโครฟอร์แมต-reltag ชุดแท็ก.
  • ดีกว่าถอยกลับค่าสำหรับเขตข้อมูลวัน.
  • กำจัดหวั่น.
  • อัพเกรดเป็น Hadoop 1.2.0.
  • อัพเกรด Tika 1.3.

มีอะไรใหม่ ในรุ่น 2.0:.

  • เปลี่ยนชื่อเป็น HTMLParseFilter ParseFilter
  • ลบที่เหลือหุ่นยนต์ / IP รหัสปิดกั้นใน lib-http.
  • เข้าสู่ระบบพอร์ตเพื่อ slf4j.
  • parser ภายนอกสนับสนุนแอตทริบิวต์การเข้ารหัส.
  • การตั้งค่าไอวี่ไม่รวม Gora.
  • หัวฉีดควรเพิ่มข้อมูลเมตาก่อนที่จะเรียก injectedScore.
  • มาตรฐานพอร์ตนัทช์จะ Nutchbase.
  • เพิ่มแจง-html ที่กลับ.
  • MoreIndexingFilter รูปแบบวันที่ขาดหายไป.
  • หมดเวลาสำหรับตัวแยกวิเคราะห์.
  • ช่วงลองอีกครั้งในวันที่ตระเวนถูกตั้งค่าเป็น 0.
  • สร้างผลผลิตบันทึกสำหรับดัชนี Solr และ dedup.
  • ปรับปรุง NutchConfiguration.
  • SolrDeleteDuplicates ความต้องการในการโคลนวัตถุ SolrRecord.
  • libs Hadoop พื้นเมืองไม่สามารถใช้ได้ผ่าน Maven.
  • เฉพาะกิจการสร้างและสภาพแวดล้อมรันไทม์.

มีอะไรใหม่ ในรุ่น 1.5:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการปรับปรุงหลายอย่างรวมทั้งการอัพเกรดของส่วนประกอบที่สำคัญหลายคนรวมทั้ง Tika 1.1 และ Hadoop 1.0.0, ปรับปรุง LinkRank และองค์ประกอบ WebGraph เช่นเดียวกับจำนวนของปลั๊กอินใหม่ครอบคลุมบัญชีดำการกรองและการแยกเพื่อชื่อไม่กี่.

มีอะไรใหม่ ในรุ่น 1.4:.

  • เพิ่ม Solr 4x (ลำต้น) รูปแบบตัวอย่างเช่น
  • เพิ่ม / รันไทม์ 'เพื่อ svn ไม่สนใจ.
  • แอพลิเคชัน / XHTML + xml ที่ควรจะเปิดใช้งานใน plugin.xml ของแจง-html ที่; ช่วยให้หลายชนิด mime plugin.xml.
  • คงแยก-Tika และแยก-HTML เพื่อใช้การแก้ปัญหา URL ที่เกี่ยวข้องต่อ RFC-3986.
  • ปรับเพิ่ม 0.10 Tika หมายเหตุ:. Tika ของ parser RTF ใหม่อาจไม่สนใจข้อความในเอกสารที่ไม่ถูกต้องกว่าก่อนหน้านี้ - ดู TIKA-748 สำหรับรายละเอียด
  • เพิ่มเป้าหมายโซนาร์เพื่อ build.xml Ant.
  • อัพเกรด SolrJ ไปเป็นเวอร์ชั่น 3.4.0.
  • เป้าหมายมด PMD เสีย.
  • การอัพเกรดสคี Solr กับรุ่น 1.4.

มีอะไรใหม่ ในรุ่น 1.3:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการปรับปรุงหลาย (สนับสนุนที่ดีขึ้นการแยก RSS แน่น การทำงานร่วมกับ Apache Tika สนับสนุนการแยกภายนอกการระบุภาษาที่ดีขึ้นและลำดับความสำคัญแหล่งขนาดเล็กปล่อย tarball! -. เพียงประมาณ 2MB)

มีอะไรใหม่ ในรุ่น 1.2:.

  • ทำให้ดัชนีเพิ่มเติม plug-in ที่กำหนดค่า
  • แม่โปรโตคอลไฟล์ที่กำหนดรวบรวมข้อมูลไดเรกทอรี.
  • หมดเวลาสำหรับตัวแยกวิเคราะห์.
  • เว็บไซต์ยังคงตรา Lucene.
  • ช่วงลองอีกครั้งในวันที่ตระเวนถูกตั้งค่าเป็น 0.

มีอะไรใหม่ ในรุ่น 1.0:.

  • อนุญาตให้ parsers จะกลับวัตถุแยกวิเคราะห์หลาย
  • การแกะขวดที่เข้าสู่ระบบคอมมอนซ้ำซ้อนจากปลั๊กอินอภิปรัชญา.
  • Bug ใน SegmentReader ทำให้เกิดห่วงอนันต์.
  • กรองเกณฑ์การให้คะแนนควรแจกจ่ายคะแนนเพื่อ outlinks ทั้งหมดในครั้งเดียว.
  • ลดจำนวนของคำเตือนในแกน Nutch.

ซอฟต์แวร์ที่คล้ายกัน

Zoie
Zoie

13 May 15

PHPCrawl
PHPCrawl

1 Mar 15

SearchBlox
SearchBlox

10 Dec 15

Lupyne
Lupyne

13 Apr 15

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

ความคิดเห็นที่ Apache Nutch

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่