Apache นัทช์ได้รับการสร้างขึ้นบน Apache Lucene ที่มีประสิทธิภาพของเครื่องมือค้นหา Java
นักพัฒนานัทช์แก้ไข Lucene codebase, เปลี่ยน codebase Lucene ข้อมูลที่ไม่เชื่อเรื่องพระเจ้าในโครงการที่อุทิศตนเพื่อการค้นหาข้อมูลบนเว็บโดยเฉพาะ
เทคโนโลยีนี้สามารถใช้ในการค้นหาบนหน้าเว็บของคุณเองเป็นเซิร์ฟเวอร์การค้นหาในตัวหรือรวบรวมข้อมูลเว็บที่กำลังมองหาข้อมูลที่จะแยกและขูดลงในฐานข้อมูลของคุณ
นัทช์สามารถทำงานบนเครื่องเดียว แต่ทำงานได้ดีขึ้นใน Hadoop กลุ่ม
ปลั๊กอินต่างๆที่มีอยู่สำหรับการขยายการใช้งานคลื่นความถี่
มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.
- ตรวจสอบให้แน่ใจแท็กที่ซ้ำกันไม่อยู่ ในไมโครฟอร์แมต-reltag ชุดแท็ก.
- ดีกว่าถอยกลับค่าสำหรับเขตข้อมูลวัน.
- กำจัดหวั่น.
- อัพเกรดเป็น Hadoop 1.2.0.
- อัพเกรด Tika 1.3.
มีอะไรใหม่ ในรุ่น 2.0:.
- เปลี่ยนชื่อเป็น HTMLParseFilter ParseFilter
- ลบที่เหลือหุ่นยนต์ / IP รหัสปิดกั้นใน lib-http.
- เข้าสู่ระบบพอร์ตเพื่อ slf4j.
- parser ภายนอกสนับสนุนแอตทริบิวต์การเข้ารหัส.
- การตั้งค่าไอวี่ไม่รวม Gora.
- หัวฉีดควรเพิ่มข้อมูลเมตาก่อนที่จะเรียก injectedScore.
- มาตรฐานพอร์ตนัทช์จะ Nutchbase.
- เพิ่มแจง-html ที่กลับ.
- MoreIndexingFilter รูปแบบวันที่ขาดหายไป.
- หมดเวลาสำหรับตัวแยกวิเคราะห์.
- ช่วงลองอีกครั้งในวันที่ตระเวนถูกตั้งค่าเป็น 0.
- สร้างผลผลิตบันทึกสำหรับดัชนี Solr และ dedup.
- ปรับปรุง NutchConfiguration.
- SolrDeleteDuplicates ความต้องการในการโคลนวัตถุ SolrRecord.
- libs Hadoop พื้นเมืองไม่สามารถใช้ได้ผ่าน Maven.
- เฉพาะกิจการสร้างและสภาพแวดล้อมรันไทม์.
มีอะไรใหม่ ในรุ่น 1.5:
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการปรับปรุงหลายอย่างรวมทั้งการอัพเกรดของส่วนประกอบที่สำคัญหลายคนรวมทั้ง Tika 1.1 และ Hadoop 1.0.0, ปรับปรุง LinkRank และองค์ประกอบ WebGraph เช่นเดียวกับจำนวนของปลั๊กอินใหม่ครอบคลุมบัญชีดำการกรองและการแยกเพื่อชื่อไม่กี่.
มีอะไรใหม่ ในรุ่น 1.4:.
- เพิ่ม Solr 4x (ลำต้น) รูปแบบตัวอย่างเช่น
- เพิ่ม / รันไทม์ 'เพื่อ svn ไม่สนใจ.
- แอพลิเคชัน / XHTML + xml ที่ควรจะเปิดใช้งานใน plugin.xml ของแจง-html ที่; ช่วยให้หลายชนิด mime plugin.xml.
- คงแยก-Tika และแยก-HTML เพื่อใช้การแก้ปัญหา URL ที่เกี่ยวข้องต่อ RFC-3986.
- ปรับเพิ่ม 0.10 Tika หมายเหตุ:. Tika ของ parser RTF ใหม่อาจไม่สนใจข้อความในเอกสารที่ไม่ถูกต้องกว่าก่อนหน้านี้ - ดู TIKA-748 สำหรับรายละเอียด
- เพิ่มเป้าหมายโซนาร์เพื่อ build.xml Ant.
- อัพเกรด SolrJ ไปเป็นเวอร์ชั่น 3.4.0.
- เป้าหมายมด PMD เสีย.
- การอัพเกรดสคี Solr กับรุ่น 1.4.
มีอะไรใหม่ ในรุ่น 1.3:
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการปรับปรุงหลาย (สนับสนุนที่ดีขึ้นการแยก RSS แน่น การทำงานร่วมกับ Apache Tika สนับสนุนการแยกภายนอกการระบุภาษาที่ดีขึ้นและลำดับความสำคัญแหล่งขนาดเล็กปล่อย tarball! -. เพียงประมาณ 2MB)
มีอะไรใหม่ ในรุ่น 1.2:.
- ทำให้ดัชนีเพิ่มเติม plug-in ที่กำหนดค่า
- แม่โปรโตคอลไฟล์ที่กำหนดรวบรวมข้อมูลไดเรกทอรี.
- หมดเวลาสำหรับตัวแยกวิเคราะห์.
- เว็บไซต์ยังคงตรา Lucene.
- ช่วงลองอีกครั้งในวันที่ตระเวนถูกตั้งค่าเป็น 0.
มีอะไรใหม่ ในรุ่น 1.0:.
- อนุญาตให้ parsers จะกลับวัตถุแยกวิเคราะห์หลาย
- การแกะขวดที่เข้าสู่ระบบคอมมอนซ้ำซ้อนจากปลั๊กอินอภิปรัชญา.
- Bug ใน SegmentReader ทำให้เกิดห่วงอนันต์.
- กรองเกณฑ์การให้คะแนนควรแจกจ่ายคะแนนเพื่อ outlinks ทั้งหมดในครั้งเดียว.
- ลดจำนวนของคำเตือนในแกน Nutch.
ความคิดเห็นที่ไม่พบ