Apache Nutch

ภาพหน้าจอของซอฟแวร์:
Apache Nutch
รายละเอียดซอฟแวร์:
รุ่น: 2.3
วันที่อัพโหลด: 1 Mar 15
ผู้พัฒนา: Apache Software Foundation
การอนุญาต: ฟรี
ความนิยม: 36

Rating: 3.0/5 (Total Votes: 1)

Apache นัทช์ได้รับการสร้างขึ้นบน Apache Lucene ที่มีประสิทธิภาพของเครื่องมือค้นหา Java
นักพัฒนานัทช์แก้ไข Lucene codebase, เปลี่ยน codebase Lucene ข้อมูลที่ไม่เชื่อเรื่องพระเจ้าในโครงการที่อุทิศตนเพื่อการค้นหาข้อมูลบนเว็บโดยเฉพาะ
เทคโนโลยีนี้สามารถใช้ในการค้นหาบนหน้าเว็บของคุณเองเป็นเซิร์ฟเวอร์การค้นหาในตัวหรือรวบรวมข้อมูลเว็บที่กำลังมองหาข้อมูลที่จะแยกและขูดลงในฐานข้อมูลของคุณ
นัทช์สามารถทำงานบนเครื่องเดียว แต่ทำงานได้ดีขึ้นใน Hadoop กลุ่ม
ปลั๊กอินต่างๆที่มีอยู่สำหรับการขยายการใช้งานคลื่นความถี่

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.

  • ตรวจสอบให้แน่ใจแท็กที่ซ้ำกันไม่อยู่ ในไมโครฟอร์แมต-reltag ชุดแท็ก.
  • ดีกว่าถอยกลับค่าสำหรับเขตข้อมูลวัน.
  • กำจัดหวั่น.
  • อัพเกรดเป็น Hadoop 1.2.0.
  • อัพเกรด Tika 1.3.

มีอะไรใหม่ ในรุ่น 2.0:.

  • เปลี่ยนชื่อเป็น HTMLParseFilter ParseFilter
  • ลบที่เหลือหุ่นยนต์ / IP รหัสปิดกั้นใน lib-http.
  • เข้าสู่ระบบพอร์ตเพื่อ slf4j.
  • parser ภายนอกสนับสนุนแอตทริบิวต์การเข้ารหัส.
  • การตั้งค่าไอวี่ไม่รวม Gora.
  • หัวฉีดควรเพิ่มข้อมูลเมตาก่อนที่จะเรียก injectedScore.
  • มาตรฐานพอร์ตนัทช์จะ Nutchbase.
  • เพิ่มแจง-html ที่กลับ.
  • MoreIndexingFilter รูปแบบวันที่ขาดหายไป.
  • หมดเวลาสำหรับตัวแยกวิเคราะห์.
  • ช่วงลองอีกครั้งในวันที่ตระเวนถูกตั้งค่าเป็น 0.
  • สร้างผลผลิตบันทึกสำหรับดัชนี Solr และ dedup.
  • ปรับปรุง NutchConfiguration.
  • SolrDeleteDuplicates ความต้องการในการโคลนวัตถุ SolrRecord.
  • libs Hadoop พื้นเมืองไม่สามารถใช้ได้ผ่าน Maven.
  • เฉพาะกิจการสร้างและสภาพแวดล้อมรันไทม์.

มีอะไรใหม่ ในรุ่น 1.5:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการปรับปรุงหลายอย่างรวมทั้งการอัพเกรดของส่วนประกอบที่สำคัญหลายคนรวมทั้ง Tika 1.1 และ Hadoop 1.0.0, ปรับปรุง LinkRank และองค์ประกอบ WebGraph เช่นเดียวกับจำนวนของปลั๊กอินใหม่ครอบคลุมบัญชีดำการกรองและการแยกเพื่อชื่อไม่กี่.

มีอะไรใหม่ ในรุ่น 1.4:.

  • เพิ่ม Solr 4x (ลำต้น) รูปแบบตัวอย่างเช่น
  • เพิ่ม / รันไทม์ 'เพื่อ svn ไม่สนใจ.
  • แอพลิเคชัน / XHTML + xml ที่ควรจะเปิดใช้งานใน plugin.xml ของแจง-html ที่; ช่วยให้หลายชนิด mime plugin.xml.
  • คงแยก-Tika และแยก-HTML เพื่อใช้การแก้ปัญหา URL ที่เกี่ยวข้องต่อ RFC-3986.
  • ปรับเพิ่ม 0.10 Tika หมายเหตุ:. Tika ของ parser RTF ใหม่อาจไม่สนใจข้อความในเอกสารที่ไม่ถูกต้องกว่าก่อนหน้านี้ - ดู TIKA-748 สำหรับรายละเอียด
  • เพิ่มเป้าหมายโซนาร์เพื่อ build.xml Ant.
  • อัพเกรด SolrJ ไปเป็นเวอร์ชั่น 3.4.0.
  • เป้าหมายมด PMD เสีย.
  • การอัพเกรดสคี Solr กับรุ่น 1.4.

มีอะไรใหม่ ในรุ่น 1.3:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการปรับปรุงหลาย (สนับสนุนที่ดีขึ้นการแยก RSS แน่น การทำงานร่วมกับ Apache Tika สนับสนุนการแยกภายนอกการระบุภาษาที่ดีขึ้นและลำดับความสำคัญแหล่งขนาดเล็กปล่อย tarball! -. เพียงประมาณ 2MB)

มีอะไรใหม่ ในรุ่น 1.2:.

  • ทำให้ดัชนีเพิ่มเติม plug-in ที่กำหนดค่า
  • แม่โปรโตคอลไฟล์ที่กำหนดรวบรวมข้อมูลไดเรกทอรี.
  • หมดเวลาสำหรับตัวแยกวิเคราะห์.
  • เว็บไซต์ยังคงตรา Lucene.
  • ช่วงลองอีกครั้งในวันที่ตระเวนถูกตั้งค่าเป็น 0.

มีอะไรใหม่ ในรุ่น 1.0:.

  • อนุญาตให้ parsers จะกลับวัตถุแยกวิเคราะห์หลาย
  • การแกะขวดที่เข้าสู่ระบบคอมมอนซ้ำซ้อนจากปลั๊กอินอภิปรัชญา.
  • Bug ใน SegmentReader ทำให้เกิดห่วงอนันต์.
  • กรองเกณฑ์การให้คะแนนควรแจกจ่ายคะแนนเพื่อ outlinks ทั้งหมดในครั้งเดียว.
  • ลดจำนวนของคำเตือนในแกน Nutch.

ซอฟต์แวร์ที่คล้ายกัน

PySolarized
PySolarized

13 May 15

Apache Blur
Apache Blur

13 Apr 15

SearchBlox
SearchBlox

10 Dec 15

node-elasticsearch
node-elasticsearch

10 Dec 15

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

Apache Clerezza
Apache Clerezza

20 Jul 15

Apache MyFaces
Apache MyFaces

12 May 15

Apache Deltacloud
Apache Deltacloud

13 Apr 15

ความคิดเห็นที่ Apache Nutch

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่