Apache Nutch

ภาพหน้าจอของซอฟแวร์:
Apache Nutch
รายละเอียดซอฟแวร์:
รุ่น: 2.3 การปรับปรุง
วันที่อัพโหลด: 17 Jul 15
ผู้พัฒนา: Sami Siren
การอนุญาต: ฟรี
ความนิยม: 1

Rating: 1.0/5 (Total Votes: 2)

โครงการ Apache นัทช์เป็นแหล่งเปิดปรับขนาดได้สูงขยายและฟรีบนเว็บซอฟแวร์ซอฟต์แวร์รวบรวมข้อมูลเว็บที่สร้างขึ้นบน Apache Lucene (รุ่น Java) ห้องสมุด
มันจะเพิ่มเฉพาะเว็บเช่นซอฟต์แวร์รวบรวมข้อมูลฐานข้อมูลเชื่อมโยงกราฟ parsers สำหรับ HTML และรูปแบบเอกสารอื่น ๆ ฯลฯ คือการพัฒนาและจัดจำหน่ายโดยมูลนิธิอาปาเช่มันสองสาขาที่แยกจากกัน
เป็นแบบแยกส่วนและ pluggable, Apache นัทช์มีผลประโยชน์ของตนโดยการให้การเชื่อมต่อขยายเช่นการแยกวิเคราะห์ดัชนีและ ScoringFilter สำหรับการใช้งานที่กำหนดเองเช่น Apache Tika สำหรับการแยก
นอกจากนี้อาปาเช่นัทช์ได้รับการออกแบบให้ทำงานบนเครื่องเดียว แต่มีประสิทธิภาพมากขึ้นเมื่อทำงานในคลัสเตอร์ Hadoop การจัดทำดัชนีเสียบที่มีอยู่สำหรับยืดหยุ่นค้นหา Apache Solr ฯลฯ

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.

  • นัทช์-1779 สมัคร การจัดรูปแบบรหัส (lewismc)
  • นัทช์-1907 การส่งออกที่ไม่ถูกต้องของ outlinks การโฮสต์ภายใน HostDbUpdateReducer (lewismc)
  • เอกสาร Nutch-1856 webpage.avsc และ host.avsc (lewismc)
  • นัทช์-1834 พฤติกรรม GeneratorMapper ขึ้นอยู่กับระดับการเข้าสู่ระบบ (แกร์ฮาร์ด Gossen ผ่าน snagel)
  • อัพเกรด Nutch-1899 Restlet lib เพื่อป้องกันไม่ให้สร้างความล้มเหลว (talat)
  • นัทช์-1797 แพคเกจที่ไม่ได้ใช้ลบ oanhtml (Saurabh Chhajed ผ่าน snagel)
  • นัทช์-1888 ระบุ HTMLMapper ที่จะใช้ใน TikaParser (ลิล Simsek ผ่าน jnioche)
  • นัทช์-1897 การแก้จุดบกพร่องของข้อผิดพลาดง่าย XML ปลั๊กอิน (markus)
  • นัทช์-1823 อัพเกรด ElasticSearch 1.4.1 (ภู Kieu, markus, lewismc)
  • นัทช์-1829 เครื่องกำเนิดไฟฟ้า: ไม่สามารถแยกแยะข้อผิดพลาดจริง (Mathieu Bouchard, jnioche, snagel)
  • เครื่องกำเนิดไฟฟ้า Nutch-1778 ไม่ได้เข้าสู่ระบบจำนวน URL ที่ถูกต้องในชุด (jnioche ผ่าน snagel)
  • นัทช์-1877 คำต่อท้ายกรอง URL ที่จะไม่สนใจสตริงแบบสอบถามโดยค่าเริ่มต้น (markus ผ่าน snagel)
  • นัทช์-1825 โปรโตคอล http อาจแขวนสำหรับหน้าเว็บบางอย่าง (ภู Kieu ผ่าน snagel)
  • นัทช์-1483 ไม่สามารถรวบรวมข้อมูลระบบแฟ้มที่มีปลั๊กอินโปรโตคอลไฟล์ (Rogerio รา Araujo, Mengying วัง snagel)
  • นัทช์-1885 พิธีสารไฟล์ควรปฏิบัติต่อการเชื่อมโยงสัญลักษณ์เป็นเปลี่ยนเส้นทาง (Mengying วัง snagel)
  • นัทช์-1880 URLUtil ไม่ควรเพิ่มขีดเพิ่มเติมสำหรับ URL ไฟล์ (snagel)
  • นัทช์-1879 Regex ​​Normalizer URL ควรลบทับหลังจากหลายไฟล์: โปรโตคอล (snagel)
  • นัทช์-1820 ลบฟิลด์ & quot; orig & quot; ที่ซ้ำกัน & quot; รหัส & quot; (lewismc, snagel)
  • อัพเกรด Nutch-1843 เพื่อ Gora 0.5 (talat, lewismc, Kiril Menshikov, drazzib)
  • นัทช์ 1883-bin / รวบรวมข้อมูล: การใช้งานฟังก์ชั่นการทำงาน bin / นัทช์และตรวจสอบค่าทางออก (snagel)
  • มด Nutch-1882 คราสเป้าหมายที่จะเพิ่มการส่งออกไปยังเส้นทาง src / test (snagel)
  • นัทช์-1827 พอร์ต Nutch-1467 และนัทช์-1561 เพื่อ 2.x (snagel)
  • อัพเกรด Nutch-1876 เพื่อตีนตะขาบคอมมอนส์ 0.5 (jnioche)
  • นัทช์-1866 เป้าหมายคราสมดไม่ควรลบรันไทม์ (nimafl ผ่าน lewismc)
  • นัทช์-1859 ทำให้พอร์ตนัทช์ webapp ที่กำหนด (นิ Falaki ผ่าน lewismc)
  • Bug Nutch-1848 ในกรณี DashboardPage.html เคาน์เตอร์ (นิ Falaki ผ่าน lewismc)
  • นัทช์-841 สร้างโปรแกรมประยุกต์เว็บประตูที่ใช้สำหรับนัทช์ (Fjodor Vershinin ผ่าน lewismc)
  • นัทช์-1832 ทำให้การทำงานของนัทช์ได้โดยไม่ต้องทำดัชนี (mattmann ผ่าน lewismc)
  • นัทช์-1840 อธิบายฟังก์ชันใน SolrIndexWriter ไม่ถูกต้อง (kaveh minooie ผ่าน jnioche)
  • อัพเกรด Nutch-1837 เพื่อ Tika 1.6 (lewismc)
  • นัทช์-1829 เครื่องกำเนิดไฟฟ้า: ไม่สามารถแยกแยะข้อผิดพลาดจริง (Mathieu Bouchard ผ่าน jnioche)
  • นัทช์ 1828-bin / รวบรวมข้อมูล: การจัดการข้อผิดพลาดไม่ถูกต้องของนัทช์ (Mathieu Bouchard ผ่าน jnioche)
  • นัทช์-1693 TextMD5Signature คำนวณในเนื้อหาต้นฉบับเดิม (Tien Nguyen Manh, markus ผ่าน snagel)
  • นัทช์-1409 ลบคุณสมบัติเลิกใช้ฐานข้อมูล. {ค่าเริ่มต้นสูงสุด} .fetch.interval, generate.max.per.host.by.ip (แมทเธีย Agethle ผ่าน snagel)
  • นัทช์-1819 batchId ใน GeneratorJob (Fjodor Vershinin ผ่าน lewismc)
  • นัทช์-1708 ใช้รหัสเดียวกันเมื่อทำดัชนีและการเปลี่ยนเส้นทางการลบ (snagel)
  • นัทช์-1817 ลบ pom.xml จากแหล่ง (jnioche)
  • นัทช์ 1811-bin / นัทช์ junit ใช้ junit 4 วิ่งทดสอบ (snagel)
  • นัทช์-1776 เข้าสู่เส้นทางของไฟล์ plugin.folder ไม่ถูกต้อง (Diaa ผ่าน snagel)
  • นัทช์ 1566-bin / นัทช์ที่จะช่วยให้ช่องว่างในเส้นทาง (tejasp, snagel)
  • นัทช์-1605 เครื่องตรวจจับชนิดไมม์ตระหนัก xlsx เป็นไฟล์ซิป (snagel)
  • นัทช์-385 ในการปรับปรุงรายละเอียดของการกำหนดค่าที่เกี่ยวข้องกับด้ายสำหรับ Fetcher (jnioche, Lufeng)
  • นัทช์-1798 รวบรวมข้อมูลสคริปต์ไม่เรียกคำสั่งดัชนีได้อย่างถูกต้อง (แอรอน Bedward ผ่าน jnioche)
  • นัทช์ REST API-1769 refactoring (Fjodor Vershinin ผ่าน lewismc)
  • นัทช์-1633 slf4j ให้บริการโดย Hadoop และไม่ควรรวมอยู่ในไฟล์งาน (kaveh minooie ผ่าน jnioche)
  • นัทช์-1787 ปรับปรุงและสมบูรณ์ API doc หน้าภาพรวม (snagel)
  • นัทช์-1767 เอาการรักษาพิเศษของ & quot; params & quot; ในการเชื่อมโยงญาติ (snagel)
  • นัทช์-1718 กำหนด http.robots.agent เป็น & quot; ชื่อตัวแทนเพิ่มเติม & quot; (snagel, Tejas พาติล, แดเนียล Kugel)
  • นัทช์-1796 ตรวจสอบให้แน่ใจ Gora สร้างวัตถุที่ใช้เป็นคัดค้านเพื่อก่อสร้างงานว่าง (snagel ผ่าน lewismc)
  • นัทช์-1590 [ความปลอดภัย] ฉีดกรอบช่องโหว่ในการตีพิมพ์ Javadoc (jnioche)
  • นัทช์-1736 ไม่สามารถดึงข้อมูลหน้าเว็บถ้าส่วนหัวของการตอบสนอง http Transfer-มีการเข้ารหัส: chunked (YSC ผ่าน jnioche)
  • นัทช์-1782 NodeWalker จะกลับโหนดปัจจุบัน (markus)
  • นัทช์-1781 ปรับปรุง Gora - * - mapping.xml gora.proeprties และสะท้อนให้เห็นถึง Gora 0.4 (lewismc)
  • นัทช์-1768 อัพเกรด ElasticSearch 1.1.0 (jnioche)
  • นัทช์-1634 -stats readdb แสดงให้เห็นถึงผลที่ได้สองครั้ง (kaveh minooie ผ่าน jnioche)
  • นัทช์ 1780-TTL และ gc_grace_seconds คุณลักษณะที่จะหายไปจาก Gora-คาสซานดรา-mapping.xml ไฟล์ (kaveh minooie ผ่าน lewismc)
  • นัทช์-1676 เพิ่มการสนับสนุน SSL พื้นฐานเพื่อโปรโตคอล http (jnioche, markus)
  • นัทช์-1674 ใช้ตัวกรอง batchId เพื่อเปิดใช้งานสแกน (GORA-119) สำหรับการดึงข้อมูล, แยกวิเคราะห์การปรับปรุงดัชนี (Tien Nguyen Manh และ Alparslan Avci ผ่าน jnioche)
  • อัพเกรด Nutch-1714 เพื่อ Gora 0.4 (Alparslan Avci ผ่าน jnioche)
  • นัทช์-1752 กฎแคช robots.txt ต่อโปรโตคอล: โฮสต์: พอร์ต (snagel)
  • นัทช์-1613 Timeouts ในโปรโตคอล HttpClient เมื่อรวบรวมข้อมูลโฮสต์เดียวกัน & gt; 2 กระทู้ (brian44 ผ่าน jnioche)
  • นัทช์-1182 Fetcher เข้าสู่ระบบหัวข้อแขวน (snagel)
  • นัทช์-1618 เปิดดำเนินการเก็งกำไรออกดึง (talat)
  • นัทช์-1657 ORIGINAL_CHAR_ENCODING CHAR_ENCODING_FOR_CONVERSION และไม่เคยตั้งใน HTMLParser (talat)
  • นัทช์-1725 ลด CleaningJob ไม่ได้กระทำเอกสารที่ถูกลบ (ilhamikalkan ผ่าน talat)
  • นัทช์-1728-ปลั๊กอินทำดัชนี Solr ไม่ได้ลบเอกสารจาก Solr (ilhamikalkan ผ่าน talat)
  • นัทช์-1753 คราสปัญหา dependecy สำหรับ 2.x (talat)
  • นัทช์-1720 เส้นที่ซ้ำกันใน HttpBase.java (วอลเตอร์ Tietze ผ่าน jnioche)
  • URL Nutch-797 ไม่ได้สร้างอย่างถูกต้องเมื่อเชื่อมโยงเป้าหมายเริ่มต้นด้วย & quot; & quot; (ดั๊กคุก Hohman โรเบิร์ต, Stondet, AB ผ่าน snagel)
  • อัพเกรด Nutch-1759 เพื่อตีนตะขาบคอมมอนส์ 0.4 (jnioche)
  • นัทช์-1700 ลบรหัสคัดค้านใน src / ปลั๊กอิน / creativecommons / build.xml (lewismc)
  • นัทช์-1761 รวบรวมข้อมูลสคริปต์ล้มเหลวในการหาไฟล์งานถ้าไม่ได้เริ่มต้นจากภายในถัง dir (เดวิดฮอส jnioche)
  • นัทช์-1603 parser ไปรษณีย์บ่นไฟล์ PDF ที่ถูกตัดทอนเกี่ยวกับ (snagel ผ่าน lewismc)
  • นัทช์-1743 parsechecker ที่จะแสดง outlinks (snagel)
  • นัทช์-1732 สายแยกคำสั่งที่ดีกว่าสำหรับ NutchServer (Fjodor Vershinin ผ่าน lewismc)
  • นัทช์-1751 แองเคอที่ว่างเปล่าไม่ควรดัชนี (Sertac Turkel ผ่าน lewismc)
  • นัทช์-1733-แยก html ที่ให้การสนับสนุน HTML5 คำจำกัดความ charset (snagel)
  • นัทช์-1727 ระยะเวลาที่กำหนดสำหรับ TLDs (Sertac Turkel ผ่าน lewismc)
  • นัทช์-1738 เปิดเผยจำนวน URL ที่สร้างต่อชุดใน GeneratorJob (ตลาด UYARER ผ่าน ewismc)
  • นัทช์-1671 indexchecker ที่จะเพิ่มสาขาย่อย (snagel, Lufeng)
  • นัทช์-1645 Junit ทดสอบกรณีสำหรับการปรับเปลี่ยนตารางการแข่งขันระดับ Fetch (สินธุ์ kilinc, Lufeng, Sertac Urkel ผ่าน snagel)
  • นัทช์-1478-metatags แยกวิเคราะห์และปลั๊กอินดัชนีข้อมูลเมตาสำหรับนัทช์ชุด 2.x (kiran, เหงียนเทียน Anh, ตลาด UYARER, Vangelis Karvounis ผ่าน lewismc)
  • อัพเกรด Nutch-1729 เพื่อ Tika 1.5 (jnioche)
  • นัทช์-1721 สามารถอัพเกรดเป็น 0.3 ตีนตะขาบที่พบบ่อย (tejasp)
  • นัทช์-1719 DomainStatistics ล้มเหลวในการ 2.x เนื่องจาก URL ไม่ได้ unreversed (แกร์ฮาร์ด Gossen ผ่าน lewismc)
  • นัทช์-1253 Neko เข้ากันไม่ได้และรุ่น Xerces (snagel, lewismc, ตลาด UYARER)
  • นัทช์-1715 RobotRulesParser เพิ่มเพิ่มเติม '*' ชื่อหุ่นยนต์ (tejasp)
  • ปลั๊กอิน Nutch-356 ที่เก็บแคชสามารถนำไปสู่​​การรั่วไหลของหน่วยความจำ (Enrico Triolo, Dogacan Guney ผ่าน markus)
  • นัทช์-1164 เขียนการทดสอบ JUnit สำหรับโปรโตคอล http (Sertac Turkel ผ่าน tejasp)
  • นัทช์-1710 แพคเกจเพิ่มเข้าสู่ระบบเพื่อ Gora log4j.properties (lewismc)
  • นัทช์-1655 ดัชนีปลั๊กอินสำหรับยืดหยุ่นการค้นหา (ตลาด UYARER ผ่าน lewismc)
  • นัทช์-1699 Tika แยกวิเคราะห์ - ภาพการแยกวิเคราะห์ข้อผิดพลาด (เมห์เม็ต Zahid Yuzuguldu, snagel ผ่าน lewismc)
  • พอร์ต Nutch-1568 สถาปัตยกรรมการจัดทำดัชนี pluggable เพื่อ 2.x (ตลาด UYARER ผ่าน lewismc)
  • inlinks Nutch-1672 จะมีการเพิ่มสองครั้งใน DbUpdateReducer (Tien Nguyen Manh ผ่าน lewismc)
  • นัทช์-1667 updatedb มักจะไม่สนใจ batchId (Tien Nguyen Manh ผ่าน lewismc)
  • นัทช์-1695 NutchDocument.toString () (markus ผ่าน lewismc)
  • นัทช์-1696 เปิดใช้งานการใช้งาน (Gora) ภาพรวมการอ้างอิง (lewismc)
  • นัทช์-1681 ใน URLUtil.java วิธี toUNICODE ทำงานไม่ถูกต้อง (A

ความคิดเห็นที่ Apache Nutch

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!