Apache Tika

ภาพหน้าจอของซอฟแวร์:

รายละเอียดซอฟแวร์:

รุ่น: 1.9 ^{การปรับปรุง}

วันที่อัพโหลด: 20 Jul 15

ผู้พัฒนา: Apache Software Foundation

การอนุญาต: ฟรี

ความนิยม: 320

ดาวน์โหลด

Currently 4.00/5
1
2
3
4
5

Rating: 4.0/5 (Total Votes: 2)

Apache Tika รับการพัฒนาเป็นเครื่องมือในระดับต่ำสำหรับการค้นหาเนื้อหาภายในไฟล์อื่น ๆ
Tika ไม่ได้ทำมากในตัวเองเป็นห้องสมุดที่เรียบง่าย แต่ก็สามารถที่จะบูรณาการในเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นเครื่องมือค้นหาระบบการจัดการสินทรัพย์ดิจิตอลหรือ CMSs เพื่อให้ทำงานอย่างเต็มที่ในระบบการค้นหาไฟล์
ห้องสมุดสามารถเข้าถึงเพียงส่วนหัวของแฟ้มสำหรับแฟ้มข้อมูลโดยรวมอย่างรวดเร็วหรือสามารถไปลึกมากและค้นหาแม้จะอยู่ในร่างกายของไฟล์หลากหลายชนิดของข้อมูลในข้อความหรือรูปแบบไบนารี
หลากหลายของประเภทไฟล์ที่ได้รับการสนับสนุนและ Tika นอกจากนี้ยังสามารถนำมาใช้กับการเขียนโปรแกรมภาษาอื่น ๆ ขอบคุณชุดผูกบุคคลที่สามและห่อได้.

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้

ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.8:

ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.7:

ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.6:

ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งการแปลที่ใหม่ API, รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.5:.

แก้ไขข้อผิดพลาดในการจัดการการประมวลผลไฟล์ที่ฝังอยู่ในไฟล์ PDF
เพิ่ม SourceCodeParser ให้การสนับสนุน Java, Groovy, C ++ ไฟล์.
การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อสนับสนุน multipart / payloads รูปแบบข้อมูล.
การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อ CXF 2.7.8.
การปรับปรุงเซิร์ฟเวอร์ Tika ให้รับการร้องขอในช่วงที่อยู่ตัวแทน.
เพิ่มตัวเลือกที่จะใช้สลับ NonSequentialPDFParser.
เนื้อหาจาก AcroForms PDF เป็นสารสกัดในขณะนี้.
คงเครื่องหมายดอกจันไม่ถูกต้องจากสไลด์โทใน PPT.
เพิ่มกรณีทดสอบเพื่อยืนยันการจัดการของวันที่อัตโนมัติใน PPT และ PPTX.

มีอะไรใหม่ ในรุ่น 1.4:

ลบไฟล์ HTML การทดสอบด้วยการเลือกที่ไม่ดีข้อความ GPL ใน มัน.
การปรับปรุง tika เซิร์ฟเวอร์อนุญาตให้ผลิต text / html และข้อความ / เนื้อหา XML.
การปรับปรุงได้ทำเพื่อตัวแยกวิเคราะห์คอมเพรสเซอร์ในการจัดการไฟล์ g'zipped ที่จำเป็นต้องมีตัวเลือก decompressConcatenated ตั้งค่าเป็นจริง.
จ่าหน้าข้อผิดพลาดการพิมพ์ที่ได้รับการป้องกันจากการตรวจสอบของไฟล์ awk.

มีอะไรใหม่ ในรุ่น 1.2:

Apache Tika 1.2 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด

มีอะไรใหม่ ในรุ่น 1.0:

Apache Tika 1.0 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด

มีอะไรใหม่ ในรุ่น 0.9:.

ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดที่สำคัญหลายประการและคุณสมบัติใหม่

มีอะไรใหม่ ในรุ่น 0.8:

การระบุภาษาอยู่ในขณะนี้กำหนดค่าแบบไดนามิกที่มีการจัดการผ่านทางไฟล์ config โหลดจากคลาสพา ธ .
Tika ในขณะนี้สนับสนุนการแยกฟีดโดยการตัดพื้นฐานห้องสมุดโรม.
คู่มือเริ่มต้นอย่างรวดเร็วสำหรับการแยก Tika เป็นผล.
วิธีการประปาผ่านคุณลักษณะ XHTML ถูกบันทึก.
ข้อมูลประเภทสื่อลำดับชั้นในขณะนี้ถูกนำเข้าบัญชีเมื่อมีการเลือกตัวแยกวิเคราะห์ที่ดีที่สุดสำหรับการป้อนข้อมูลเอกสารที่ได้รับ.
การสนับสนุนสำหรับรูปแบบการแยกวิเคราะห์ข้อมูลทางวิทยาศาสตร์ที่พบบ่อยรวมทั้ง NetCDF และ HDF4 / 5 ถูกบันทึก.
การทดสอบหน่วยสำหรับ Windows ได้รับการแก้ไขที่ช่วยให้ TestParsers ที่จะเสร็จสมบูรณ์.

มีอะไรใหม่ ในรุ่น 0.7:

การแยกไฟล์ MP3 ที่ได้รับการปรับปรุงรวมถึงช่องทางและการสกัด samplerate และ การสนับสนุน ID3v2 นอกจากนี้การตรวจสอบล้อเลียนการแยกเสียงได้ดีขึ้นนอกจากนี้ยังมีสำหรับรูปแบบ MIDI.
Tika ไม่ต้องอาศัย X11 สำหรับการทำงานของการแยก RTF.
ข้อผิดพลาด Thread ปลอดภัยใน AutoDetectParser ถูกค้นพบและการแก้ไข.
อัพเกรด PDFBox 1.0.0 รุ่น PDFBox ใหม่ช่วยเพิ่มประสิทธิภาพการแยกรูปแบบไฟล์ PDF และแก้ไขจำนวนของปัญหาการสกัดข้อความ.

ต้องการ

Java 6 หรือสูงกว่า

20 Jul 15 ใน สคริปต์เครื่องมือในการพัฒนา, เครื่องมืออื่น ๆ อีกการพัฒนาสคริปต์

ซอฟต์แวร์ที่คล้ายกัน

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

ความคิดเห็นที่ Apache Tika

ความคิดเห็นที่ไม่พบ

เพิ่มความคิดเห็น

ซอฟแวร์ที่เป็นที่นิยม

Runt 13 May 15
Kodiak 21 Jul 15
RiCal 13 May 15
Rice 10 Dec 15
Apache Libcloud 9 Apr 16
RTLit 6 Jun 15
J2ObjC 24 May 16

ค้นหาตามหมวดหมู่

Apache Tika

ซอฟต์แวร์ที่คล้ายกัน

rdf-sesame

USTORE.js

Caterpillar

jsonQ

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

Apache Sling

Apache OpenNLP

Apache Torque

Apache Commons Logging

ความคิดเห็นที่ Apache Tika

ความคิดเห็นที่ไม่พบ

เพิ่มความคิดเห็น

ค้นหาตามหมวดหมู่

ซอฟแวร์ดูล่าสุด

InfoMigrator for Lotus Notes 26 Jan 15

Wireless Communication Library VCL Edition 21 Jan 15

ERD Concepts 22 Jan 15

Batch Folder Creator (Personal Edition) 24 Sep 15

Unreal Tournament 2003 - Gauntlet CTF map 28 Oct 15

cqstyle CSS editor 6 May 15

Training Manager Enterprise Edition 1 Jan 15

U-Upload Cart 26 Oct 15

Fix RSS Feed Plugin 1 Jan 15

DBX Open File Tool 7 Apr 16

ค้นหาตามหมวดหมู่

ซอฟแวร์ที่เป็นที่นิยม

Valentine 1 Oct 15

Jackson 9 Feb 16

YAJET 6 Jun 15

WideImage 6 Jun 15

Postjoy 13 Apr 15

Head JS 13 May 15

Pathname2 13 May 15

Apache Tika

ซอฟต์แวร์ที่คล้ายกัน

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

ความคิดเห็นที่ Apache Tika

ความคิดเห็นที่ไม่พบ

เพิ่มความคิดเห็น

ซอฟแวร์ดูล่าสุด

InfoMigrator for Lotus Notes 26 Jan 15

Wireless Communication Library VCL Edition 21 Jan 15

ERD Concepts 22 Jan 15

Batch Folder Creator (Personal Edition) 24 Sep 15

Unreal Tournament 2003 - Gauntlet CTF map 28 Oct 15

cqstyle CSS editor 6 May 15

Training Manager Enterprise Edition 1 Jan 15

U-Upload Cart 26 Oct 15

Fix RSS Feed Plugin 1 Jan 15

DBX Open File Tool 7 Apr 16

ค้นหาตามหมวดหมู่

ซอฟแวร์ที่เป็นที่นิยม

Runt 13 May 15

Kodiak 21 Jul 15

RiCal 13 May 15

Rice 10 Dec 15

Apache Libcloud 9 Apr 16

RTLit 6 Jun 15

J2ObjC 24 May 16