Apache Tika รับการพัฒนาเป็นเครื่องมือในระดับต่ำสำหรับการค้นหาเนื้อหาภายในไฟล์อื่น ๆ
Tika ไม่ได้ทำมากในตัวเองเป็นห้องสมุดที่เรียบง่าย แต่ก็สามารถที่จะบูรณาการในเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นเครื่องมือค้นหาระบบการจัดการสินทรัพย์ดิจิตอลหรือ CMSs เพื่อให้ทำงานอย่างเต็มที่ในระบบการค้นหาไฟล์
ห้องสมุดสามารถเข้าถึงเพียงส่วนหัวของแฟ้มสำหรับแฟ้มข้อมูลโดยรวมอย่างรวดเร็วหรือสามารถไปลึกมากและค้นหาแม้จะอยู่ในร่างกายของไฟล์หลากหลายชนิดของข้อมูลในข้อความหรือรูปแบบไบนารี
หลากหลายของประเภทไฟล์ที่ได้รับการสนับสนุนและ Tika นอกจากนี้ยังสามารถนำมาใช้กับการเขียนโปรแกรมภาษาอื่น ๆ ขอบคุณชุดผูกบุคคลที่สามและห่อได้.
มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.
มีอะไรใหม่ ในรุ่น 1.8:
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.
มีอะไรใหม่ ในรุ่น 1.7:
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.
มีอะไรใหม่ ในรุ่น 1.6:
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งการแปลที่ใหม่ API, รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.
มีอะไรใหม่ ในรุ่น 1.5:.
- แก้ไขข้อผิดพลาดในการจัดการการประมวลผลไฟล์ที่ฝังอยู่ในไฟล์ PDF
- เพิ่ม SourceCodeParser ให้การสนับสนุน Java, Groovy, C ++ ไฟล์.
- การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อสนับสนุน multipart / payloads รูปแบบข้อมูล.
- การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อ CXF 2.7.8.
- การปรับปรุงเซิร์ฟเวอร์ Tika ให้รับการร้องขอในช่วงที่อยู่ตัวแทน.
- เพิ่มตัวเลือกที่จะใช้สลับ NonSequentialPDFParser.
- เนื้อหาจาก AcroForms PDF เป็นสารสกัดในขณะนี้.
- คงเครื่องหมายดอกจันไม่ถูกต้องจากสไลด์โทใน PPT.
- เพิ่มกรณีทดสอบเพื่อยืนยันการจัดการของวันที่อัตโนมัติใน PPT และ PPTX.
มีอะไรใหม่ ในรุ่น 1.4:
- ลบไฟล์ HTML การทดสอบด้วยการเลือกที่ไม่ดีข้อความ GPL ใน มัน.
- การปรับปรุง tika เซิร์ฟเวอร์อนุญาตให้ผลิต text / html และข้อความ / เนื้อหา XML.
- การปรับปรุงได้ทำเพื่อตัวแยกวิเคราะห์คอมเพรสเซอร์ในการจัดการไฟล์ g'zipped ที่จำเป็นต้องมีตัวเลือก decompressConcatenated ตั้งค่าเป็นจริง.
- จ่าหน้าข้อผิดพลาดการพิมพ์ที่ได้รับการป้องกันจากการตรวจสอบของไฟล์ awk.
มีอะไรใหม่ ในรุ่น 1.2:
- Apache Tika 1.2 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด
มีอะไรใหม่ ในรุ่น 1.0:
- Apache Tika 1.0 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด
มีอะไรใหม่ ในรุ่น 0.9:.
- ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดที่สำคัญหลายประการและคุณสมบัติใหม่
มีอะไรใหม่ ในรุ่น 0.8:
- การระบุภาษาอยู่ในขณะนี้กำหนดค่าแบบไดนามิกที่มีการจัดการผ่านทางไฟล์ config โหลดจากคลาสพา ธ .
- Tika ในขณะนี้สนับสนุนการแยกฟีดโดยการตัดพื้นฐานห้องสมุดโรม.
- คู่มือเริ่มต้นอย่างรวดเร็วสำหรับการแยก Tika เป็นผล.
- วิธีการประปาผ่านคุณลักษณะ XHTML ถูกบันทึก.
- ข้อมูลประเภทสื่อลำดับชั้นในขณะนี้ถูกนำเข้าบัญชีเมื่อมีการเลือกตัวแยกวิเคราะห์ที่ดีที่สุดสำหรับการป้อนข้อมูลเอกสารที่ได้รับ.
- การสนับสนุนสำหรับรูปแบบการแยกวิเคราะห์ข้อมูลทางวิทยาศาสตร์ที่พบบ่อยรวมทั้ง NetCDF และ HDF4 / 5 ถูกบันทึก.
- การทดสอบหน่วยสำหรับ Windows ได้รับการแก้ไขที่ช่วยให้ TestParsers ที่จะเสร็จสมบูรณ์.
มีอะไรใหม่ ในรุ่น 0.7:
- การแยกไฟล์ MP3 ที่ได้รับการปรับปรุงรวมถึงช่องทางและการสกัด samplerate และ การสนับสนุน ID3v2 นอกจากนี้การตรวจสอบล้อเลียนการแยกเสียงได้ดีขึ้นนอกจากนี้ยังมีสำหรับรูปแบบ MIDI.
- Tika ไม่ต้องอาศัย X11 สำหรับการทำงานของการแยก RTF.
- ข้อผิดพลาด Thread ปลอดภัยใน AutoDetectParser ถูกค้นพบและการแก้ไข.
- อัพเกรด PDFBox 1.0.0 รุ่น PDFBox ใหม่ช่วยเพิ่มประสิทธิภาพการแยกรูปแบบไฟล์ PDF และแก้ไขจำนวนของปัญหาการสกัดข้อความ.
ต้องการ
- Java 6 หรือสูงกว่า
ความคิดเห็นที่ไม่พบ