Apache Tika

ภาพหน้าจอของซอฟแวร์:
Apache Tika
รายละเอียดซอฟแวร์:
รุ่น: 1.9 การปรับปรุง
วันที่อัพโหลด: 20 Jul 15
ผู้พัฒนา: Apache Software Foundation
การอนุญาต: ฟรี
ความนิยม: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika รับการพัฒนาเป็นเครื่องมือในระดับต่ำสำหรับการค้นหาเนื้อหาภายในไฟล์อื่น ๆ
Tika ไม่ได้ทำมากในตัวเองเป็นห้องสมุดที่เรียบง่าย แต่ก็สามารถที่จะบูรณาการในเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นเครื่องมือค้นหาระบบการจัดการสินทรัพย์ดิจิตอลหรือ CMSs เพื่อให้ทำงานอย่างเต็มที่ในระบบการค้นหาไฟล์
ห้องสมุดสามารถเข้าถึงเพียงส่วนหัวของแฟ้มสำหรับแฟ้มข้อมูลโดยรวมอย่างรวดเร็วหรือสามารถไปลึกมากและค้นหาแม้จะอยู่ในร่างกายของไฟล์หลากหลายชนิดของข้อมูลในข้อความหรือรูปแบบไบนารี
หลากหลายของประเภทไฟล์ที่ได้รับการสนับสนุนและ Tika นอกจากนี้ยังสามารถนำมาใช้กับการเขียนโปรแกรมภาษาอื่น ๆ ขอบคุณชุดผูกบุคคลที่สามและห่อได้.

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.8:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.7:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.6:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งการแปลที่ใหม่ API, รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.5:.

  • แก้ไขข้อผิดพลาดในการจัดการการประมวลผลไฟล์ที่ฝังอยู่ในไฟล์ PDF
  • เพิ่ม SourceCodeParser ให้การสนับสนุน Java, Groovy, C ++ ไฟล์.
  • การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อสนับสนุน multipart / payloads รูปแบบข้อมูล.
  • การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อ CXF 2.7.8.
  • การปรับปรุงเซิร์ฟเวอร์ Tika ให้รับการร้องขอในช่วงที่อยู่ตัวแทน.
  • เพิ่มตัวเลือกที่จะใช้สลับ NonSequentialPDFParser.
  • เนื้อหาจาก AcroForms PDF เป็นสารสกัดในขณะนี้.
  • คงเครื่องหมายดอกจันไม่ถูกต้องจากสไลด์โทใน PPT.
  • เพิ่มกรณีทดสอบเพื่อยืนยันการจัดการของวันที่อัตโนมัติใน PPT และ PPTX.

มีอะไรใหม่ ในรุ่น 1.4:

  • ลบไฟล์ HTML การทดสอบด้วยการเลือกที่ไม่ดีข้อความ GPL ใน มัน.
  • การปรับปรุง tika เซิร์ฟเวอร์อนุญาตให้ผลิต text / html และข้อความ / เนื้อหา XML.
  • การปรับปรุงได้ทำเพื่อตัวแยกวิเคราะห์คอมเพรสเซอร์ในการจัดการไฟล์ g'zipped ที่จำเป็นต้องมีตัวเลือก decompressConcatenated ตั้งค่าเป็นจริง.
  • จ่าหน้าข้อผิดพลาดการพิมพ์ที่ได้รับการป้องกันจากการตรวจสอบของไฟล์ awk.

มีอะไรใหม่ ในรุ่น 1.2:

  • Apache Tika 1.2 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด

มีอะไรใหม่ ในรุ่น 1.0:

  • Apache Tika 1.0 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด

มีอะไรใหม่ ในรุ่น 0.9:.

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดที่สำคัญหลายประการและคุณสมบัติใหม่

มีอะไรใหม่ ในรุ่น 0.8:

  • การระบุภาษาอยู่ในขณะนี้กำหนดค่าแบบไดนามิกที่มีการจัดการผ่านทางไฟล์ config โหลดจากคลาสพา ธ .
  • Tika ในขณะนี้สนับสนุนการแยกฟีดโดยการตัดพื้นฐานห้องสมุดโรม.
  • คู่มือเริ่มต้นอย่างรวดเร็วสำหรับการแยก Tika เป็นผล.
  • วิธีการประปาผ่านคุณลักษณะ XHTML ถูกบันทึก.
  • ข้อมูลประเภทสื่อลำดับชั้นในขณะนี้ถูกนำเข้าบัญชีเมื่อมีการเลือกตัวแยกวิเคราะห์ที่ดีที่สุดสำหรับการป้อนข้อมูลเอกสารที่ได้รับ.
  • การสนับสนุนสำหรับรูปแบบการแยกวิเคราะห์ข้อมูลทางวิทยาศาสตร์ที่พบบ่อยรวมทั้ง NetCDF และ HDF4 / 5 ถูกบันทึก.
  • การทดสอบหน่วยสำหรับ Windows ได้รับการแก้ไขที่ช่วยให้ TestParsers ที่จะเสร็จสมบูรณ์.

มีอะไรใหม่ ในรุ่น 0.7:

  • การแยกไฟล์ MP3 ที่ได้รับการปรับปรุงรวมถึงช่องทางและการสกัด samplerate และ การสนับสนุน ID3v2 นอกจากนี้การตรวจสอบล้อเลียนการแยกเสียงได้ดีขึ้นนอกจากนี้ยังมีสำหรับรูปแบบ MIDI.
  • Tika ไม่ต้องอาศัย X11 สำหรับการทำงานของการแยก RTF.
  • ข้อผิดพลาด Thread ปลอดภัยใน AutoDetectParser ถูกค้นพบและการแก้ไข.
  • อัพเกรด PDFBox 1.0.0 รุ่น PDFBox ใหม่ช่วยเพิ่มประสิทธิภาพการแยกรูปแบบไฟล์ PDF และแก้ไขจำนวนของปัญหาการสกัดข้อความ.

ต้องการ

  • Java 6 หรือสูงกว่า

ซอฟต์แวร์ที่คล้ายกัน

Stately.js
Stately.js

10 Feb 16

StringTree
StringTree

5 Jun 15

Load.js
Load.js

5 Jun 15

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

Apache Axis2
Apache Axis2

10 Apr 16

Apache JSPWiki
Apache JSPWiki

12 May 15

Apache Clerezza
Apache Clerezza

20 Jul 15

ความคิดเห็นที่ Apache Tika

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่