Apache Tika

ภาพหน้าจอของซอฟแวร์:
Apache Tika
รายละเอียดซอฟแวร์:
รุ่น: 1.9 การปรับปรุง
วันที่อัพโหลด: 20 Jul 15
ผู้พัฒนา: Apache Software Foundation
การอนุญาต: ฟรี
ความนิยม: 320

Rating: 4.0/5 (Total Votes: 2)

Apache Tika รับการพัฒนาเป็นเครื่องมือในระดับต่ำสำหรับการค้นหาเนื้อหาภายในไฟล์อื่น ๆ
Tika ไม่ได้ทำมากในตัวเองเป็นห้องสมุดที่เรียบง่าย แต่ก็สามารถที่จะบูรณาการในเครื่องมือที่มีประสิทธิภาพมากขึ้นเช่นเครื่องมือค้นหาระบบการจัดการสินทรัพย์ดิจิตอลหรือ CMSs เพื่อให้ทำงานอย่างเต็มที่ในระบบการค้นหาไฟล์
ห้องสมุดสามารถเข้าถึงเพียงส่วนหัวของแฟ้มสำหรับแฟ้มข้อมูลโดยรวมอย่างรวดเร็วหรือสามารถไปลึกมากและค้นหาแม้จะอยู่ในร่างกายของไฟล์หลากหลายชนิดของข้อมูลในข้อความหรือรูปแบบไบนารี
หลากหลายของประเภทไฟล์ที่ได้รับการสนับสนุนและ Tika นอกจากนี้ยังสามารถนำมาใช้กับการเขียนโปรแกรมภาษาอื่น ๆ ขอบคุณชุดผูกบุคคลที่สามและห่อได้.

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.8:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.7:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งใหม่ Tesseract OCR แยกวิเคราะห์; GDAL ใหม่แยกวิเคราะห์; รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.6:

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดและคุณสมบัติใหม่รวมทั้งการแปลที่ใหม่ API, รูปแบบการสนับสนุนมากขึ้นและการปรับปรุงโดยรวมในเสถียรภาพ Tika.

มีอะไรใหม่ ในรุ่น 1.5:.

  • แก้ไขข้อผิดพลาดในการจัดการการประมวลผลไฟล์ที่ฝังอยู่ในไฟล์ PDF
  • เพิ่ม SourceCodeParser ให้การสนับสนุน Java, Groovy, C ++ ไฟล์.
  • การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อสนับสนุน multipart / payloads รูปแบบข้อมูล.
  • การปรับปรุงเซิร์ฟเวอร์ Tika เพื่อ CXF 2.7.8.
  • การปรับปรุงเซิร์ฟเวอร์ Tika ให้รับการร้องขอในช่วงที่อยู่ตัวแทน.
  • เพิ่มตัวเลือกที่จะใช้สลับ NonSequentialPDFParser.
  • เนื้อหาจาก AcroForms PDF เป็นสารสกัดในขณะนี้.
  • คงเครื่องหมายดอกจันไม่ถูกต้องจากสไลด์โทใน PPT.
  • เพิ่มกรณีทดสอบเพื่อยืนยันการจัดการของวันที่อัตโนมัติใน PPT และ PPTX.

มีอะไรใหม่ ในรุ่น 1.4:

  • ลบไฟล์ HTML การทดสอบด้วยการเลือกที่ไม่ดีข้อความ GPL ใน มัน.
  • การปรับปรุง tika เซิร์ฟเวอร์อนุญาตให้ผลิต text / html และข้อความ / เนื้อหา XML.
  • การปรับปรุงได้ทำเพื่อตัวแยกวิเคราะห์คอมเพรสเซอร์ในการจัดการไฟล์ g'zipped ที่จำเป็นต้องมีตัวเลือก decompressConcatenated ตั้งค่าเป็นจริง.
  • จ่าหน้าข้อผิดพลาดการพิมพ์ที่ได้รับการป้องกันจากการตรวจสอบของไฟล์ awk.

มีอะไรใหม่ ในรุ่น 1.2:

  • Apache Tika 1.2 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด

มีอะไรใหม่ ในรุ่น 1.0:

  • Apache Tika 1.0 มีจำนวนของการปรับปรุงและแก้ไขข้อผิดพลาด

มีอะไรใหม่ ในรุ่น 0.9:.

  • ข่าวประชาสัมพันธ์ฉบับนี้รวมถึงการแก้ไขข้อผิดพลาดที่สำคัญหลายประการและคุณสมบัติใหม่

มีอะไรใหม่ ในรุ่น 0.8:

  • การระบุภาษาอยู่ในขณะนี้กำหนดค่าแบบไดนามิกที่มีการจัดการผ่านทางไฟล์ config โหลดจากคลาสพา ธ .
  • Tika ในขณะนี้สนับสนุนการแยกฟีดโดยการตัดพื้นฐานห้องสมุดโรม.
  • คู่มือเริ่มต้นอย่างรวดเร็วสำหรับการแยก Tika เป็นผล.
  • วิธีการประปาผ่านคุณลักษณะ XHTML ถูกบันทึก.
  • ข้อมูลประเภทสื่อลำดับชั้นในขณะนี้ถูกนำเข้าบัญชีเมื่อมีการเลือกตัวแยกวิเคราะห์ที่ดีที่สุดสำหรับการป้อนข้อมูลเอกสารที่ได้รับ.
  • การสนับสนุนสำหรับรูปแบบการแยกวิเคราะห์ข้อมูลทางวิทยาศาสตร์ที่พบบ่อยรวมทั้ง NetCDF และ HDF4 / 5 ถูกบันทึก.
  • การทดสอบหน่วยสำหรับ Windows ได้รับการแก้ไขที่ช่วยให้ TestParsers ที่จะเสร็จสมบูรณ์.

มีอะไรใหม่ ในรุ่น 0.7:

  • การแยกไฟล์ MP3 ที่ได้รับการปรับปรุงรวมถึงช่องทางและการสกัด samplerate และ การสนับสนุน ID3v2 นอกจากนี้การตรวจสอบล้อเลียนการแยกเสียงได้ดีขึ้นนอกจากนี้ยังมีสำหรับรูปแบบ MIDI.
  • Tika ไม่ต้องอาศัย X11 สำหรับการทำงานของการแยก RTF.
  • ข้อผิดพลาด Thread ปลอดภัยใน AutoDetectParser ถูกค้นพบและการแก้ไข.
  • อัพเกรด PDFBox 1.0.0 รุ่น PDFBox ใหม่ช่วยเพิ่มประสิทธิภาพการแยกรูปแบบไฟล์ PDF และแก้ไขจำนวนของปัญหาการสกัดข้อความ.

ต้องการ

  • Java 6 หรือสูงกว่า

ซอฟต์แวร์ที่คล้ายกัน

css-flip
css-flip

14 Apr 15

Java Excel API
Java Excel API

6 Jun 15

Addressable
Addressable

12 Apr 15

PHamlP
PHamlP

6 Jun 15

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

Apache Wicket
Apache Wicket

10 Feb 16

Apache Parquet
Apache Parquet

9 Feb 16

Apache Buildr
Apache Buildr

20 Jul 15

ความคิดเห็นที่ Apache Tika

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่