PDF Extractor SDK สำหรับนักพัฒนาซอฟต์แวร์ Windows: PDF to Text, PDF เป็น XML, ภาพจาก PDF, อ่านข้อมูล PDF, PDF เป็น CSV for Excel
Bytescout PDF Extractor SDK ช่วยให้สามารถแปลงไฟล์ PDF เป็นข้อความ PDF ไปยัง XML, PDF to CSV ดึงข้อมูลจาก PDF ดึงข้อมูลเกี่ยวกับไฟล์ PDF ในอินเทอร์เฟซของ. NET และ ActiveX โดยไม่ต้องใช้ซอฟต์แวร์เพิ่มเติมใด ๆ
ประโยชน์ที่ได้รับ:
แปลงไฟล์ PDF เป็นข้อความธรรมดา (และสามารถทำตามคอลัมน์ได้ถ้าคุณแปลงเป็นหนังสือพิมพ์ในรูปแบบ PDF) - รวมทั้งการดึงข้อความที่มองไม่เห็น
แปลงตารางใน PDF เป็น Excel (CSV) โดยการอ่านเซลล์จากรูปสี่เหลี่ยมผืนผ้าที่ให้มา
แปลงตารางในรูปแบบไฟล์ PDF เป็นไฟล์ XML;
สารสกัดจากข้อมูลไฟล์ PDF (ชื่อผู้แต่งคำอธิบาย) และรับข้อมูลอื่น ๆ เกี่ยวกับไฟล์ (จำนวนหน้าที่เข้ารหัสหรือไม่);
สกัดภาพฝังตัวจากเอกสาร PDF (ใน ASP.NET, VB.NET, C #, VB6 และ VBScript);
DocumentMerger และ DocumentSplitter interfaces และ classes เพื่อรวมและแบ่งเอกสาร PDF;
ไม่ต้องติดตั้ง Adobe Reader หรือโปรแกรมอ่าน PDF อื่น ๆ
ให้อินเตอร์เฟซ. NET และ ActiveX;
ทำด้วยรหัส C # ที่จัดการได้ 100%
มีอะไรใหม่ ในรุ่นนี้:
เวอร์ชัน 9.0.0.3079: เพิ่มการกรองเนื้อหาที่คัดแยกโดยใช้ชื่อแบบอักษรขนาดตัวอักษรและสี
อัปเดต OCR เครื่องยนต์เป็นเวอร์ชันล่าสุดแล้ว อัปเดตไฟล์ภาษาจากโฟลเดอร์ 'tessdata'
การสกัดข้อความที่ดีขึ้นการจัดกลุ่มสายในข้อมูลแบบตารางประสิทธิภาพการดึงข้อมูลรูปแบบ XFA, TableDetector, การแยกวิเคราะห์รูปแบบไฟล์ PDF อย่างถาวร
มีอะไรใหม่ ในเวอร์ชัน 8.7.0.2980:
เพิ่มการกรองเนื้อหาที่คัดแยกโดยใช้ชื่อแบบอักษรขนาดตัวอักษรและสี
อัปเดต OCR เครื่องยนต์เป็นเวอร์ชันล่าสุดแล้ว อัปเดตไฟล์ภาษาจากโฟลเดอร์ 'tessdata'
การสกัดข้อความที่ดีขึ้นการจัดกลุ่มสายในข้อมูลแบบตารางประสิทธิภาพการดึงข้อมูลรูปแบบ XFA, TableDetector, การแยกวิเคราะห์ไฟล์ PDF แบบถาวร
มีอะไรใหม่ ในเวอร์ชัน 8.6.0.2911:
เพิ่มการกรองเนื้อหาที่คัดแยกโดยใช้ชื่อแบบอักษรขนาดตัวอักษรและสี
อัปเดต OCR เครื่องยนต์เป็นเวอร์ชันล่าสุดแล้ว อัปเดตไฟล์ภาษาจากโฟลเดอร์ 'tessdata'
การสกัดข้อความที่ดีขึ้นการจัดกลุ่มสายในข้อมูลแบบตารางผลการดำเนินงานการดึงข้อมูลรูปแบบ XFA, TableDetector, การแยกวิเคราะห์ไฟล์ PDF แบบถาวร
มีอะไรใหม่ ในเวอร์ชัน 8.2.0.2699:
เวอร์ชั่น 8.2.0.2699 อาจรวมถึงการอัปเดตการปรับปรุงหรือแก้ไขข้อบกพร่อง
มีอะไรใหม่ ในเวอร์ชัน 8.0.0.2528:
มีอะไรใหม่ ในเวอร์ชัน 7.0.0.2474:
เวอร์ชัน 7.0.0.2474:
- เพิ่มคลาสอรรถประโยชน์ DocumentPrinter ใหม่เพื่อให้สามารถพิมพ์เอกสาร PDF แบบเงียบ ๆ (โดยไม่มีกล่องโต้ตอบของผู้ใช้ใด ๆ )
- เพิ่มคลาส JSONExtractor ใหม่
- แทนที่การแทนที่สำหรับ DocumentSplitter.Split () วิธีการอนุญาตให้ระบุโฟลเดอร์เอาต์พุตสำหรับไฟล์ที่สร้างขึ้น
- แก้ไขปัญหาแบบมัลติเธรดใน DocumentSplitter
- tableDetector ตอนนี้ถือว่าพื้นที่การสกัดที่กำหนดโดย SetExtractionArea () method
- คุณสมบัติใหม่ในคลาสการดึงข้อมูล: ExtractionColumns - ประกอบด้วยพิกัดของคอลัมน์ที่ตรวจพบ CustomExtractionColumns - ช่วยในการแทนที่การตรวจหาคอลัมน์
- เมธอด GetPageRect * ไม่ได้คำนึงถึงการหมุนหน้าเว็บ
แก้ไขข้อผิดพลาดในโปรแกรมติดตั้งที่ทำให้บางไฟล์จากการติดตั้งก่อนหน้ากำลังรบกวนการอัปเดต - ใช้การตรวจสอบการลงทะเบียนใหม่ ตอนนี้ห้องสมุดจะไม่โยนข้อยกเว้น แต่ทำงานในโหมดสาธิตถ้าคุณพลาดหรือป้อนผิด RegistrationName และ RegistrationKey
- PDF Multitool: เพิ่มรายการเอกสารล่าสุดลงใน "เปิดเอกสาร PDF"
- PDF Multitool: การเลือกสามารถปรับขนาดได้ในขณะนี้
- PDF Multitool: เพิ่มคุณสมบัติการดึงข้อมูล JSON
- PDF Multitool: UI เครื่องตรวจจับตารางที่ปรับปรุงใหม่
- PDF Multitool: คุณภาพการแสดงผลแบบอักษรที่ปรับปรุงขึ้นอย่างมาก
- PDF Multitool: เพิ่มตัวเลือกการแก้ปัญหา "Show Detected Extraction Columns" ในเมนูบริบทเพื่อแสดงคอลัมน์ที่ตรวจพบในหน้าปัจจุบัน จะปรากฏเฉพาะเมื่อเรียกใช้การสกัดใด ๆ กับหน้าปัจจุบันที่แสดง
- PDF Multitool: ปัญหาการแสดงผลแบบอักษรคงที่ใน Windows แบบ 32 บิต
- การปรับปรุงเล็กน้อยและการแก้ไขข้อบกพร่องอื่น ๆ
- เพิ่มคลาสอรรถประโยชน์ TextComparer (ใช้ได้ใน. NET 4.0 แอสเซมบลีเท่านั้น) ช่วยให้สามารถเปรียบเทียบข้อความในเอกสาร PDF สองชุดและสร้างรายงาน
- ปรับปรุงรูปแบบสี ICC ที่เพิ่มขึ้น
- การจัดการแบบอักษรฝังตัวที่ไม่ถูกต้อง
- ไฟล์ AttachmentExtractor ที่ปรับปรุงแล้ว
- แก้ไขเมธอด XMLExtractor.SaveXMLToStream ()
- แก้ไขข้อความที่คัดลอกโดยใช้ OCRCacheMode.WholePage
- การแก้ไขข้อบกพร่องอื่น ๆ และการปรับปรุง
- PDF เป็นข้อความ, PDF เป็น CSV, PDF ไปยังฟังก์ชัน XML ที่ปรับปรุงใหม่
- วิดีโอสารสกัดใหม่ดึงตัวอย่างเสียง
- CSV และ XML extractors ปรับปรุงการสนับสนุนตารางที่มีคอลัมน์เปล่าภายใน
- MultimediaExtractor ใหม่เพื่อแยกวิดีโอและเสียงจาก PDF
- คุณสมบัติใหม่ PageDataCaching
- ตัวอย่างใหม่ "MemoryCareProcessingOfHugeFiles"
- ข้อยกเว้นเป็นโมฆะคงที่เมื่อพยายามกำจัดหน้าจำหน่ายแล้ว
- XLSExtractor: ปรับปรุงการสนับสนุนแบบอักษร
- SkipInvisibleText ข้ามข้อความที่ตัดแล้ว (ซึ่งไม่สามารถมองเห็นได้)
- ปรับปรุงการแสดงผลข้อความ
- XFDF Extractor: เพิ่มการสนับสนุนสำหรับช่องทำเครื่องหมาย
- เอาต์พุตรูปภาพออกมาปรับปรุงเพื่อสนับสนุนรูปแบบย่อยมากขึ้น
- ปรับปรุงการจัดการข้อความ Unicode แล้ว
- ตัวอย่างการประมวลผลชุดปรับปรุงเพื่อแสดงการใช้วิธีการ Reset ()
- เพิ่มตัวอย่างซอร์สโค้ด C + + สำหรับการดึงข้อมูลหน้า
- DocumentMerger เพิ่มเมธู 2 (inputfile1, inputfile2, outputfile) เพื่อรวมไฟล์ 2 ไฟล์
- XLS Extractor แก้ไขข้อบกพร่องเล็ก ๆ น้อย ๆ
- PDF Multitool อนุญาตให้เปิด / ปิดการใช้งานข้อความรูปภาพเวกเตอร์เลเยอร์และเพิ่มการตั้งค่าขั้นสูงสำหรับการดึงข้อความ
- XML, CSV, การสกัดแบบตารางช่วยเพิ่มการสนับสนุนตารางที่มีเซลล์ emtpry ภายในคอลัมน์
คุณสมบัติ - .ExtractShadowLikeText มีการปรับปรุงให้ดียิ่งขึ้น: สามารถกรองข้อความเงาได้ดียิ่งขึ้น
- PDF เป็น XML, PDF เป็น CSV และปรับปรุงรูปแบบไฟล์ PDF เป็นข้อความ
- ตัวอย่างไฟล์ PDF ไปยัง XLS command line (ตาม vbscript)
- PDF To HTML SDK เพิ่มคุณสมบัติใหม่ของ .DectectHyperLinks (TRUE โดยค่าเริ่มต้น) เพื่อเปิด / ปิดใช้งานการตรวจหาลิงก์อัตโนมัติในข้อความ
- SearchablePDFMaker (พร้อมใช้งานสำหรับใบอนุญาต PRO) เพื่อแปลงไฟล์ PDF เป็นไฟล์ PDF ที่สามารถค้นหาได้
- คุณสมบัติใหม่ในตัวดึงข้อมูล: ConsiderFontNames, ConsiderFontSizes, ConsiderFontColors, ConsiderVerticalBorders ในไฟล์ CFG
- การตรวจหาคอลัมน์ส่วนหัว (เมื่อ AutoAlighheaderToColumns = true) ปรับปรุงขึ้น
- . DetectLinesInsteadOfParagraphs ถูกแทนที่ด้วย new .LineGroupingMode เพื่อควบคุมวิธีการรวมสายเข้ากับย่อหน้า
- สำคัญ! PDF เพื่อแก้ไขปัญหา XML เป็นเวลานานโดยมีพิกัด Y ไม่ถูกต้องสำหรับอ็อบเจ็กต์ข้อความ (ถูกชี้ไปที่ด้านล่างซ้ายแทนด้านบนซ้าย)
- .TableXMinIntersectionRequiredInPercents และ .TableYMinIntersectionRequiredInPercents เพิ่มคุณสมบัติแล้ว
- เพิ่มตัวอย่างโค้ด C + +
- XML Extractor แก้ไขคอลัมน์ว่างใน PreserveFormatting = true mode
- แก้ไขเล็กน้อยในสีในไฟล์ PDF บางประเภท
- สนับสนุนภาษา OCR หลายภาษาที่เพิ่มเข้าไป
- PDF Multitool GUI: เพิ่มปุ่มคัดลอกไปที่คลิปบอร์ดไปยังกล่องโต้ตอบตัวแสดงภาพ TXT, CSV, XML และแรสเตอร์
- XLSExtractor: เพิ่มคุณสมบัติ PageToWorksheet เพื่อเปิด / ปิดการสร้างแผ่นงานแยกต่อหน้า
- คุณสมบัติใหม่. TextEncodingCodePage
- PDFViewerControl: เพิ่ม ValidateContextMenu เพื่อให้ผู้ใช้สามารถเพิ่มรายการที่กำหนดเองลงในเมนูบริบท
- ตัวควบคุม PDF Viewer: เพิ่มคุณสมบัติ ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor เพิ่มแอตทริบิวต์ "OCRConfidence" สำหรับข้อความที่รู้จักแล้ว
- ฟังก์ชันการตรวจสอบ PDF / A (เป็นเวอร์ชันเบต้า)
- ปรับปรุงการควบคุมและการตรวจสอบข้อความและจัดแนวตามเค้าโครงเดิม ปัญหานี้เกิดจากการเปลี่ยนพิกัด Y ในตัวควบคุมขณะแยกวิเคราะห์: ไม่ถูกต้อง วิธีที่ถูกต้องคือการ shif ...
- อัปเดต XML Extractor: สร้างป้ายกำกับ CONTROL สำหรับช่องทำเครื่องหมายและช่องข้อความแล้ว
- เปลี่ยนการใช้ไดเรกทอรีปัจจุบันเป็นไดเร็กทอรี temp
- ช่องทำเครื่องหมาย, radioboxes, editboxes, comboboxes ได้รับการสนับสนุนที่ดีขึ้น
- ขณะนี้อนุญาตให้ผู้ติดต่อที่ไว้ใจได้บางส่วน
- อัปเดตไฟล์ PDF เป็น XML, ไฟล์ PDF เป็น CSV และไฟล์ PDF ไปยังข้อความแล้ว
- ขณะนี้ OCRMode มีโหมด 9 โหมด
- .DetectLineInsteadOfParagraph ทำงานได้ดียิ่งขึ้น ตั้งค่าเป็น False เพื่อจับภาพข้อความ multiline ในเซลล์ของตาราง!
- การควบคุม PDF สนับสนุนการปรับปรุง
- การสกัดข้อมูล FDF และ XFDF
มีอะไรใหม่ ในเวอร์ชัน 5.10.1747:
เวอร์ชัน 5.10.1747:
- เปลี่ยนรูปแบบไฟล์ PDF เป็น XML, PDF to CSV, PDF to Text
- สนับสนุนการสกัดข้อความจากตัวควบคุมข้อความแล้ว
- XML Extractor จะเพิ่มรูปแบบตัวอักษรขนาดชื่อพิกัดข้อความลงในแท็ก
- ตัวอย่าง ASP.NET สำหรับการใช้ OCR เพิ่ม
- คุณสมบัติใหม่ OCRLanguageDataFolder เพื่อระบุตำแหน่งที่ตั้งของโฟลเดอร์ "tessdata"
- ปรับปรุงการสนับสนุนไฟล์ PDF
- ปรับปรุงการสนับสนุนสำหรับข้อความที่หมุนเวียน
- ตัวอย่างซอร์สโค้ดที่ปรับปรุงแล้ว
- เอกสารฉบับปรับปรุง
- การปรับปรุงและแก้ไขเล็กน้อย
มีอะไรใหม่ ในเวอร์ชัน 5.00.1626:
เวอร์ชัน 5.00.1626:
- เพิ่มฟังก์ชันการทำงาน OCR (ข้อความจากภาพ): ตอนนี้คุณสามารถดึงข้อความจากภาพฝังและซ่อมแซมข้อความที่เสียหายได้
- แก้ไขปัญหาด้วย CSV และ XML extractor เนื่องจากไม่มีคอลัมน์สุดท้ายที่มีการตั้งค่าบางอย่าง
- ปรับปรุงการสนับสนุนไฟล์ PDF ที่เสียหาย
- การค้นหาข้อความค้นหาแบบ multiline ที่มีโหมดการจับคู่คำได้รับการสนับสนุนแล้ว
- ตอนนี้อาจค้นหาข้อความที่มีเครื่องหมายยัติภังค์และบรรทัดต่างๆ: ดูตัวอย่างซอร์สโค้ดใหม่ค้นหาข้อความด้วยยัติภังค์
- พร็อพเพอร์ตี้ใหม่ RTLTextAutoDetectionEnabled (ค่าดีฟอลต์โดยค่าเริ่มต้น) เพื่อตรวจหาภาษา RTL โดยอัตโนมัติ
- การสาธิตตัวจัดการไฟล์ PDF Viewer GUI ดีขึ้น
- การปรับปรุงและแก้ไขเล็กน้อย
NET Framework 2.0 หรือสูงกว่า
ข้อ จำกัด
strong>:
หน้าจอ Nag, ลายน้ำบนเอาต์พุต
- เพิ่มฟังก์ชันการทำงาน OCR (ข้อความจากภาพ): ตอนนี้คุณสามารถดึงข้อความจากภาพฝังและซ่อมแซมข้อความที่เสียหายได้
- เปลี่ยนรูปแบบไฟล์ PDF เป็น XML, PDF to CSV, PDF to Text
มีอะไรใหม่ ในรุ่น 6.30.0.2421:
เวอร์ชั่น 6.30.0.2421:
มีอะไรใหม่ ในเวอร์ชัน 6.20.2354:
เวอร์ชัน 6.20.2354:
มีอะไรใหม่ ในเวอร์ชัน 6.11.2149:
เวอร์ชัน 6.11.2149:
มีอะไรใหม่ ในเวอร์ชัน 6.10.2136:
เวอร์ชัน 6.10.2136:
มีอะไรใหม่ ในเวอร์ชัน 5.80.1781:
เวอร์ชัน 5.80.1781:
ความคิดเห็นที่ไม่พบ