รายละเอียดซอฟแวร์:
สามารถแก้ไขด้านเซิร์ฟเวอร์และแท็กฝั่งไคลเอ็นต์ในขณะที่การทำซ้ำคำต่อคำใด ๆ HTML ที่ไม่รู้จักหรือไม่ถูกต้อง.
นอกจากนี้ยังมีระดับสูงฟังก์ชั่นการจัดการรูปแบบ HTML
คุณสมบัติ .
- การปรากฏตัวของ การจัดรูปแบบ HTML ไม่ดีไม่ยุ่งเกี่ยวกับการแยกส่วนที่เหลือของเอกสารซึ่งจะทำให้ห้องสมุดที่เหมาะสำหรับการใช้งานกับ & quot; ที่แท้จริงของโลก & quot; HTML ที่ฉายา parsers อื่น ๆ .
- ASP, JSP, PSP, PHP และเมสันแท็กเซิร์ฟเวอร์ได้รับการยอมรับอย่างชัดเจนโดยตัวแยกวิเคราะห์ ซึ่งหมายความว่า HTML ปกติยังคงแยกวิเคราะห์อย่างถูกต้องแม้ว่าจะมีแท็กเซิร์ฟเวอร์ภายในพวกเขาซึ่งเป็นเรื่องธรรมดาเช่นการตั้งค่าแบบไดนามิกเมื่อแอตทริบิวต์องค์ประกอบ.
- กระแสใหม่ตัวเลือกการแยกวิเคราะห์โดยใช้ชั้น StreamedSource ซึ่งจะช่วยให้การประมวลผลหน่วยความจำที่มีประสิทธิภาพของไฟล์ขนาดใหญ่โดยใช้เหตุการณ์วนซํ้า นี้เป็นหลักเป็นทางเลือกที่มีความสามารถในการประมวลผล StAX HTML และ XML ไม่ใช่การตรวจสอบเช่นเดียวกับคุณสมบัติอื่น ๆ ไม่สามารถใช้ได้ในสตรีมมิ่ง parsers อื่น ๆ .
- ในรูปแบบมาตรฐานของมันไม่ใช่เหตุการณ์หรือต้นไม้แยกวิเคราะห์ตาม แต่ใช้การรวมกันของการค้นหาข้อความที่เรียบง่าย, การรับรู้ที่มีประสิทธิภาพและแท็กแท็กแคชตำแหน่งได้ ข้อความของเอกสารแหล่งที่มาทั้งที่มีการโหลดครั้งแรกในหน่วยความจำแล้วเท่านั้นส่วนที่เกี่ยวข้องค้นหาตัวละครที่เกี่ยวข้องในการดำเนินการค้นหาแต่ละ.
- เมื่อเทียบกับตัวแยกวิเคราะห์ตามต้นไม้เช่น DOM, หน่วยความจำและความต้องการทรัพยากรได้ไกลดีกว่าถ้าเพียงส่วนเล็ก ๆ ของเอกสารที่จะต้องมีการแยกหรือการปรับเปลี่ยน ที่ไม่ถูกต้องหรือการจัดรูปแบบ HTML ที่ไม่ดีสามารถจะละเลยไม่เหมือน parsers ตามต้นไม้ซึ่งจะต้องระบุโหนดทุกคนในเอกสารจากบนลงล่าง.
- เมื่อเทียบกับเหตุการณ์ที่แยกวิเคราะห์เช่นแซ็กโซโฟนที่มีอินเตอร์เฟซที่อยู่ในระดับที่สูงมากและใช้งานง่ายมากขึ้นและเป็นตัวแทนของต้นไม้ลำดับชั้นขององค์ประกอบเอกสารที่ถูกสร้างขึ้นได้อย่างง่ายดายหากจำเป็น.
- เริ่มต้นและตำแหน่งสิ้นสุดในเอกสารแหล่งที่มาของกลุ่มแยกทั้งหมดที่สามารถเข้าถึงได้ช่วยให้การเปลี่ยนแปลงของส่วนที่ถูกเลือกเพียงของเอกสารได้โดยไม่ต้องสร้างเอกสารทั้งหมดมาจากต้นไม้.
- แถวและจำนวนคอลัมน์ของแต่ละตำแหน่งในเอกสารแหล่งที่สามารถเข้าถึงได้ง่าย.
- ให้อินเตอร์เฟซที่เรียบง่าย แต่ที่ครอบคลุมสำหรับการวิเคราะห์และการจัดการการควบคุมรูปแบบ HTML, รวมทั้งการสกัดและจำนวนประชากรของค่าเริ่มต้นและการแปลงที่จะอ่านอย่างเดียวหรือโหมดการแสดงผลข้อมูล การวิเคราะห์รูปแบบการควบคุมนอกจากนี้ยังช่วยให้ข้อมูลที่ได้รับจากรูปแบบในการจัดเก็บและนำเสนอในลักษณะที่เหมาะสม.
- ฟังก์ชั่นในตัวที่จะดึงข้อความจากมาร์กอัป HTML เหมาะสำหรับการให้อาหารเป็นเครื่องมือค้นหาข้อความเช่น Apache Lucene.
- ฟังก์ชั่นในตัวที่จะทำให้มาร์กอัป HTML ที่มีการจัดรูปแบบข้อความที่เรียบง่าย.
- ฟังก์ชั่นในตัวเพื่อจัดรูปแบบซอร์สโค้ด HTML ที่เยื้ององค์ประกอบตามความลึกของพวกเขาในลำดับชั้นขององค์ประกอบเอกสาร (คลิกที่นี่สำหรับการสาธิตออนไลน์)
- ฟังก์ชั่นในตัวเพื่อซอร์สโค้ด HTML ขนาดกะทัดรัดโดยการเอาพื้นที่สีขาวทั้งหมดที่ไม่จำเป็น.
- ประเภทแท็กที่กำหนดเองสามารถกำหนดได้อย่างง่ายดายและการลงทะเบียนสำหรับการรับรู้โดยตัวแยกวิเคราะห์.
มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.
- เพิ่มแหล่งที่มา (แฟ้ม) คอนสตรัค
- เพิ่ม OutputDocument.getSegment วิธี ().
- เพิ่ม OutputDocument.remove (int เริ่มต้นปลาย int) วิธี.
- เพิ่ม Renderer.setHRLineLength วิธี ().
- เพิ่ม RenderToText.jsp ตัวอย่าง webapp.
- เพิ่ม Segment.getRowColumnVector วิธี ().
- การตรวจสอบการเข้ารหัสในขณะนี้ร่วมกันละเว้นการเข้ารหัสที่ระบุไว้ในแท็ก meta ที่มีขนาดรหัสขัดกับการเข้ารหัสเบื้องต้น.
มีอะไรใหม่ ในเวอร์ชัน 3.1:
- แก้ไขข้อผิดพลาด:
- วงอินฟินิทใน Segment.getAllStartTags ()
- วงอินฟินิทใน Segment.getAllElements ()
- Segment.getFirst วิธี * กลับส่วนส่วนนอกขอบเขต.
- วิธี Segment.getAllElements ไม่ได้กลับมาปิดล้อมทุกองค์ประกอบในบางสถานการณ์.
- เอกสารข้อผิดพลาดคงที่ในวิธีการ Segment.getAllElements.
- เพิ่มระดับ StreamedSource.
- การเปลี่ยนแปลงที่อาจมีผลต่อการทำงานของโปรแกรมที่มีอยู่:
- เปลี่ยน ParseText จากชั้นเรียนเพื่อติดต่อ.
- Segment.getNodeIterator () ตอนนี้ผลตอบแทนอ้างอิงตัวละครที่เป็นโหนดที่แยกต่างหาก.
- วิธีการค้นหาเพิ่มแท็กอยู่บนพื้นฐานของการแสดงออกปกติค่าแอตทริบิวต์.
- วิธีการค้นหาแท็กเพิ่มขึ้นอยู่กับแอตทริบิวต์ชั้น HTML.
- เพิ่มสถานที่ให้บริการ Source.LegacyNodeIteratorCompatabilityMode คงเป็นการชั่วคราวเพื่อเรียกคืน Segment.getNodeIterator () ฟังก์ชันการทำงานของรุ่นก่อนหน้านี้.
- ถ่านออก [] ตามวิธีการค้นหาใน ParseText.
- เพิ่ม CharacterReference.appendCharTo (appendable) วิธี.
- เพิ่ม OutputDocument (Segment) คอนสตรัค.
- เพิ่ม StreamedSourceCopy โปรแกรมตัวอย่าง.
ความคิดเห็นที่ไม่พบ