รายละเอียดซอฟแวร์:
Jerich HTML แยกวิเคราะห์เป็นโอเพนซอร์สที่เรียบง่าย แต่ห้องสมุดที่มีประสิทธิภาพที่เขียนทั้งหมดใน Java
จะช่วยให้การเขียนโปรแกรมเพื่อจัดการและวิเคราะห์ชิ้นส่วนของเอกสาร HTML
Jerich HTML ยังรวมตัวแยกวิเคราะห์ระดับสูงฟังก์ชั่นการจัดการรูปแบบ HTML
มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.
- แก้ไขข้อผิดพลาด:
- [3581664] CharacterReference.decode () ไม่ได้ถอดรหัสหน่วยงานที่มีตัวเลข - & frac12; & frac14; & frac34; & sup1; และ SUP2; & sup3; และ there4;
- [3311286] SourceCompactor ไม่เคารพ TEXTAREA
- [3519131] Renderer การส่งออกไม่ถูกต้องเมื่อสร้างด้วยวัตถุธาตุ.
- [3538829] เอาท์พุท Renderer ของการตกแต่งตัวอักษรในขอบเขตบล็อกที่ไม่ถูกต้อง.
- Segment.getAllStartTags (ชื่อ) และ Segment.getFirstElement (ชื่อ) ไม่ทำงานถ้าอาร์กิวเมนต์ประกอบด้วยอักขระกรณีบน.
- คั่นท้ายของแท็กเซิร์ฟเวอร์ทั่วไปภายในแท็กเซิร์ฟเวอร์หนีได้รับการยอมรับแอบอ้างเป็นตัวคั่นท้ายของแท็กหนี.
- การเปลี่ยนแปลงที่อาจมีผลต่อพฤติกรรมของโปรแกรมที่มีอยู่:
- [3427073] Segment.getStyleURISegments () ขณะนี้มีเนื้อหาองค์ประกอบรูปแบบเช่นเดียวกับค่าแอตทริบิวต์สไตล์.
- [3427927] Segment.getURIAttributes () ขณะนี้มีคุณลักษณะที่เก็บของวัตถุและองค์ประกอบแอปเพล็.
- ความคิดเห็นไม่ได้รับการยอมรับภายในองค์ประกอบสคริปต์ในระหว่างการแยกลำดับเต็ม ก่อนหน้านี้พวกเขาได้รับการยอมรับสำหรับการทำงานร่วมกับเบราว์เซอร์ที่สำคัญ แต่พฤติกรรมเบราว์เซอร์ที่ทันสมัยมีการเปลี่ยนแปลง.
- เปลี่ยนระดับการเข้าสู่ระบบของข้อผิดพลาดในการแยกวิเคราะห์จากข้อมูลข้อผิดพลาดและระดับการเข้าสู่ระบบของ Source.fullSequentialParse () ข้อความจากที่ปรึกษาเตือนไปยังข้อมูล ระดับก่อนหน้านี้ให้ข้อความที่ปรึกษาความรุนแรงสูงกว่าข้อผิดพลาดการแยกการป้องกันระบบการเข้าสู่ระบบจากที่ซ่อนข้อความที่ปรึกษาในขณะที่แสดงข้อผิดพลาดการแยก คำเตือนการเข้ารหัสตัวอักษรยังคงไม่เปลี่ยนแปลงที่ระดับเตือน.
- การเปลี่ยนแปลงพฤติกรรมของ Renderer.renderHyperlinkURL (StartTag) วิธีการเพื่อให้ URL ที่ญาติจะไม่แสดงผล.
- การเปลี่ยนแปลงพฤติกรรมของ Renderer ดังนั้นเนื้อหาองค์ประกอบเชื่อมโยงหลายมิติที่จะไม่กลายเป็นว่ามันเป็นเช่นเดียวกับ URL เชื่อมโยงหลายมิติไม่สนใจใด ๆ http: //. คำนำหน้า / หรือต่อท้าย
- EndTag.tidy () ตอนนี้เอาช่องว่างก่อนวงเล็บปิด.
- เพิ่มแหล่งที่มา (แฟ้ม) นวกรรมิก.
- เพิ่ม OutputDocument.getSegment วิธี ().
- เพิ่ม OutputDocument.remove (int เริ่มต้นปลาย int) วิธี.
- เพิ่ม Renderer.setHRLineLength วิธี ().
- เพิ่ม RenderToText.jsp ตัวอย่าง webapp.
- เพิ่ม Segment.getRowColumnVector วิธี ().
- การตรวจสอบการเข้ารหัสในขณะนี้จะไม่สนใจการเข้ารหัสทั่วไปที่ระบุไว้ในแท็ก meta ที่มีขนาดรหัสขัดกับการเข้ารหัสเบื้องต้น.
- ปรับเพิ่ม APIs ตัดไม้ต่อไปนี้: slf4j-API-1.7.2, log4j-1.2.17
มีอะไรใหม่ ในรุ่น 3.1:
- แก้ไขข้อผิดพลาด:
- [2793556] วง Infinite ใน Segment.getAllStartTags ()
- วง Infinite ใน Segment.getAllElements ()
- Segment.getFirst วิธี * กลับส่วนนอกส่วนขอบเขต.
- วิธี Segment.getAllElements ไม่ได้กลับองค์ประกอบล้อมรอบทั้งหมดในบางสถานการณ์.
- ข้อผิดพลาดเอกสารคงที่ในวิธีการ Segment.getAllElements.
- เพิ่ม StreamedSource ชั้น.
- การเปลี่ยนแปลงที่อาจมีผลต่อพฤติกรรมของโปรแกรมที่มีอยู่:
- เปลี่ยน ParseText จากชั้นเรียนเพื่อติดต่อ.
- Segment.getNodeIterator () ตอนนี้ผลตอบแทนอ้างอิงตัวละครเป็นโหนดที่แยกต่างหาก.
- วิธีการค้นหาเพิ่มแท็กอยู่บนพื้นฐานของการแสดงออกปกติค่าแอตทริบิวต์.
- วิธีการค้นหาเพิ่มแท็กขึ้นอยู่กับแอตทริบิวต์ชั้น HTML.
- เพิ่มสถานที่ให้บริการ Source.LegacyNodeIteratorCompatabilityMode คงเป็นการชั่วคราวเพื่อเรียกคืน Segment.getNodeIterator () ฟังก์ชันการทำงานของรุ่นก่อนหน้านี้.
- ถ่านลบออก [] ตามวิธีการค้นหาใน ParseText.
- เพิ่ม CharacterReference.appendCharTo (appendable) วิธีการ.
- เพิ่ม OutputDocument (ส่วนงาน) นวกรรมิก.
- เพิ่ม StreamedSourceCopy โปรแกรมตัวอย่าง.
มีอะไรใหม่ ในรุ่น 3.0:
- แก้ไขข้อผิดพลาด:
- การอ้างอิงตัวละครที่เป็นตัวแทนของตัวละครเสริม Unicode ไม่ได้อย่างถูกต้องเพื่อถอดรหัสคู่ UTF-16 รหัสหน่วย.
- [2188446] Element.getDepth () และ Element.getParentElement () กลับผลที่ไม่ถูกต้องถ้าเรียกแจงในโหมดความต้องการ.
- ความเห็นได้รับการยอมรับในขณะนี้ภายใน & lt; สคริปต์ & gt; องค์ประกอบ.
- API การเปลี่ยนแปลงที่ไม่ได้เข้ากันได้:
- ชื่อแพคเกจที่จะเปลี่ยน net.htmlparser.jericho
- ค่าแอตทริบิวต์ในขณะนี้จะต้องเป็นสตริงมากกว่า CharSequence.
- การแกะวิธีการเลิกทั้งหมด / ชั้นเรียนจากรุ่นก่อนหน้า.
- ทั้งหมดหาวิธีการ * เลิกในความโปรดปรานของวิธีการได้รับ * เพื่อใช้การตั้งชื่อที่สอดคล้องกันในทุกวิธีการค้นหาแท็ก.
- แท็ก, ธาตุและ HTMLElements เรียนไม่ได้ใช้อินเตอร์เฟซ HTMLElementName (ใช้นำเข้าแบบคงที่แทน)
- คอลเลกชันทั้งหมดในขณะนี้พิมพ์ stongly ใช้ยาชื่อสามัญ.
- เปลี่ยนคลาส FormControlOutputStyle เพื่อ enum.
- เปลี่ยนคลาส FormControlType เพื่อ enum.
- เพิ่ม CharStreamSource.appendTo (appendable) วิธีการ.
- เพิ่ม Source.iterator วิธี ().
- ที่มาตอนนี้ดำเนิน Iterable.
- ภายในใช้ StringBuilder สำหรับประสิทธิภาพที่ดีขึ้น.
- เพิ่ม Source.getNextStartTag (StartTagType) วิธีการ.
- เพิ่ม Source.getNextEndTag (EndTagType) วิธีการ.
- เพิ่ม Source.getPreviousStartTag (StartTagType) วิธีการ.
- เพิ่ม Source.getPreviousEndTag (EndTagType) วิธีการ.
- เพิ่ม Segment.getAllStartTags (StartTagType) วิธีการ.
- เพิ่มทั้งหมด Segment.getFirst * วิธี.
- เพิ่ม Renderer.renderHyperlinkURL (StartTag) วิธีการ.
- เพิ่ม HTMLSanitiser โปรแกรมตัวอย่าง.
- อัพเกรดเพื่อ slf4j-API-1.5.6
ต้องการ
- Java 2 Standard Edition Runtime Environment
ความคิดเห็นที่ไม่พบ