Jericho HTML Parser

ภาพหน้าจอของซอฟแวร์:
Jericho HTML Parser
รายละเอียดซอฟแวร์:
รุ่น: 3.4
วันที่อัพโหลด: 10 Dec 15
ผู้พัฒนา: Martin Jericho
การอนุญาต: ฟรี
ความนิยม: 12

Rating: nan/5 (Total Votes: 0)

สามารถแก้ไขด้านเซิร์ฟเวอร์และแท็กฝั่งไคลเอ็นต์ในขณะที่การทำซ้ำคำต่อคำใด ๆ HTML ที่ไม่รู้จักหรือไม่ถูกต้อง.

นอกจากนี้ยังมีระดับสูงฟังก์ชั่นการจัดการรูปแบบ HTML

คุณสมบัติ .

  • การปรากฏตัวของ การจัดรูปแบบ HTML ไม่ดีไม่ยุ่งเกี่ยวกับการแยกส่วนที่เหลือของเอกสารซึ่งจะทำให้ห้องสมุดที่เหมาะสำหรับการใช้งานกับ & quot; ที่แท้จริงของโลก & quot; HTML ที่ฉายา parsers อื่น ๆ .
  • ASP, JSP, PSP, PHP และเมสันแท็กเซิร์ฟเวอร์ได้รับการยอมรับอย่างชัดเจนโดยตัวแยกวิเคราะห์ ซึ่งหมายความว่า HTML ปกติยังคงแยกวิเคราะห์อย่างถูกต้องแม้ว่าจะมีแท็กเซิร์ฟเวอร์ภายในพวกเขาซึ่งเป็นเรื่องธรรมดาเช่นการตั้งค่าแบบไดนามิกเมื่อแอตทริบิวต์องค์ประกอบ.
  • กระแสใหม่ตัวเลือกการแยกวิเคราะห์โดยใช้ชั้น StreamedSource ซึ่งจะช่วยให้การประมวลผลหน่วยความจำที่มีประสิทธิภาพของไฟล์ขนาดใหญ่โดยใช้เหตุการณ์วนซํ้า นี้เป็นหลักเป็นทางเลือกที่มีความสามารถในการประมวลผล StAX HTML และ XML ไม่ใช่การตรวจสอบเช่นเดียวกับคุณสมบัติอื่น ๆ ไม่สามารถใช้ได้ในสตรีมมิ่ง parsers อื่น ๆ .
  • ในรูปแบบมาตรฐานของมันไม่ใช่เหตุการณ์หรือต้นไม้แยกวิเคราะห์ตาม แต่ใช้การรวมกันของการค้นหาข้อความที่เรียบง่าย, การรับรู้ที่มีประสิทธิภาพและแท็กแท็กแคชตำแหน่งได้ ข้อความของเอกสารแหล่งที่มาทั้งที่มีการโหลดครั้งแรกในหน่วยความจำแล้วเท่านั้นส่วนที่เกี่ยวข้องค้นหาตัวละครที่เกี่ยวข้องในการดำเนินการค้นหาแต่ละ.
  • เมื่อเทียบกับตัวแยกวิเคราะห์ตามต้นไม้เช่น DOM, หน่วยความจำและความต้องการทรัพยากรได้ไกลดีกว่าถ้าเพียงส่วนเล็ก ๆ ของเอกสารที่จะต้องมีการแยกหรือการปรับเปลี่ยน ที่ไม่ถูกต้องหรือการจัดรูปแบบ HTML ที่ไม่ดีสามารถจะละเลยไม่เหมือน parsers ตามต้นไม้ซึ่งจะต้องระบุโหนดทุกคนในเอกสารจากบนลงล่าง.
  • เมื่อเทียบกับเหตุการณ์ที่แยกวิเคราะห์เช่นแซ็กโซโฟนที่มีอินเตอร์เฟซที่อยู่ในระดับที่สูงมากและใช้งานง่ายมากขึ้นและเป็นตัวแทนของต้นไม้ลำดับชั้นขององค์ประกอบเอกสารที่ถูกสร้างขึ้นได้อย่างง่ายดายหากจำเป็น.
  • เริ่มต้นและตำแหน่งสิ้นสุดในเอกสารแหล่งที่มาของกลุ่มแยกทั้งหมดที่สามารถเข้าถึงได้ช่วยให้การเปลี่ยนแปลงของส่วนที่ถูกเลือกเพียงของเอกสารได้โดยไม่ต้องสร้างเอกสารทั้งหมดมาจากต้นไม้.
  • แถวและจำนวนคอลัมน์ของแต่ละตำแหน่งในเอกสารแหล่งที่สามารถเข้าถึงได้ง่าย.
  • ให้อินเตอร์เฟซที่เรียบง่าย แต่ที่ครอบคลุมสำหรับการวิเคราะห์และการจัดการการควบคุมรูปแบบ HTML, รวมทั้งการสกัดและจำนวนประชากรของค่าเริ่มต้นและการแปลงที่จะอ่านอย่างเดียวหรือโหมดการแสดงผลข้อมูล การวิเคราะห์รูปแบบการควบคุมนอกจากนี้ยังช่วยให้ข้อมูลที่ได้รับจากรูปแบบในการจัดเก็บและนำเสนอในลักษณะที่เหมาะสม.
  • ฟังก์ชั่นในตัวที่จะดึงข้อความจากมาร์กอัป HTML เหมาะสำหรับการให้อาหารเป็นเครื่องมือค้นหาข้อความเช่น Apache Lucene.
  • ฟังก์ชั่นในตัวที่จะทำให้มาร์กอัป HTML ที่มีการจัดรูปแบบข้อความที่เรียบง่าย.
  • ฟังก์ชั่นในตัวเพื่อจัดรูปแบบซอร์สโค้ด HTML ที่เยื้ององค์ประกอบตามความลึกของพวกเขาในลำดับชั้นขององค์ประกอบเอกสาร (คลิกที่นี่สำหรับการสาธิตออนไลน์)
  • ฟังก์ชั่นในตัวเพื่อซอร์สโค้ด HTML ขนาดกะทัดรัดโดยการเอาพื้นที่สีขาวทั้งหมดที่ไม่จำเป็น.
  • ประเภทแท็กที่กำหนดเองสามารถกำหนดได้อย่างง่ายดายและการลงทะเบียนสำหรับการรับรู้โดยตัวแยกวิเคราะห์.

มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.

  • เพิ่มแหล่งที่มา (แฟ้ม) คอนสตรัค
  • เพิ่ม OutputDocument.getSegment วิธี ().
  • เพิ่ม OutputDocument.remove (int เริ่มต้นปลาย int) วิธี.
  • เพิ่ม Renderer.setHRLineLength วิธี ().
  • เพิ่ม RenderToText.jsp ตัวอย่าง webapp.
  • เพิ่ม Segment.getRowColumnVector วิธี ().
  • การตรวจสอบการเข้ารหัสในขณะนี้ร่วมกันละเว้นการเข้ารหัสที่ระบุไว้ในแท็ก meta ที่มีขนาดรหัสขัดกับการเข้ารหัสเบื้องต้น.

มีอะไรใหม่ ในเวอร์ชัน 3.1:

  • แก้ไขข้อผิดพลาด:
  • วงอินฟินิทใน Segment.getAllStartTags ()
  • วงอินฟินิทใน Segment.getAllElements ()
  • Segment.getFirst วิธี * กลับส่วนส่วนนอกขอบเขต.
  • วิธี Segment.getAllElements ไม่ได้กลับมาปิดล้อมทุกองค์ประกอบในบางสถานการณ์.
  • เอกสารข้อผิดพลาดคงที่ในวิธีการ Segment.getAllElements.
  • เพิ่มระดับ StreamedSource.
  • การเปลี่ยนแปลงที่อาจมีผลต่อการทำงานของโปรแกรมที่มีอยู่:
  • เปลี่ยน ParseText จากชั้นเรียนเพื่อติดต่อ.
  • Segment.getNodeIterator () ตอนนี้ผลตอบแทนอ้างอิงตัวละครที่เป็นโหนดที่แยกต่างหาก.
  • วิธีการค้นหาเพิ่มแท็กอยู่บนพื้นฐานของการแสดงออกปกติค่าแอตทริบิวต์.
  • วิธีการค้นหาแท็กเพิ่มขึ้นอยู่กับแอตทริบิวต์ชั้น HTML.
  • เพิ่มสถานที่ให้บริการ Source.LegacyNodeIteratorCompatabilityMode คงเป็นการชั่วคราวเพื่อเรียกคืน Segment.getNodeIterator () ฟังก์ชันการทำงานของรุ่นก่อนหน้านี้.
  • ถ่านออก [] ตามวิธีการค้นหาใน ParseText.
  • เพิ่ม CharacterReference.appendCharTo (appendable) วิธี.
  • เพิ่ม OutputDocument (Segment) คอนสตรัค.
  • เพิ่ม StreamedSourceCopy โปรแกรมตัวอย่าง.

ซอฟต์แวร์ที่คล้ายกัน

VisSense.js
VisSense.js

10 Dec 15

screenfull.js
screenfull.js

10 Dec 15

csscss
csscss

13 May 15

ซอฟแวร์อื่น ๆ ของนักพัฒนา Martin Jericho

ความคิดเห็นที่ Jericho HTML Parser

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่