WebGraph เป็นกรอบในการศึกษากราฟเว็บ WebGraph มีวิธีการที่ง่ายในการจัดการกราฟขนาดใหญ่มากการใช้ประโยชน์จากเทคนิคการบีบอัดที่ทันสมัย แม่นยำมากขึ้นก็จะทำจากปัจจุบัน:
1. ชุดของรหัสแบน, รหัสเรียกว่าซึ่งจะเหมาะอย่างยิ่งสำหรับการจัดเก็บกราฟเว็บ (หรือในทั่วไปจำนวนเต็มกับการกระจายอำนาจกฎหมายในช่วงสัญลักษณ์บางอย่าง) ความจริงที่ว่ารหัสเหล่านี้ทำงานได้ดีสามารถทดสอบได้อย่างง่ายดายสังเกตุ แต่เรายังพยายามที่จะให้รายละเอียดการวิเคราะห์ทางคณิตศาสตร์
2. อัลกอริทึมสำหรับการบีบอัดกราฟเว็บที่ใช้ประโยชน์จากการบีบอัดช่องว่างและ referentiation (ลา LINK) intervalisation และรหัสที่จะให้อัตราส่วนการอัดสูงเช่นกราฟ Webbase (2001 การรวบรวมข้อมูล) ถูกบีบอัดที่ 3.08 บิตต่อการเชื่อมโยงและภาพรวม ประมาณ 18,500,000 หน้าของโดเมน .uk รวบรวมโดย UbiCrawler ถูกบีบอัดที่ 2.22 บิตต่อการเชื่อมโยง (ตัวเลขที่สอดคล้องกันสำหรับกราฟขนย้ายเป็น 2.89 บิตต่อการเชื่อมโยงและ 1.98 บิตต่อลิงค์) อัลกอริทึมจะถูกควบคุมโดยตัวแปรหลายที่ให้ความสมดุลที่แตกต่างกันระหว่างความเร็วและอัตราการบีบอัด
3. อัลกอริทึมสำหรับการเข้าถึงกราฟบีบอัดไม่จริงคลายมันโดยใช้เทคนิคขี้เกียจที่ชะลอการบีบอัดจนมันเป็นจริงที่จำเป็น
4. เสร็จสมบูรณ์การดำเนินการจัดทำเอกสารขั้นตอนวิธีการดังกล่าวข้างต้นใน Java, ที่มีอยู่ในแพคเกจ it.unimi.dsi.webgraph นอกจากนี้ยังกำหนดไว้อย่างชัดเจน API, แพคเกจที่มีหลายชั้นที่ช่วยให้การปรับเปลี่ยน (เช่นไขว้) หรือบีบอัดกราฟดังนั้นในการทดสอบกับการตั้งค่าต่างๆ แพคเกจที่อาศัย fastutil สำหรับชนิดเฉพาะที่มีประสิทธิภาพสูงคอลเลกชันกรอบบน MG4J สำหรับบิตระดับ I / O, การกระจาย COLT ให้พร้อมต่อการใช้งานขั้นตอนวิธีการที่มีประสิทธิภาพและใน GNU getopt สำหรับการแยกบรรทัดคำสั่ง
5. ชุดข้อมูลสำหรับกราฟขนาดใหญ่มาก (เช่นพันล้านของการเชื่อมโยง) เหล่านี้จะรวบรวมทั้งจากแหล่งข้อมูลสาธารณะ (เช่น Webbase) หรือผลิตโดย UbiCrawler
ในท้ายที่สุดด้วย WebGraph คุณสามารถเข้าถึงและวิเคราะห์กราฟเว็บที่มีขนาดใหญ่มากแม้ในเครื่องคอมพิวเตอร์ที่มีน้อยที่สุดเท่าที่ 256 เมกกะไบท์ของหน่วยความจำ ใช้ WebGraph เป็นเรื่องง่ายเหมือนการติดตั้งไฟล์ jar ไม่กี่และดาวน์โหลดข้อมูลชุด นี้จะทำให้การศึกษาปรากฏการณ์เช่น PageRank กระจายของคุณสมบัติกราฟของกราฟเว็บอื่น ๆ ง่ายมาก </ p>
มีอะไรใหม่ ในข่าวประชาสัมพันธ์ฉบับนี้.
- รุ่นนี้จะเพิ่มการปรับปรุงหลายอย่างเพื่อ HyperANF และ bugfixes ไม่กี่.
- WebGraph ตอนนี้สามารถพบได้ใน Maven กลาง.
มีอะไรใหม่ ในรุ่น 2.4.5:
- รุ่นนี้มีการดำเนินการของ HyperANF ใหม่ ขั้นตอนวิธีการปรับขนาดได้อย่างฟังก์ชั่นสำหรับการคำนวณพื้นที่ใกล้เคียงของกราฟและวิธีการที่คำนวณเส้นทางที่สั้นที่สุดเฉลี่ยและข้อมูลอื่น ๆ ที่ได้มาจากการทำงานใกล้เคียง.
- นอกจากนี้ความมั่งคั่งของข้อมูลทางสถิติคำนวณตอนนี้ในระหว่างการบีบอัด.
มีอะไรใหม่ ในรุ่น 2.4.4:.
- บางตัวเลือกเก่าได้ถูกลบออก
- ไฟล์คุณสมบัติในขณะนี้มีความมั่งคั่งของสถิติที่มีประโยชน์.
- ความเร็วในการเข้าถึงแบบสุ่มได้รับการปรับปรุง.
มีอะไรใหม่ ในรุ่น 2.4.3:
- ArrayListMutableGraph.addNodes ถาวร () (ขอบคุณ Erik Lumer สำหรับการค้นหาและแก้ไขข้อผิดพลาดนี้).
- ตัวเลือกใหม่ที่จะเปลี่ยนการส่งออกของกราฟ ASCII.
- RemappedImmutableGraph.successorArray (x) ได้รับการให้อาร์เรย์เดียวกันในทุกสายจึงทำให้ได้รับมรดกสืบทอด (x) วิธีการใช้ไม่ได้ในการสแกนในรายการที่แตกต่างกันแบบขนาน คงที่ (ตอนนี้มันกลับสำเนาของอาร์เรย์แทน).
- การเปลี่ยนแปลงสุ่มใหม่ที่ permutes สุ่มกราฟ.
มีอะไรใหม่ ในรุ่น 2.4.2:
- ใหม่ & quot; แต่ง & quot; สร้างทำให้มันเป็นไปได้ที่จะเขียน (โค้งติดฉลาก) กราฟ.
ความคิดเห็นที่ไม่พบ