รายละเอียดซอฟแวร์:
รุ่น: 1.6.0 การปรับปรุง
วันที่อัพโหลด: 6 Mar 16
การอนุญาต: ฟรี
ความนิยม: 104
Apache Spark ได้รับการออกแบบมาเพื่อปรับปรุงความเร็วในการประมวลผลการวิเคราะห์ข้อมูลและการจัดการโปรแกรม.
มันถูกเขียนใน Java และ Scala และมีคุณสมบัติที่ไม่พบในระบบอื่น ๆ ส่วนใหญ่เป็นเพราะพวกเขาไม่ได้หลักมิได้ที่มีประโยชน์สำหรับการใช้งานการประมวลผลข้อมูลที่ไม่ใช่.
Spark ถูกสร้างขึ้นครั้งแรกที่ UC Berkeley AMP Lab และต่อมาบริจาคให้กับมูลนิธิซอฟต์แวร์ Apache
มีอะไรใหม่ ในรุ่นนี้:.
- Unified จัดการหน่วยความจำ. - หน่วยความจำที่ใช้ร่วมกันสำหรับการดำเนินการและการแคชแทนส่วนพิเศษของภูมิภาค
- ผลงานของปาร์เก้ - ปรับปรุงประสิทธิภาพการทำงานของปาร์เก้สแกนเมื่อใช้ schemas แบน .
- ปรับปรุงแบบสอบถามวางแผนสำหรับการค้นหาที่มีการรวมตัวที่แตกต่างกัน. - แผนการของแบบสอบถามรวมตัวที่แตกต่างกันที่มีประสิทธิภาพมากขึ้นเมื่อคอลัมน์ที่แตกต่างกันมี cardinality สูง
- ดำเนินการแบบสอบถามการปรับตัว. - การสนับสนุนครั้งแรกสำหรับการเลือกจำนวน reducers สำหรับร่วมและรวมโดยอัตโนมัติ
- หลีกเลี่ยงตัวกรองคู่ในแหล่งข้อมูล API -. เมื่อการดำเนินการเป็นแหล่งข้อมูลที่มีตัวกรองแบบขยายลงนักพัฒนาในขณะนี้สามารถบอกจุดประกาย SQL เพื่อหลีกเลี่ยงการประเมินคู่กรองผลักลง
- ด่วน null ปลอดภัยร่วม - ร่วมใช้ null ปลอดภัยความเท่าเทียมกัน (& # x3c; = & # x3e;) ตอนนี้จะดำเนินการโดยใช้ SortMergeJoin แทนการคำนวณสินค้า cartisian .
- ในหน่วยความจำประสิทธิภาพการทำงานเรียงเป็นแนวแคช - ที่สําคัญ (ถึง 14 เท่า) เพิ่มความเร็วขึ้นเมื่อแคชข้อมูลที่มีประเภทที่ซับซ้อนใน DataFrames หรือ SQL .
- SQL การดำเนินการปิดการใช้กองหน่วยความจำ - การสนับสนุนสำหรับการกำหนดค่าดำเนินการแบบสอบถามที่จะเกิดขึ้นโดยใช้หน่วยความจำออกกองเพื่อหลีกเลี่ยงค่าใช้จ่าย GC
ใหม่ ในรุ่น 1.5.2 อะไร:
- API หลักในขณะนี้สนับสนุนการรวมต้นไม้หลายระดับ ที่จะช่วยเพิ่มความเร็วในการดำเนินงานลดราคาแพง.
- รายงานข้อผิดพลาดที่ดีขึ้นได้รับการเพิ่มสำหรับการดำเนินการบางอย่าง gotcha.
- Spark ของการพึ่งพาท่าเทียบเรือจะมีการแรเงาขณะนี้จะช่วยหลีกเลี่ยงความขัดแย้งกับโปรแกรมที่ผู้ใช้.
- Spark ในขณะนี้สนับสนุนการเข้ารหัส SSL สำหรับปลายทางการสื่อสารบางอย่าง.
- เมตริกเรียลไทม์ GC และจำนวนบันทึกได้มีการเพิ่มการ UI.
ใหม่ ในรุ่น 1.4.0 อะไร:
- API หลักในขณะนี้สนับสนุนการรวมต้นไม้หลายระดับ ที่จะช่วยเพิ่มความเร็วในการดำเนินงานลดราคาแพง.
- รายงานข้อผิดพลาดที่ดีขึ้นได้รับการเพิ่มสำหรับการดำเนินการบางอย่าง gotcha.
- Spark ของการพึ่งพาท่าเทียบเรือจะมีการแรเงาขณะนี้จะช่วยหลีกเลี่ยงความขัดแย้งกับโปรแกรมที่ผู้ใช้.
- Spark ในขณะนี้สนับสนุนการเข้ารหัส SSL สำหรับปลายทางการสื่อสารบางอย่าง.
- เมตริกเรียลไทม์ GC และจำนวนบันทึกได้มีการเพิ่มการ UI.
คืออะไรใหม่ ในรุ่น 1.2.0:
- ผู้ประกอบการจัดเรียงของ PySpark ขณะนี้สนับสนุน spilling ภายนอกสำหรับชุดข้อมูลขนาดใหญ่ .
- PySpark ขณะนี้สนับสนุนตัวแปรออกอากาศขนาดใหญ่กว่า 2GB และดำเนินการในช่วงหกภายนอกทุกประเภท.
- Spark เพิ่มหน้างานระดับความคืบหน้าใน UI ของ Spark, API ที่มั่นคงสำหรับการรายงานความคืบหน้าและการปรับปรุงแบบไดนามิกของตัวชี้วัดออกเป็นงานที่สมบูรณ์.
- Spark ในขณะนี้มีการสนับสนุนสำหรับการอ่านไฟล์ไบนารีสำหรับภาพและรูปแบบไบนารีอื่น ๆ .
มีอะไรใหม่ ในรุ่น 1.0.0:
- ข่าวประชาสัมพันธ์ฉบับนี้ขยายห้องสมุดมาตรฐานของ Spark แนะนำใหม่ แพคเกจ SQL (SQL Spark) ที่ช่วยให้ผู้ใช้บูรณาการแบบสอบถาม SQL เข้าสู่ขั้นตอนการทำงานที่มีอยู่ Spark.
- MLlib ห้องสมุดการเรียนรู้เครื่อง Spark ของการขยายด้วยการสนับสนุนเวกเตอร์เบาบางและขั้นตอนวิธีการใหม่ ๆ .
คืออะไรใหม่ ในรุ่น 0.9.1:
- คงกัญชาชนข้อผิดพลาดใน spilling ภายนอก
- ความขัดแย้งคงมี log4j ของ Spark สำหรับผู้ใช้ที่อาศัยอยู่ในแบ็กเอนด์อื่น ๆ เข้าสู่ระบบ
- คง Graphx หายไปจากขวดชุมนุมจุดประกายใน Maven สร้าง
- คงเงียบความล้มเหลวเนื่องจาก map สถานะการส่งออกเกินขนาดของกรอบ Akka
- การพึ่งพาโดยตรงลบออก Spark ของที่ไม่จำเป็นใน ASM
- นำออกตัวชี้วัดจากปมสร้างเริ่มต้นเนื่องจากแอลจีใบอนุญาตขัดแย้ง
- แก้ไขข้อผิดพลาดในการจัดจำหน่าย tarball ไม่ได้มีการชุมนุมจุดประกายขวด
คืออะไรใหม่ ในรุ่น 0.8.0:
- การพัฒนาได้ย้ายไปอยู่ที่มูลนิธิอาปาเช่ Sowftware เป็น โครงการศูนย์บ่มเพาะ.
มีอะไรใหม่ ในรุ่น 0.7.3:
- ประสิทธิภาพหลาม: กลไกการจุดประกายสำหรับวางไข่หลาม VMs มี รับการปรับปรุงให้ทำเช่นนั้นได้เร็วขึ้นเมื่อ JVM มีขนาดกองขนาดใหญ่เร่งขึ้นหลามของ API.
- Mesos แก้ไข: ไหเพิ่มให้กับงานของคุณตอนนี้จะอยู่ใน classpath เมื่อ deserializing ผลงานใน Mesos .
- การรายงานข้อผิดพลาด:. รายงานข้อผิดพลาดที่ดีขึ้นสำหรับข้อยกเว้นที่ไม่ serializable และผลงานที่มีขนาดใหญ่เกินไป
- ตัวอย่าง:. เพิ่มตัวอย่างของการประมวลผลสตรีม stateful กับ updateStateByKey
- รูปร่าง:. Spark Streaming ไม่ได้ขึ้นอยู่กับ repo Twitter4J ซึ่งควรอนุญาตให้สร้างในประเทศจีน
- แก้ไขข้อผิดพลาดใน foldByKey นับสตรีมมิ่งวิธีสถิติเอกสารและเว็บ UI.
มีอะไรใหม่ ในรุ่น 0.7.2:.
- รุ่น Scala ปรับปรุงเพื่อ 2.9.3
- การปรับปรุงหลายอย่างเพื่อ Bagel รวมทั้งการแก้ไขปัญหาประสิทธิภาพการทำงานและระดับการจัดเก็บข้อมูลการกำหนดค่า.
- วิธี API ใหม่:. subtractByKey, foldByKey, mapWith, filterWith, foreachPartition และอื่น ๆ
- รายงานตัวชี้วัดใหม่อินเตอร์เฟซ SparkListener ในการเก็บรวบรวมข้อมูลเกี่ยวกับแต่ละขั้นตอนการคำนวณ:. ความยาวงานไบต์สับ ฯลฯ
- ตัวอย่างใหม่ ๆ ที่ใช้ใน Java API รวมทั้ง K-วิธีการและ Pi คอมพิวเตอร์.
มีอะไรใหม่ ในรุ่น 0.7.0:
- Spark 0.7 เพิ่ม API งูใหญ่ที่เรียกว่า PySpark <. / li>
- งาน Spark ตอนนี้เปิดแผงควบคุมเว็บสำหรับการตรวจสอบการใช้งานหน่วยความจำของแต่ละชุดข้อมูลที่กระจาย (RDD) ในโปรแกรม.
- Spark ขณะนี้คุณสามารถสร้างขึ้นโดยใช้ Maven นอกเหนือไปจาก SBT.
มีอะไรใหม่ ในรุ่น 0.6.1:
- คงข้อความเชิงรุกมากเกินไปหมดเวลาที่อาจทำให้คนงานที่จะ ปลดจากคลัสเตอร์.
- แก้ไขข้อผิดพลาดในโหมดการปรับใช้แบบสแตนด์อโลนที่ไม่เปิดเผยชื่อโฮสต์กำหนดการส่งผลกระทบต่อ HDFS ท้องถิ่น.
- นำมาใช้การเชื่อมต่อที่ดีขึ้นในการสับเปลี่ยนที่มากสามารถเพิ่มความเร็วในการสับขนาดเล็ก.
- คงที่บาง deadlocks ศักยภาพในการจัดการบล็อก.
- แก้ไขข้อผิดพลาดได้รับรหัสของครอบครัวล้มเหลวจาก Mesos.
- การปรับปรุงสคริปต์ EC2 หลายเช่นการจัดการที่ดีของอินสแตนซ์จุด.
- ทำที่อยู่ในท้องถิ่นประกายที่ผูกกับการปรับแต่ง.
- การสนับสนุนสำหรับ Hadoop 2 กระจาย.
- การสนับสนุนสำหรับตำแหน่งสกาล่าในการกระจาย Debian.
มีอะไรใหม่ ในรุ่น 0.6.0:.
- การใช้งานที่เรียบง่าย
- เอกสาร Spark ได้รับการขยายด้วยคู่มือใหม่เริ่มต้นอย่างรวดเร็วคำแนะนำการใช้งานเพิ่มเติมคู่มือการตั้งค่า, คู่มือการปรับแต่งและเอกสาร Scaladoc API ที่ดีขึ้น.
- ผู้จัดการการสื่อสารไม่ตรงกันใหม่โดยใช้ Java NIO ช่วยให้สลับการทำงานไปทำงานได้เร็วขึ้นโดยเฉพาะอย่างยิ่งเมื่อมีการส่งข้อมูลจำนวนมากหรือเมื่องานมีงานจำนวนมาก.
- ผู้จัดการการจัดเก็บข้อมูลใหม่รองรับต่อชุดการตั้งค่าระดับการจัดเก็บข้อมูล (เช่นว่าจะเก็บชุดข้อมูลในหน่วยความจำ deserialized บนดิสก์ ฯลฯ หรือแม้กระทั่งการจำลองแบบทั่วโหนด).
- การแก้จุดบกพร่องที่เพิ่มขึ้น.
ความคิดเห็นที่ไม่พบ