Apache Spark

ภาพหน้าจอของซอฟแวร์:
Apache Spark
รายละเอียดซอฟแวร์:
รุ่น: 1.6.0 การปรับปรุง
วันที่อัพโหลด: 6 Mar 16
ผู้พัฒนา: Apache Software Foundation
การอนุญาต: ฟรี
ความนิยม: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark ได้รับการออกแบบมาเพื่อปรับปรุงความเร็วในการประมวลผลการวิเคราะห์ข้อมูลและการจัดการโปรแกรม.

มันถูกเขียนใน Java และ Scala และมีคุณสมบัติที่ไม่พบในระบบอื่น ๆ ส่วนใหญ่เป็นเพราะพวกเขาไม่ได้หลักมิได้ที่มีประโยชน์สำหรับการใช้งานการประมวลผลข้อมูลที่ไม่ใช่.

Spark ถูกสร้างขึ้นครั้งแรกที่ UC Berkeley AMP Lab และต่อมาบริจาคให้กับมูลนิธิซอฟต์แวร์ Apache

มีอะไรใหม่ ในรุ่นนี้:.

  • Unified จัดการหน่วยความจำ. - หน่วยความจำที่ใช้ร่วมกันสำหรับการดำเนินการและการแคชแทนส่วนพิเศษของภูมิภาค
  • ผลงานของปาร์เก้ - ปรับปรุงประสิทธิภาพการทำงานของปาร์เก้สแกนเมื่อใช้ schemas แบน
  • .
  • ปรับปรุงแบบสอบถามวางแผนสำหรับการค้นหาที่มีการรวมตัวที่แตกต่างกัน. - แผนการของแบบสอบถามรวมตัวที่แตกต่างกันที่มีประสิทธิภาพมากขึ้นเมื่อคอลัมน์ที่แตกต่างกันมี cardinality สูง
  • ดำเนินการแบบสอบถามการปรับตัว. - การสนับสนุนครั้งแรกสำหรับการเลือกจำนวน reducers สำหรับร่วมและรวมโดยอัตโนมัติ
  • หลีกเลี่ยงตัวกรองคู่ในแหล่งข้อมูล API -. เมื่อการดำเนินการเป็นแหล่งข้อมูลที่มีตัวกรองแบบขยายลงนักพัฒนาในขณะนี้สามารถบอกจุดประกาย SQL เพื่อหลีกเลี่ยงการประเมินคู่กรองผลักลง
  • ด่วน null ปลอดภัยร่วม - ร่วมใช้ null ปลอดภัยความเท่าเทียมกัน (& # x3c; = & # x3e;) ตอนนี้จะดำเนินการโดยใช้ SortMergeJoin แทนการคำนวณสินค้า cartisian
  • .
  • ในหน่วยความจำประสิทธิภาพการทำงานเรียงเป็นแนวแคช - ที่สําคัญ (ถึง 14 เท่า) เพิ่มความเร็วขึ้นเมื่อแคชข้อมูลที่มีประเภทที่ซับซ้อนใน DataFrames หรือ SQL
  • .
  • SQL การดำเนินการปิดการใช้กองหน่วยความจำ - การสนับสนุนสำหรับการกำหนดค่าดำเนินการแบบสอบถามที่จะเกิดขึ้นโดยใช้หน่วยความจำออกกองเพื่อหลีกเลี่ยงค่าใช้จ่าย GC

ใหม่ ในรุ่น 1.5.2 อะไร:

  • API หลักในขณะนี้สนับสนุนการรวมต้นไม้หลายระดับ ที่จะช่วยเพิ่มความเร็วในการดำเนินงานลดราคาแพง.
  • รายงานข้อผิดพลาดที่ดีขึ้นได้รับการเพิ่มสำหรับการดำเนินการบางอย่าง gotcha.
  • Spark ของการพึ่งพาท่าเทียบเรือจะมีการแรเงาขณะนี้จะช่วยหลีกเลี่ยงความขัดแย้งกับโปรแกรมที่ผู้ใช้.
  • Spark ในขณะนี้สนับสนุนการเข้ารหัส SSL สำหรับปลายทางการสื่อสารบางอย่าง.
  • เมตริกเรียลไทม์ GC และจำนวนบันทึกได้มีการเพิ่มการ UI.

ใหม่ ในรุ่น 1.4.0 อะไร:

  • API หลักในขณะนี้สนับสนุนการรวมต้นไม้หลายระดับ ที่จะช่วยเพิ่มความเร็วในการดำเนินงานลดราคาแพง.
  • รายงานข้อผิดพลาดที่ดีขึ้นได้รับการเพิ่มสำหรับการดำเนินการบางอย่าง gotcha.
  • Spark ของการพึ่งพาท่าเทียบเรือจะมีการแรเงาขณะนี้จะช่วยหลีกเลี่ยงความขัดแย้งกับโปรแกรมที่ผู้ใช้.
  • Spark ในขณะนี้สนับสนุนการเข้ารหัส SSL สำหรับปลายทางการสื่อสารบางอย่าง.
  • เมตริกเรียลไทม์ GC และจำนวนบันทึกได้มีการเพิ่มการ UI.

คืออะไรใหม่ ในรุ่น 1.2.0:

  • ผู้ประกอบการจัดเรียงของ PySpark ขณะนี้สนับสนุน spilling ภายนอกสำหรับชุดข้อมูลขนาดใหญ่ .
  • PySpark ขณะนี้สนับสนุนตัวแปรออกอากาศขนาดใหญ่กว่า 2GB และดำเนินการในช่วงหกภายนอกทุกประเภท.
  • Spark เพิ่มหน้างานระดับความคืบหน้าใน UI ของ Spark, API ที่มั่นคงสำหรับการรายงานความคืบหน้าและการปรับปรุงแบบไดนามิกของตัวชี้วัดออกเป็นงานที่สมบูรณ์.
  • Spark ในขณะนี้มีการสนับสนุนสำหรับการอ่านไฟล์ไบนารีสำหรับภาพและรูปแบบไบนารีอื่น ๆ .

มีอะไรใหม่ ในรุ่น 1.0.0:

  • ข่าวประชาสัมพันธ์ฉบับนี้ขยายห้องสมุดมาตรฐานของ Spark แนะนำใหม่ แพคเกจ SQL (SQL Spark) ที่ช่วยให้ผู้ใช้บูรณาการแบบสอบถาม SQL เข้าสู่ขั้นตอนการทำงานที่มีอยู่ Spark.
  • MLlib ห้องสมุดการเรียนรู้เครื่อง Spark ของการขยายด้วยการสนับสนุนเวกเตอร์เบาบางและขั้นตอนวิธีการใหม่ ๆ .

คืออะไรใหม่ ในรุ่น 0.9.1:

  • คงกัญชาชนข้อผิดพลาดใน spilling ภายนอก
  • ความขัดแย้งคงมี log4j ของ Spark สำหรับผู้ใช้ที่อาศัยอยู่ในแบ็กเอนด์อื่น ๆ เข้าสู่ระบบ
  • คง Graphx หายไปจากขวดชุมนุมจุดประกายใน Maven สร้าง
  • คงเงียบความล้มเหลวเนื่องจาก map สถานะการส่งออกเกินขนาดของกรอบ Akka
  • การพึ่งพาโดยตรงลบออก Spark ของที่ไม่จำเป็นใน ASM
  • นำออกตัวชี้วัดจากปมสร้างเริ่มต้นเนื่องจากแอลจีใบอนุญาตขัดแย้ง
  • แก้ไขข้อผิดพลาดในการจัดจำหน่าย tarball ไม่ได้มีการชุมนุมจุดประกายขวด

คืออะไรใหม่ ในรุ่น 0.8.0:

  • การพัฒนาได้ย้ายไปอยู่ที่มูลนิธิอาปาเช่ Sowftware เป็น โครงการศูนย์บ่มเพาะ.

มีอะไรใหม่ ในรุ่น 0.7.3:

  • ประสิทธิภาพหลาม: กลไกการจุดประกายสำหรับวางไข่หลาม VMs มี รับการปรับปรุงให้ทำเช่นนั้นได้เร็วขึ้นเมื่อ JVM มีขนาดกองขนาดใหญ่เร่งขึ้นหลามของ API.
  • Mesos แก้ไข: ไหเพิ่มให้กับงานของคุณตอนนี้จะอยู่ใน classpath เมื่อ deserializing ผลงานใน Mesos
  • .
  • การรายงานข้อผิดพลาด:. รายงานข้อผิดพลาดที่ดีขึ้นสำหรับข้อยกเว้นที่ไม่ serializable และผลงานที่มีขนาดใหญ่เกินไป
  • ตัวอย่าง:. เพิ่มตัวอย่างของการประมวลผลสตรีม stateful กับ updateStateByKey
  • รูปร่าง:. Spark Streaming ไม่ได้ขึ้นอยู่กับ repo Twitter4J ซึ่งควรอนุญาตให้สร้างในประเทศจีน
  • แก้ไขข้อผิดพลาดใน foldByKey นับสตรีมมิ่งวิธีสถิติเอกสารและเว็บ UI.

มีอะไรใหม่ ในรุ่น 0.7.2:.

  • รุ่น Scala ปรับปรุงเพื่อ 2.9.3
  • การปรับปรุงหลายอย่างเพื่อ Bagel รวมทั้งการแก้ไขปัญหาประสิทธิภาพการทำงานและระดับการจัดเก็บข้อมูลการกำหนดค่า.
  • วิธี API ใหม่:. subtractByKey, foldByKey, mapWith, filterWith, foreachPartition และอื่น ๆ
  • รายงานตัวชี้วัดใหม่อินเตอร์เฟซ SparkListener ในการเก็บรวบรวมข้อมูลเกี่ยวกับแต่ละขั้นตอนการคำนวณ:. ความยาวงานไบต์สับ ฯลฯ
  • ตัวอย่างใหม่ ๆ ที่ใช้ใน Java API รวมทั้ง K-วิธีการและ Pi คอมพิวเตอร์.

มีอะไรใหม่ ในรุ่น 0.7.0:

  • Spark 0.7 เพิ่ม API งูใหญ่ที่เรียกว่า PySpark <. / li>
  • งาน Spark ตอนนี้เปิดแผงควบคุมเว็บสำหรับการตรวจสอบการใช้งานหน่วยความจำของแต่ละชุดข้อมูลที่กระจาย (RDD) ในโปรแกรม.
  • Spark ขณะนี้คุณสามารถสร้างขึ้นโดยใช้ Maven นอกเหนือไปจาก SBT.

มีอะไรใหม่ ในรุ่น 0.6.1:

  • คงข้อความเชิงรุกมากเกินไปหมดเวลาที่อาจทำให้คนงานที่จะ ปลดจากคลัสเตอร์.
  • แก้ไขข้อผิดพลาดในโหมดการปรับใช้แบบสแตนด์อโลนที่ไม่เปิดเผยชื่อโฮสต์กำหนดการส่งผลกระทบต่อ HDFS ท้องถิ่น.
  • นำมาใช้การเชื่อมต่อที่ดีขึ้นในการสับเปลี่ยนที่มากสามารถเพิ่มความเร็วในการสับขนาดเล็ก.
  • คงที่บาง deadlocks ศักยภาพในการจัดการบล็อก.
  • แก้ไขข้อผิดพลาดได้รับรหัสของครอบครัวล้มเหลวจาก Mesos.
  • การปรับปรุงสคริปต์ EC2 หลายเช่นการจัดการที่ดีของอินสแตนซ์จุด.
  • ทำที่อยู่ในท้องถิ่นประกายที่ผูกกับการปรับแต่ง.
  • การสนับสนุนสำหรับ Hadoop 2 กระจาย.
  • การสนับสนุนสำหรับตำแหน่งสกาล่าในการกระจาย Debian.

มีอะไรใหม่ ในรุ่น 0.6.0:.

  • การใช้งานที่เรียบง่าย
  • เอกสาร Spark ได้รับการขยายด้วยคู่มือใหม่เริ่มต้นอย่างรวดเร็วคำแนะนำการใช้งานเพิ่มเติมคู่มือการตั้งค่า, คู่มือการปรับแต่งและเอกสาร Scaladoc API ที่ดีขึ้น.
  • ผู้จัดการการสื่อสารไม่ตรงกันใหม่โดยใช้ Java NIO ช่วยให้สลับการทำงานไปทำงานได้เร็วขึ้นโดยเฉพาะอย่างยิ่งเมื่อมีการส่งข้อมูลจำนวนมากหรือเมื่องานมีงานจำนวนมาก.
  • ผู้จัดการการจัดเก็บข้อมูลใหม่รองรับต่อชุดการตั้งค่าระดับการจัดเก็บข้อมูล (เช่นว่าจะเก็บชุดข้อมูลในหน่วยความจำ deserialized บนดิสก์ ฯลฯ หรือแม้กระทั่งการจำลองแบบทั่วโหนด).
  • การแก้จุดบกพร่องที่เพิ่มขึ้น.

ซอฟแวร์อื่น ๆ ของนักพัฒนา Apache Software Foundation

ความคิดเห็นที่ Apache Spark

ความคิดเห็นที่ไม่พบ
เพิ่มความคิดเห็น
เปิดภาพ!
ค้นหาตามหมวดหมู่