mrjob เป็นโมดูลหลามที่จะช่วยให้คุณเขียนและเรียกใช้ Hadoop งานสตรีมมิ่ง
mrjob สนับสนุนอย่างเต็มที่ของ Amazon Elastic MapReduce (EMR) บริการที่ช่วยให้คุณสามารถซื้อเวลาในคลัสเตอร์ Hadoop ในแบบรายชั่วโมง นอกจากนี้ยังทำงานร่วมกับคลัสเตอร์ Hadoop ของคุณเอง
การติดตั้ง:
หลาม setup.py ติดตั้ง
การตั้งค่า EMR ใน Amazon
& nbsp; * สร้างบัญชีบริการเว็บ Amazon: http://aws.amazon.com/
& nbsp; * ลงทะเบียนสำหรับการยืดหยุ่น MapReduce: http://aws.amazon.com/elasticmapreduce/
& nbsp; * ได้รับการเข้าถึงและคีย์ลับของคุณ (ไป http://aws.amazon.com/account/ และคลิกที่ "ข้อมูลประจำตัวการรักษาความปลอดภัย") และตั้งค่าตัวแปรสภาพแวดล้อม $ AWS_ACCESS_KEY_ID และ $ AWS_SECRET_ACCESS_KEY ตาม
ลอง!
# ท้องถิ่น
หลาม mrjob / ตัวอย่าง / mr_word_freq_count.py README.md> นับ
# ใน EMR
หลาม mrjob / ตัวอย่าง / mr_word_freq_count.py README.md -r EMR> นับ
# ในคลัสเตอร์ Hadoop ของคุณ
หลาม mrjob / ตัวอย่าง / mr_word_freq_count.py README.md -r Hadoop> นับ
การตั้งค่าขั้นสูง
เมื่อต้องการเรียกใช้ในภูมิภาคอื่น ๆ AWS อัพโหลดแหล่งต้นไม้ของคุณทำงานให้และใช้คุณสมบัติ mrjob ขั้นสูงอื่น ๆ คุณจะต้องตั้งค่า mrjob.conf mrjob มองหาไฟล์ conf ใน:
& nbsp; * ~ / .mrjob
& nbsp; * mrjob.conf ที่ใดก็ได้ใน PYTHONPATH $ ของคุณ
& nbsp; * /etc/mrjob.conf
ดู mrjob.conf.example สำหรับข้อมูลเพิ่มเติม
คุณสมบัติ .
- งานทำงานใน EMR, คลัสเตอร์ Hadoop ของคุณเองหรือ ท้องถิ่น (สำหรับการทดสอบ).
- เขียนงานหลายขั้นตอน (หนึ่งแผนที่ลดขั้นตอนต่อไปเป็นฟีด)
- ซ้ำสภาพแวดล้อมการผลิตของคุณภายใน Hadoop
- อัปโหลดแหล่งต้นไม้ของคุณและวางไว้ในงานของคุณ $ PYTHONPATH
- Run ทำและสคริปต์การตั้งค่าอื่น ๆ
- ตั้งตัวแปรสภาพแวดล้อมต่างๆ (เช่น $ TZ)
- ได้อย่างง่ายดายติดตั้งแพคเกจหลามจาก tarballs (EMR เท่านั้น)
- การตั้งค่าการจัดการอย่างโปร่งใสโดยไฟล์ config mrjob.conf
- โดยอัตโนมัติตีความบันทึกข้อผิดพลาดจาก EMR
- อุโมงค์ SSH เพื่อติดตามงาน Hadoop บน EMR
- การตั้งค่าน้อยที่สุด
- การทำงานบน EMR ตั้ง AWS_ACCESS_KEY_ID $ และ $ AWS_SECRET_ACCESS_KEY
- การทำงานบนคลัสเตอร์ของคุณ Hadoop ตั้ง $ HADOOP_HOME
ต้องการ
- หลาม
ความคิดเห็นที่ไม่พบ