mrjob on Python-moduuli, jonka avulla voit kirjoittaa ja ajaa Hadoop Streaming työpaikkoja.
mrjob tukee täysin Amazonin Elastic MapReduce (EMR) palvelu, jonka avulla voit ostaa aikaa Hadoop klusteri tunneittain. Se toimii myös oman Hadoop klusterin.
Asennus:
python setup.py asentaa
asettaminen EMR Amazon
& Nbsp; * luoda Amazon Web Services tili: http://aws.amazon.com/
& Nbsp; * kirjautua Elastinen MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Hanki pääsy ja salaiset avaimet (siirry http://aws.amazon.com/account/ ja napsauta "suojauskäyttöoikeuksia") ja asettaa ympäristön muuttujat $ AWS_ACCESS_KEY_ID ja $ AWS_SECRET_ACCESS_KEY vastaavasti
Kokeile!
# Paikallisesti
python mrjob / esimerkkejä / mr_word_freq_count.py README.md> laskee
# On EMR
python mrjob / esimerkkejä / mr_word_freq_count.py README.md -r EMR> laskee
# Teidän Hadoop klusterin
python mrjob / esimerkkejä / mr_word_freq_count.py README.md -r Hadoop> laskee
Lisäasetukset
Voit suorittaa muilla AWS alueilla, lataa lähdekoodi, juosta merkki, ja käyttää muita kehittyneitä mrjob toimintoja, sinun täytyy määrittää mrjob.conf. mrjob etsii sen conf tiedostoa:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf missä tahansa $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Katso mrjob.conf.example lisätietoja.
Ominaisuudet :
- Suorita työt EMR, oman Hadoop klusteri, tai paikallisesti (testausta).
- Kirjoita monivaiheinen työpaikkoja (yksi kartta-vähentää vaiheessa syötetään seuraava)
- Monista tuotantoympäristöösi sisällä Hadoop
- Lataa lähdekoodi ja laita se Jobin $ PYTHONPATH
- Suorita merkki ja muut setup skriptejä
- Aseta ympäristömuuttujien (esim. $ TZ)
- Helposti asennettava Python paketit paketit (EMR vain)
- Asetukset hoidetaan läpinäkyvästi mrjob.conf config tiedosto
- Automaattisesti tulkita virhe lokit EMR
- SSH tunnelin Hadoop työn tracker on EMR
- Minimal asennus
- Jos haluat ajaa EMR, asettaa $ AWS_ACCESS_KEY_ID ja $ AWS_SECRET_ACCESS_KEY
- näyttämisen Hadoop-klusterin asettaa $ HADOOP_HOME
Vaatimukset :
- Python
Kommentteja ei löytynyt