mrjob

Sagteware kiekie:
mrjob
Sagteware besonderhede:
Weergawe: 0.4
Upload datum: 20 Feb 15
Ontwikkelaar: David Marin
Lisensie: Gratis
Populariteit: 16

Rating: 3.0/5 (Total Votes: 1)

mrjob is 'n Python module wat jou help om te skryf en hardloop Hadoop Streaming werk.
mrjob ten volle ondersteun Amazon se Elastiese MapReduce (EMR) diens, wat jou toelaat om die tyd te koop op 'n Hadoop cluster op 'n uurlikse basis. Dit werk ook met jou eie Hadoop cluster.
Installasie:
python setup.py installeer
Opstel EMR op Amazon
& Nbsp; * skep 'n Amazon Web Services rekening: http://aws.amazon.com/
& Nbsp; * teken vir Elastiese MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Kry jou toegang en geheime sleutels (gaan na http://aws.amazon.com/account/ en kliek op "Security Bewyse") en stel die omgewing veranderlikes $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY dienooreenkomstig

Probeer dit uit!

# Plaaslik
python mrjob / voorbeelde / mr_word_freq_count.py README.md> tel
# Op EMR
python mrjob / voorbeelde / mr_word_freq_count.py README.md r EMR> tel
# Op jou Hadoop cluster
python mrjob / voorbeelde / mr_word_freq_count.py README.md r hadoop> tel
Gevorderde Configuration
Uit te voer in ander AWS streke, laai jou bron boom hardloop make, en gebruik ander gevorderde mrjob funksies, sal jy nodig het om 'mrjob.conf. mrjob lyk vir sy conf lêer in:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf enige plek in jou $ PYTHONPATH
& Nbsp; * /etc/mrjob.conf
Sien mrjob.conf.example vir meer inligting

Eienskappe :.

  • Begin werk op EMR, jou eie Hadoop cluster, of plaaslik (vir die toets).
  • Skryf 'n multi-stap werk (een kaart-verminder stap voed in die volgende)
  • Dubbele jou produksie-omgewing binne Hadoop
  • Laai jou bron boom en sit dit in jou werk se $ PYTHONPATH
  • Begin make en ander opset skrifte
  • Stel omgewing veranderlikes (bv $ TZ)
  • Maklik luislang pakkette installeer vanaf tarballs (EMR net)
  • Setup deursigtig hanteer word deur mrjob.conf config lêer
  • Outomaties interpreteer fout logs van EMR
  • SSH tonnel te hadoop werk spoorsnyer op EMR
  • minimale installasie
  • om te loop op EMR, stel $ AWS_ACCESS_KEY_ID en $ AWS_SECRET_ACCESS_KEY
  • te voer op jou Hadoop cluster, stel $ HADOOP_HOME

Vereistes :

  • Python

Soortgelyke sagteware

cloudinitd
cloudinitd

11 May 15

Collax V-Cube
Collax V-Cube

18 Jul 15

LAM/MPI
LAM/MPI

3 Jun 15

Lustre
Lustre

11 May 15

Ander sagteware ontwikkelaar David Marin

doloop
doloop

11 May 15

Kommentaar te mrjob

Kommentaar nie gevind
Kommentaar te lewer
Draai op die foto!