mrjob を使用すると、Python 2.5 以降で MapReduce ジョブを作成し、複数の異なるプラットフォームで実行できます。
純粋な Python を使用してマルチステップ MapReduce ジョブを作成する
ローカル マシンでテストする
Hadoop クラスター上で実行する
Amazon Elastic MapReduce (EMR) を使用してクラウド上で実行します
pip のインストール方法は非常に簡単で、設定は必要なく、直接実行します: pip install mrjob
コード例:
from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1 def reducer(self, word, occurrences): yield word, sum(occurrences) if __name__ == '__main__': MRWordCounter.run()