mrjob을 사용하면 Python 2.5+를 사용하여 MapReduce 작업을 작성하고 여러 플랫폼에서 실행할 수 있습니다.
순수 Python을 사용하여 다단계 MapReduce 작업 작성
이 테스트에서는 on machine
Hadoop 클러스터에서 실행
Amazon Elastic MapReduce(EMR)를 사용하여 클라우드에서 실행
pip 설치 방법은 매우 간단하며 구성이 필요하지 않습니다. 그냥 직접 실행하세요:pip install mrjob
코드 예:
from mrjob.job import MRJob class MRWordCounter(MRJob): def mapper(self, key, line): for word in line.split(): yield word, 1 def reducer(self, word, occurrences): yield word, sum(occurrences) if __name__ == '__main__': MRWordCounter.run()