MySQL 튜토리얼

hadoop学习（六）WordCount示例深度学习MapReduce过程（1）

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:29 PM

hadoop공부하다깊이예

花了整整一个下午（6个多小时），整理总结，也算是对这方面有一个深度的了解。日后可以回头多看看。我们都安装完Hadoop之后，按照一些案例先要跑一个WourdCount程序，来测试Hadoop安装是否成功。在终端中用命令创建一个文件夹，简单的向两个文件中各写入一

花了整整一个下午（6个多小时），整理总结，也算是对这方面有一个深度的了解。日后可以回头多看看。

我们都安装完Hadoop之后，按照一些案例先要跑一个WourdCount程序，来测试Hadoop安装是否成功。在终端中用命令创建一个文件夹，简单的向两个文件中各写入一段话，然后运行Hadoop，WourdCount自带WourdCount程序指令，就可以输出写入的那句话各个不同单词的个数。但是这不是这篇博客主要讲的内容，主要是想通过一个简单的Wordcount程序，来认识Hadoop的内部机制。并通过此来深入了解MapReduce的详细过程。在Thinking in BigDate（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解中我们已经很大概梳理一下，Hadoop内部集群架构，并对MapReduce也有初步的了解，这里我们以WourdCount程序来深入的探讨MapReduce的过程。

利用命令行，测试WourdCount程序：

WourdCount程序就是统计文本中字母的个数

1、创建Wordcount示例文件

zhangzhen@ubuntu:~/software$ mkdir input
zhangzhen@ubuntu:~/software$ cd input/
zhangzhen@ubuntu:~/software/input$ echo "I am zhangzhen">test1.txt
zhangzhen@ubuntu:~/software/input$ echo "You are not zhangzhen">test2.txt
zhangzhen@ubuntu:~/software/input$ cd ../hadoop-1.2.1/
zhangzhen@ubuntu:~/software/hadoop-1.2.1$ cd bin
zhangzhen@ubuntu:~/software/hadoop-1.2.1/bin$ ls
hadoop             slaves.sh                  start-mapred.sh           stop-mapred.sh
hadoop-config.sh   start-all.sh               stop-all.sh               task-controller
hadoop-daemon.sh   start-balancer.sh          stop-balancer.sh
hadoop-daemons.sh  start-dfs.sh               stop-dfs.sh
rcc                start-jobhistoryserver.sh  stop-jobhistoryserver.sh
zhangzhen@ubuntu:~/software/hadoop-1.2.1/bin$ jps（确定Hadoop已经起来了）
7101 SecondaryNameNode
7193 JobTracker
7397 TaskTracker
9573 Jps
6871 DataNode
6667 NameNode
zhangzhen@ubuntu:~/software/hadoop-1.2.1/bin$ cd ..
zhangzhen@ubuntu:~/software/hadoop-1.2.1$ ls
bin          data                       hadoop-minicluster-1.2.1.jar  libexec      share
build.xml    docs                       hadoop-test-1.2.1.jar         LICENSE.txt  src
c++          hadoop-ant-1.2.1.jar       hadoop-tools-1.2.1.jar        logs         webapps
CHANGES.txt  hadoop-client-1.2.1.jar    ivy                           NOTICE.txt
conf         hadoop-core-1.2.1.jar      ivy.xml                       README.txt
contrib      hadoop-examples-1.2.1.jar  lib                           sbin
zhangzhen@ubuntu:~/software/hadoop-1.2.1$ bin/hadoop dfs -put ../input in  //把文件上传的hdfa中的in目录中，其实这个说法有误
zhangzhen@ubuntu:~/software/hadoop-1.2.1$ bin/hadoop dfs -ls .in/*
ls: Cannot access .in/*: No such file or directory.
zhangzhen@ubuntu:~/software/hadoop-1.2.1$ bin/hadoop dfs -ls ./in/*
-rw-r--r--   1 zhangzhen supergroup         15 2014-03-22 10:45 /user/zhangzhen/in/test1.txt
-rw-r--r--   1 zhangzhen supergroup         22 2014-03-22 10:45 /user/zhangzhen/in/test2.txt

注意：Hadoop中是没有当前目录这个概念的。所以上传到hdfs中的文件，我们是不能通过cd命令、ls命令，查看目录中的文件。这里我们通过就是上面和下面命令查看hdfs中文件的方法。

在每个版本中，hadoop-examples-1.2.1.jar的位置不一样，在Hadoop1.2.1版本中，我们hadoop-examples-1.2.1.jar文件是在Hadoop目录中的，这里我们需要把这个hadoop-examples-1.2.1.jar拷贝到/bin 目录中。

执行：利用hadoop-examples-1.2.1.jar执行bin目录下in目录中的文件，并把结果写入到 put 的文件夹。

zhangzhen@ubuntu:~/software$ bin/hadoop jar hadoop-examples-1.2.1.jar wordcount in put

查看输出的结果：

zhangzhen@ubuntu:~/software/hadoop-1.2.1$ bin/hadoop dfs -ls
Found 2 items
drwxr-xr-x   - zhangzhen supergroup          0 2014-03-22 10:45 /user/zhangzhen/in
drwxr-xr-x   - zhangzhen supergroup          0 2014-03-22 10:56 /user/zhangzhen/put
zhangzhen@ubuntu:~/software/hadoop-1.2.1$ bin/hadoop dfs -ls ./put
Found 3 items
-rw-r--r--   1 zhangzhen supergroup          0 2014-03-22 10:56 /user/zhangzhen/put/_SUCCESS
drwxr-xr-x   - zhangzhen supergroup          0 2014-03-22 10:56 /user/zhangzhen/put/_logs  目录
-rw-r--r--   1 zhangzhen supergroup         39 2014-03-22 10:56 /user/zhangzhen/put/part-r-00000   这是文件
zhangzhen@ubuntu:~/software/hadoop-1.2.1/hadoop dfs -cat ./put/*
I      1
You    1
am     1
are    1
not    1
zhangzhen    2
cat: File does not exist: /user/zhangzhen/put/_logs
zhangzhen@ubuntu:~/software/hadoop-1.2.1$

上面的结果，就基本可以证明Hadoop搭建是没有问题的。执行hadoop-examples-1.2.1.jar程序，其实是把java程序编译打成一个jar文件，然后直接运行，就可以得到结果。其实这也是以后我们运行java程序的一个方法。把程序编译打包上传，然后运行。还有另一种方面，eclipse连接Hadoop，可以联机测试。两种方法各有优点，不再详述。

运行的程序，我们可以在Hadoop的安装目录中找到源文件，WourdCount.java源代码。

zhangzhen@ubuntu:~/software/hadoop-1.2.1/src/examples/org/apache/hadoop/examples$ pwd 
/home/zhangzhen/software/hadoop-1.2.1/src/examples/org/apache/hadoop/examples 
zhangzhen@ubuntu:~/software/hadoop-1.2.1/src/examples/org/apache/hadoop/examples$

下面是把源代码拷到eclipse程序中，利用此代码（并未修改）测试一下实际的数据并得到结果。（注释是对上以一行的解释）

import java.io.IOException;  
import java.util.StringTokenizer;  
  
import org.apache.hadoop.conf.Configuration;  
import org.apache.hadoop.fs.Path;  
import org.apache.hadoop.io.IntWritable;  
import org.apache.hadoop.io.Text;  
import org.apache.hadoop.mapreduce.Job;  
import org.apache.hadoop.mapreduce.Mapper;  
import org.apache.hadoop.mapreduce.Reducer;  
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
import org.apache.hadoop.util.GenericOptionsParser;  
  
public class Wordcount {  
  
  public static class TokenizerMapper   
       extends Mapper<Object, Text, Text, IntWritable>{ 
//规定map中用到的数据类型，这里的Text相当于jdk中的String IntWritable相当于jdk的int类型，
//这样做的原因主要是为了hadoop的数据序化而做的。 
      
    private final static IntWritable one = new IntWritable(1);
//声时一个IntWritable变量，作计数用，每出现一个key，给其一个value=1的值  
    private Text word = new Text();//用来暂存map输出中的key值，Text类型的  
        
    public void map(Object key, Text value, Context context  
                    ) throws IOException, InterruptedException { 
//这就是map函数，它是和Mapper抽象类中的相对应的，此处的Object key,Text value的类型和上边的Object,
//Text是相对应的，而且最好一样，不然的话，多数情况运行时会报错。
      StringTokenizer itr = new StringTokenizer(value.toString());
//Hadoop读入的value是以行为单位的，其key为该行所对应的行号，因为我们要计算每个单词的数目，
//默认以空格作为间隔，故用StringTokenizer辅助做字符串的拆分，也可以用string.split("")来作。
      while (itr.hasMoreTokens()) { //遍历一下每行字符串中的单词 
        word.set(itr.nextToken());  //出现一个单词就给它设成一个key并将其值设为1
        context.write(word, one);   //输出设成的key/value值
//上面就是map打散的过程
      }  
    }  
  }  
    
  public static class IntSumReducer   
       extends Reducer<Text,IntWritable,Text,IntWritable> {
//reduce的静态类，这里和Map中的作用是一样的，设定输入/输出的值的类型
    private IntWritable result = new IntWritable();  
  
    public void reduce(Text key, Iterable<IntWritable> values,   
                       Context context  
                       ) throws IOException, InterruptedException {  
      int sum = 0;  
      for (IntWritable val : values) { 
 //由于map的打散，这里会得到如，{key,values}={"hello",{1,1,....}},这样的集合
        sum += val.get();               
//这里需要逐一将它们的value取出来予以相加，取得总的出现次数，即为汇和
      }  
      result.set(sum);                  //将values的和取得，并设成result对应的值
      context.write(key, result);
//此时的key即为map打散之后输出的key，没有变化，变化的时result,以前得到的是一个数字的集合，
//已经给算出和了，并做为key/value输出。  
    }  
  }  
  
  public static void main(String[] args) throws Exception {  
    Configuration conf = new Configuration();  //取得系统的参数
    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();  
    if (otherArgs.length != 2) {               
 //判断一下命令行输入路径/输出路径是否齐全，即是否为两个参数
      System.err.println("Usage: wordcount <in> <out>");  
      System.exit(2);                           //若非两个参数，即退出
    }  
    Job job = new Job(conf, "word count");      
//此程序的执行，在hadoop看来是一个Job，故进行初始化job操作
    job.setJarByClass(Wordcount.class);        
 //可以认为成，此程序要执行MyWordCount.class这个字节码文件
    job.setMapperClass(TokenizerMapper.class); 
//在这个job中，我用TokenizerMapper这个类的map函数
    job.setCombinerClass(IntSumReducer.class);  
    job.setReducerClass(IntSumReducer.class);   
//在这个job中，我用IntSumReducer这个类的reduce函数 
    job.setOutputKeyClass(Text.class);          
//在reduce的输出时，key的输出类型为Text
    job.setOutputValueClass(IntWritable.class);  
//在reduce的输出时,value的输出类型为IntWritable
    FileInputFormat.addInputPath(job, new Path(otherArgs[0]));  
//初始化要计算word的文件的路径
    FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 
//初始化要计算word的文件的之后的结果的输出路径 
    System.exit(job.waitForCompletion(true) ? 0 : 1);
 //提交job到hadoop上去执行了，意思是指如果这个job真正的执行完了则主函数退出了，若没有真正的执行完就退出了。  
  } 
//参考：http://hi.baidu.com/erliang20088/item/ce550f2f088ff1ce0e37f930
}

WourdCount程序中隐藏的秘密

1、具体流程：

1）文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成对，如下图。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数和Linux环境有关。

2）将分割好的对交给用户定义的map方法进行处理，生成新的对。

3）得到map方法输出的对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。

2、Map Task的整体流程：

可以概括为5个步骤：

1）Read：Map Task通过用户编写的RecordReader，从输入InputSplit中解析出一个个key/value。

2）Map：该阶段主要将解析出的key/value交给用户编写的map()函数处理，并产生一系列的key/value。

3）Collect：在用户编写的map()函数中，当数据处理完成后，一般会调用OutputCollector.collect()输入结果。在该函数内部，它会将生成的key/value分片（通过Partitioner），并写入一个环形内存缓冲区中。

4）Spill：即“溢写”，当环形缓冲区满后，MapReduce会将数据写到本地磁盘上，生成一个临时文件。将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并，压缩等操作。

5）Combine：当所有数据处理完成后，Map Task对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。

3、Reduce的整体流程：

可以概括为5个步骤：

1）Shuffle：也称Copy阶段。Reduce Task从各个Map Task上远程拷贝一片数据，并针对某一片数据，如果其大小超过一定阀值，则写到磁盘上，否则直接放到内存中。

2）Merge：在远程拷贝的同时，Reduce Task启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或者磁盘上文件过多。

3）Sort：按照MapReduce语义，用户编写的reduce()函数输入数据是按key进行聚集的一组数据。为了将key相同的数据聚在一起，Hadoop采用了基于排序的策略。由于各个Map Task已经实现了对自己的处理结果进行了局部排序，因此，Reduce Task只需对所有数据进行一次归并排序即可。

4）Reduce：在该阶段中，Reduce Task将每组数据依次交给用户编写的reduce()函数处理。

5）Write：reduce()函数将计算结果写到HDFS。

通过一些博客对WourdCount的介绍示例，总结Map、Reduce的整个过程。加上Thinking in BigDate（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解所将的内容，大致把整个文件数据处理的过程梳理一遍。但是还有很多细节没有讲明。如：Spill、Combine、Shuffle的过程，Shuffle整个MapReduce的核心。接下来，我们更深入了解MapReduce的过程，更深入的了解，便于我们在以后在操作Hadoop集群的过程中，有利于系统调优，甚至修改Hadoop源代码。

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

MySQL : 초보자가 마스터하는 필수 기술Apr 18, 2025 am 12:24 AM

MySQL은 초보자가 데이터베이스 기술을 배우는 데 적합합니다. 1. MySQL 서버 및 클라이언트 도구를 설치하십시오. 2. SELECT와 같은 기본 SQL 쿼리를 이해하십시오. 3. 마스터 데이터 작업 : 데이터를 만들고, 삽입, 업데이트 및 삭제합니다. 4. 고급 기술 배우기 : 하위 쿼리 및 창 함수. 5. 디버깅 및 최적화 : 구문 확인, 인덱스 사용, 선택*을 피하고 제한을 사용하십시오.

MySQL : 구조화 된 데이터 및 관계형 데이터베이스Apr 18, 2025 am 12:22 AM

MySQL은 테이블 구조 및 SQL 쿼리를 통해 구조화 된 데이터를 효율적으로 관리하고 외래 키를 통해 테이블 간 관계를 구현합니다. 1. 테이블을 만들 때 데이터 형식을 정의하고 입력하십시오. 2. 외래 키를 사용하여 테이블 간의 관계를 설정하십시오. 3. 인덱싱 및 쿼리 최적화를 통해 성능을 향상시킵니다. 4. 데이터 보안 및 성능 최적화를 보장하기 위해 데이터베이스를 정기적으로 백업 및 모니터링합니다.

MySQL : 주요 기능 및 기능이 설명되었습니다Apr 18, 2025 am 12:17 AM

MySQL은 웹 개발에 널리 사용되는 오픈 소스 관계형 데이터베이스 관리 시스템입니다. 주요 기능에는 다음이 포함됩니다. 1. 다른 시나리오에 적합한 InnoDB 및 MyISAM과 같은 여러 스토리지 엔진을 지원합니다. 2.로드 밸런싱 및 데이터 백업을 용이하게하기 위해 마스터 슬레이브 복제 기능을 제공합니다. 3. 쿼리 최적화 및 색인 사용을 통해 쿼리 효율성을 향상시킵니다.

SQL의 목적 : MySQL 데이터베이스와 상호 작용합니다Apr 18, 2025 am 12:12 AM

SQL은 MySQL 데이터베이스와 상호 작용하여 데이터 첨가, 삭제, 수정, 검사 및 데이터베이스 설계를 실현하는 데 사용됩니다. 1) SQL은 Select, Insert, Update, Delete 문을 통해 데이터 작업을 수행합니다. 2) 데이터베이스 설계 및 관리에 대한 생성, 변경, 삭제 문을 사용하십시오. 3) 복잡한 쿼리 및 데이터 분석은 SQL을 통해 구현되어 비즈니스 의사 결정 효율성을 향상시킵니다.

초보자를위한 MySQL : 데이터베이스 관리를 시작합니다Apr 18, 2025 am 12:10 AM

MySQL의 기본 작업에는 데이터베이스, 테이블 작성 및 SQL을 사용하여 데이터에서 CRUD 작업을 수행하는 것이 포함됩니다. 1. 데이터베이스 생성 : createAbasemy_first_db; 2. 테이블 만들기 : CreateTableBooks (idintauto_incrementprimarykey, titlevarchar (100) notnull, authorvarchar (100) notnull, published_yearint); 3. 데이터 삽입 : InsertIntobooks (Title, Author, Published_year) VA

MySQL의 역할 : 웹 응용 프로그램의 데이터베이스Apr 17, 2025 am 12:23 AM

웹 응용 프로그램에서 MySQL의 주요 역할은 데이터를 저장하고 관리하는 것입니다. 1. MySQL은 사용자 정보, 제품 카탈로그, 트랜잭션 레코드 및 기타 데이터를 효율적으로 처리합니다. 2. SQL 쿼리를 통해 개발자는 데이터베이스에서 정보를 추출하여 동적 컨텐츠를 생성 할 수 있습니다. 3.mysql은 클라이언트-서버 모델을 기반으로 작동하여 허용 가능한 쿼리 속도를 보장합니다.

MySQL : 첫 번째 데이터베이스 구축Apr 17, 2025 am 12:22 AM

MySQL 데이터베이스를 구축하는 단계에는 다음이 포함됩니다. 1. 데이터베이스 및 테이블 작성, 2. 데이터 삽입 및 3. 쿼리를 수행하십시오. 먼저 CreateAbase 및 CreateTable 문을 사용하여 데이터베이스 및 테이블을 작성한 다음 InsertInto 문을 사용하여 데이터를 삽입 한 다음 최종적으로 SELECT 문을 사용하여 데이터를 쿼리하십시오.

MySQL : 데이터 저장에 대한 초보자 친화적 인 접근 방식Apr 17, 2025 am 12:21 AM

MySQL은 사용하기 쉽고 강력하기 때문에 초보자에게 적합합니다. 1.MySQL은 관계형 데이터베이스이며 CRUD 작업에 SQL을 사용합니다. 2. 설치가 간단하고 루트 사용자 비밀번호를 구성해야합니다. 3. 삽입, 업데이트, 삭제 및 선택하여 데이터 작업을 수행하십시오. 4. Orderby, Where and Join은 복잡한 쿼리에 사용될 수 있습니다. 5. 디버깅은 구문을 확인하고 쿼리를 분석하기 위해 설명을 사용해야합니다. 6. 최적화 제안에는 인덱스 사용, 올바른 데이터 유형 선택 및 우수한 프로그래밍 습관이 포함됩니다.

See all articles