第一个Map/Reduce程序-mysql教程-PHP中文网

首页

数据库

mysql教程

第一个Map/Reduce程序

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:31 PM

macmapreduce开发程序第一个

当在MAC上搭建好开发环境之后，第一件事肯定是找一个hello world程序练习下。而hadoop世界的hello word程序就是下面的这个Word Count程序。 1. 新建项目步骤：FileNewOtherMap/Reduce Project 项目名可以随便取，如MapReduceSample。然后新建类WordCount.ja

当在MAC上搭建好开发环境之后，第一件事肯定是找一个hello world程序练习下。而hadoop世界的hello word程序就是下面的这个Word Count程序。

1. 新建项目

步骤：File–>New–>Other–>Map/Reduce Project

项目名可以随便取，如MapReduceSample。然后新建类WordCount.java，其代码如下：

package com.lifeware.test;
import java.io.IOException;
import java.util.*;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapred.*;
import org.apache.hadoop.util.*;
public class WordCount {

public static class Map extends MapReduceBase implements Mapper {
private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

? ? ? ? public void map(LongWritable key, Text value, OutputCollector output, Reporter reporter) throws IOException {
String line = value.toString();
StringTokenizer tokenizer = new StringTokenizer(line);
while (tokenizer.hasMoreTokens()) {
word.set(tokenizer.nextToken());
output.collect(word, one);
}
}
}

public static class Reduce extends MapReduceBase implements Reducer {
public void reduce(Text key, Iterator values, OutputCollector output, Reporter reporter) throws IOException {
int sum = 0;
while (values.hasNext()) {
sum += values.next().get();
}
output.collect(key, new IntWritable(sum));
}
}
/**
* @param args
* @throws IOException
*/
public static void main(String[] args) throws IOException {
// TODO Auto-generated method stub
JobConf conf = new JobConf(WordCount.class);
conf.setJobName(“wordcount”);

? ?conf.setOutputKeyClass(Text.class);
conf.setOutputValueClass(IntWritable.class);
conf.setMapperClass(Map.class);
conf.setCombinerClass(Reduce.class);
conf.setReducerClass(Reduce.class);

? ?conf.setInputFormat(TextInputFormat.class);
conf.setOutputFormat(TextOutputFormat.class);

? ?FileInputFormat.setInputPaths(conf, new Path(args[0]));
FileOutputFormat.setOutputPath(conf, new Path(args[1]));

? ?JobClient.runJob(conf);
}
}

2. 数据准备

为了运行程序，我们分别需要一个输入和输出的文件夹。输出文件夹，在程序运行完成后会自动生成。我们需要给程序传人一个输入文件夹。

2.1. ?准备本地文件

在当前项目目录下新建文件夹input，并在文件夹下新建两个文件file1、file2，这两个文件内容分别如下：

?file1： ? ?Hello World Bye World
file2: ? ? ?Hello Hadoop Goodbye Hadoop

2.2. 将文件夹input上传到分布式文件系统中?

在已经启动Hadoop守护进程终端中cd 到hadoop安装目录，运行下面命令：

bin/hadoop fs -put ../test/input input

将input文件夹上传到了hadoop文件系统后，在该系统下就多了一个input文件夹，你可以使用下面命令查看：

bin/hadoop fs -ls

或者直接通过Eclipse插件，查看DFS Locations显示：

3. 运行项目

3.1. ?在新建的项目MapReduceSample，点击WordCount.java，右键–>Run As–>Run Configurations

3.2. 在弹出的Run Configurations对话框中，点Java Application，右键–>New，这时会新建一个application名为WordCount

3.3. ?配置运行参数，点Arguments，在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”，如：

hdfs://localhost:9000/user/metaboy/input hdfs://localhost:9000/user/metaboy/output

这里面的input就是你刚传上去文件夹。文件夹地址你可以根据自己具体情况填写。

4.运行程序

点击Run，运行程序，过段时间将运行完成，等运行结束后，可以在终端中用命令：

? ? ?bin/hadoop fs -ls

或者使用插件hadoop eclipse插件查看是否生成文件夹output。

?5. 结果查看

用下面命令查看生成的文件内容：

? ? bin/hadoop fs -cat output/*

运行完这个程序之后，基本上就算是步入到Hadoop这个大家族啦！

原文地址：第一个Map/Reduce程序, 感谢原作者分享。

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

springboot怎么读取yml文件中的list列表、数组、map集合和对象May 11, 2023 am 10:46 AM

application.yml定义list集合第一种方式使用@ConfigurationProperties注解获取list集合的所有值type:code:status:-200-300-400-500编写配置文件对应的实体类,这里需要注意的是，定义list集合，先定义一个配置类Bean，然后使用注解@ConfigurationProperties注解来获取list集合值，这里给大家讲解下相关注解的作用@Component将实体类交给Spring管理@ConfigurationPropertie

Java怎么设置过期时间的mapMay 04, 2023 am 10:13 AM

一、技术背景在实际的项目开发中，我们经常会使用到缓存中间件（如redis、MemCache等）来帮助我们提高系统的可用性和健壮性。但是很多时候如果项目比较简单，就没有必要为了使用缓存而专门引入Redis等等中间件来加重系统的复杂性。那么Java本身有没有好用的轻量级的缓存组件呢。答案当然是有喽，而且方法不止一种。常见的解决方法有：ExpiringMap、LoadingCache及基于HashMap的封装三种。二、技术效果实现缓存的常见功能，如过时删除策略热点数据预热三、ExpiringMap3.

Java中Map实现线程安全的方式有哪些Apr 19, 2023 pm 07:52 PM

方式1.使用HashtableMaphashtable=newHashtable();这是所有人最先想到的，那为什么它是线程安全的？那就看看它的源码,我们可以看出我们常用的put,get，containsKey等方法都是同步的，所以它是线程安全的publicsynchronizedbooleancontainsKey(Objectkey){Entrytab[]=table;inthash=key.hashCode();intindex=(hash&0x7FFFFFFF)%tab.leng

Java中将对象与Map相互转换的实现方式 - 使用BeanMapMay 08, 2023 pm 03:49 PM

javabean与map的转换有很多种方式，比如:1、通过ObjectMapper先将bean转换为json，再将json转换为map，但是这种方法比较绕，且效率很低，经测试，循环转换10000个bean，就需要12秒！！！不推荐使用2、通过Java反射，获取bean类的属性和值，再转换到map对应的键值对中，这种方法次之，但稍微有点麻烦3、通过net.sf.cglib.beans.BeanMap类中的方法，这种方式效率极高，它跟第二种方式的区别就是因为使用了缓存，初次创建bean时需要初始化，

Nginx服务器中map模块怎么配置与使用May 21, 2023 pm 05:14 PM

map指令使用ngx_http_map_module模块提供的。默认情况下，nginx有加载这个模块，除非人为的--without-http_map_module。ngx_http_map_module模块可以创建变量，这些变量的值与另外的变量值相关联。允许分类或者同时映射多个值到多个不同值并储存到一个变量中，map指令用来创建变量，但是仅在变量被接受的时候执行视图映射操作，对于处理没有引用变量的请求时，这个模块并没有性能上的缺失。一.ngx_http_map_module模块指令说明map语法

go语言怎么获取map元素Jan 16, 2023 am 10:38 AM

两种方法：1、利用“for range”语句遍历map来获取全部元素，语法“for key, value := range mapName{...}”。2、使用key做为索引的形式来获取指定元素，语法“value, isOk := mapName[key]”；返回两个返回值，第一个返回值是获取的值，如果key不存在，返回空值，第二个参数是一个bool值，表示获取值是否获取成功。

使用php开发Websocket，实现实时地图定位功能Dec 17, 2023 pm 08:09 PM

标题：使用PHP开发Websocket实现实时地图定位功能简介：Websocket是一种实现持久连接，实时双向通信的协议，能够实现实时的数据传输和更新。本文将使用PHP开发Websocket，结合地图定位功能，实现实时地图定位功能。下面将详细介绍具体的代码实现过程。一、准备工作安装PHP环境（版本要求：PHP5.3.0+）安装Composer（PHP第三方

Java 8中的Stream API：如何使用collect()方法将集合收集为Map对象Jul 31, 2023 pm 03:24 PM

Java8中引入了新的StreamAPI，它提供了一种更加高效、简洁的方式来处理集合数据。StreamAPI提供了各种方法来对数据进行处理和转换，其中collect()方法是一个非常重要且常用的方法之一。本文将介绍如何使用collect()方法将集合收集为Map对象，并提供相应的代码示例。在Java8之前，如果我们想将一个集合转

See all articles