MapReduce2.0处理机制-mysql教程-PHP中文網

首頁

資料庫

mysql教程

MapReduce2.0处理机制

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 03:08 PM

mapreduce分處理機制

MapReduce（分布式计算模型）作为Hadoop家族一重要的家庭成员主要用于搜素领域，海量数据计算等问题。内部模型采用分而治之的思想。MapReduce分为两部分(Map和Reduce)。其中Shuffler是对Reduce的预处理。 map和reduce的数据处理方式均采取键对的方式:即 [k1

MapReduce（分布式计算模型）作为Hadoop家族一重要的家庭成员主要用于搜素领域，海量数据计算等问题。

内部模型采用"分而治之"的思想。MapReduce分为两部分(Map和Reduce)。其中Shuffler是对Reduce的预处理。 MapReduce2.0处理机制

map和reduce的数据处理方式均采取键值对的方式:即 [k1,v1]->MAP->[K2,V2]->Reduce->[k3,v3]。

MR执行流程
(1).客户端提交一个mr的jar包给JobClient(提交方式：hadoop jar ...)
(2).JobClient通过RPC和JobTracker进行通信，返回一个存放jar包的地址（HDFS）和jobId
(3).client将jar包写入到HDFS当中(path = hdfs上的地址 + jobId)
(4).开始提交任务(任务的描述信息，不是jar, 包括jobid，jar存放的位置，配置信息等等)
(5).JobTracker进行初始化任务
(6).读取HDFS上的要处理的文件，开始计算输入分片，每一个分片对应一个MapperTask
(7).TaskTracker通过心跳机制领取任务（任务的描述信息）
(8).下载所需的jar，配置文件等
(9).TaskTracker启动一个java child子进程，用来执行具体的任务（MapperTask或ReducerTask）
(10).将结果写入到HDFS当中

在hadoop2.0以上版本中JobTracker取名为RM(resourceManage) TastTracker取名为NM(nodeManage)

MapReduce2.0处理机制

mapReduce操作实现wordcount功能(即从文本中读取内容，计算出每个单词出现的次数)

程序分为3个类(自定义MAP方法功能实现，自定义REDUCE方法功能实现，最后类拼凑成mapreduce模式导成jar包，在HDFS分布式功能中实现)

1.WCMapper类（实现map）

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

/*
* 给wordcount写mapper
* 定义mapper
* KEYIN:k1的类型
* VALUEIN：v1的类型
*
* 重写map方法
* hadoop没有使用jdk默认的序列化机制(long->longwriteable String->Text)
*/
public class WCMapper extends Mapper {

@Override
protected void map(LongWritable key, Text value,
   Mapper.Context context)
   throws IOException, InterruptedException {
  // TODO Auto-generated method stub

  // 接收信息V1
  String line = value.toString();
  // 切分数据
  String[] words = line.split(" ");
  // 循环
  for (String w : words) {
   // 出现一次记一个1,输出
   // 构一个新的key,value
   context.write(new Text(w), new LongWritable(1));
  }
}

}

2.WCReducer类实现reduce功能

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/*
* KEYIN k2的类型
* VALUEIN v2的类型
*
* 重写reducer方法
*/
public class WCReducer extends Reducer {

@Override
protected void reduce(Text k2, Iterable v2s,
   Reducer.Context context)
   throws IOException, InterruptedException {
  // 接收数据
  Text k3 = k2;
  // 定义一个计数器
  Long count = (long) 0;
  // 循环v2s
  for (LongWritable i : v2s) {
   count += i.get();
  }
  // 输出
  context.write(k3, new LongWritable(count));
}

}

3.wordCount类。拼凑前两个类，符合mapreduce格式

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/*
* mapReduce
*
* 组装自定义的map和reduce
*/
public class wordCount {
public static void main(String[] args) throws Exception {
// Job job=Job.instance(new Configuration()); //版本hadoop2
Job job = new Job(new Configuration()); // 版本hadoop1

// 4.注意---将main方法中的类设进去
job.setJarByClass(wordCount.class);

  // 1.设置自定义Mapper
  job.setMapperClass(WCMapper.class);
  job.setMapOutputKeyClass(Text.class);
  job.setMapOutputValueClass(LongWritable.class);

// 设置mapper读入的path(hdfs路径)
FileInputFormat.setInputPaths(job, new Path("/words.txt"));

  // 2.设置reduce
  job.setReducerClass(WCReducer.class);
  job.setOutputKeyClass(Text.class);
  job.setOutputValueClass(LongWritable.class);

FileOutputFormat.setOutputPath(job, new Path("/WcountResult"));

// 3.提交
job.waitForCompletion(true); // 打印进度和详情
}
}

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

您可以使用哪些工具來監視MySQL性能？Apr 23, 2025 am 12:21 AM

如何有效監控MySQL性能？使用mysqladmin、SHOWGLOBALSTATUS、PerconaMonitoringandManagement(PMM)和MySQLEnterpriseMonitor等工具。 1.使用mysqladmin查看連接數。 2.用SHOWGLOBALSTATUS查看查詢數。 3.PMM提供詳細性能數據和圖形化界面。 4.MySQLEnterpriseMonitor提供豐富的監控功能和報警機制。

MySQL與SQL Server有何不同？Apr 23, 2025 am 12:20 AM

MySQL和SQLServer的区别在于：1)MySQL是开源的，适用于Web和嵌入式系统，2)SQLServer是微软的商业产品，适用于企业级应用。两者在存储引擎、性能优化和应用场景上有显著差异，选择时需考虑项目规模和未来扩展性。

在哪些情況下，您可以選擇SQL Server而不是MySQL？Apr 23, 2025 am 12:20 AM

在需要高可用性、高級安全性和良好集成性的企業級應用場景下，應選擇SQLServer而不是MySQL。 1)SQLServer提供企業級功能，如高可用性和高級安全性。 2)它與微軟生態系統如VisualStudio和PowerBI緊密集成。 3)SQLServer在性能優化方面表現出色，支持內存優化表和列存儲索引。

MySQL如何處理角色集和碰撞？Apr 23, 2025 am 12:19 AM

mySqlManagesCharacterSetsetSandCollationsyutusututf-8asthEdeFault，允許ConfigurationAtdataBase，table和columnlevels，AndrequiringCarefullageLignmentToavoidMismatches.1）setDefeaultCharactersetTercharactersetEtCollacterSeteTandColletationForAdataBase.2）conformentcollecharactersettersetertersetcollatertersetcollationcollation

MySQL中有什麼觸發器？Apr 23, 2025 am 12:11 AM

MySQL觸發器是與表相關聯的自動執行的存儲過程，用於在特定數據操作時執行一系列操作。 1）觸發器定義與作用：用於數據校驗、日誌記錄等。 2）工作原理：分為BEFORE和AFTER，支持行級觸發。 3）使用示例：可用於記錄薪資變更或更新庫存。 4）調試技巧：使用SHOWTRIGGERS和SHOWCREATETRIGGER命令。 5）性能優化：避免複雜操作，使用索引，管理事務。

您如何在MySQL中創建和管理用戶帳戶？Apr 22, 2025 pm 06:05 PM

在MySQL中創建和管理用戶賬戶的步驟如下：1.創建用戶：使用CREATEUSER'newuser'@'localhost'IDENTIFIEDBY'password';2.分配權限：使用GRANTSELECT,INSERT,UPDATEONmydatabase.TO'newuser'@'localhost';3.修正權限錯誤：使用REVOKEALLPRIVILEGESONmydatabase.FROM'newuser'@'localhost';然後重新分配權限；4.優化權限：使用SHOWGRA

MySQL與Oracle有何不同？Apr 22, 2025 pm 05:57 PM

MySQL適合快速開發和中小型應用，Oracle適合大型企業和高可用性需求。 1）MySQL開源、易用，適用於Web應用和中小型企業。 2）Oracle功能強大，適合大型企業和政府機構。 3）MySQL支持多種存儲引擎，Oracle提供豐富的企業級功能。

與其他關係數據庫相比，使用MySQL的缺點是什麼？Apr 22, 2025 pm 05:49 PM

MySQL相比其他關係型數據庫的劣勢包括：1.性能問題：在處理大規模數據時可能遇到瓶頸，PostgreSQL在復雜查詢和大數據處理上表現更優。 2.擴展性：水平擴展能力不如GoogleSpanner和AmazonAurora。 3.功能限制：在高級功能上不如PostgreSQL和Oracle，某些功能需要更多自定義代碼和維護。

See all articles