Heim >Datenbank >MySQL-Tutorial >"Hadoop/MapReduce/HBase"分享总结

"Hadoop/MapReduce/HBase"分享总结

WBOY
WBOYOriginal
2016-06-07 16:30:291116Durchsuche

概述: 此分享是关于hadoop生态系统的简单介绍包括起源到相对应用 技术点: 1.hadoop核心包括Common,HDFS和MapReduce;2.Pig,Hbase,Hive,Zookeeper;3.Hadoop日志分析工具Chukwa;4.MR解决的问题:海量输入数据,简单任务划分和集群计算环境;5.执行流程

概述:

此分享是关于hadoop生态系统的简单介绍包括起源到相对应用

技术点:

1.hadoop核心包括Common,HDFS和MapReduce;
2.Pig,Hbase,Hive,Zookeeper;
3.Hadoop日志分析工具Chukwa;
4.MR解决的问题:海量输入数据,简单任务划分和集群计算环境;
5.执行流程:FileSplit / Map / Combine(Partition)和Copy / Sort / Reduce 
6.分布式计算包括:作业和任务调度和执行,预测执行,故障处理和针对不同应用环境的优化
7.HDFS可靠性措施:NameNode备份,多数据结点(冗余),数据结点的心跳检测,块报告和完整性检验,NameNode的日志文件和镜像文件;
8.两个系列版本:Apache和Cloudera;
9.SSH无密码访问;
10.内置web服务器:
JobTrackerIP:50030 
TaskTrackerIP:50060 
NamenodeIP:50070 
DatanodeIP:50075 
11.HBase以以Region为单位管理region(startKey,endKey);
12.HBase的每个Column Family单独存储:storeFile;
13.HBase的RegionServer为Region读写操作的场所;
14.HBase的Master管理Region的分配和基于zookeeper来保证HA;
15.HBase的强一致性:同一行数据的读写只在同一台regionserver上进行;
16.HBase的水平伸缩:region的自动分裂以及master的balance,只用增加datanode机器即可增加容量和增加regionserver机器即可增加读写吞吐量;
17.HBase的行事务;
18.HBase三维有序rowKey (ASC) + columnLabel(ASC) + Version (DESC)  --> value 
19.HBase支持范围查询和高性能随机写 ;
20.HBase基于Hadoop;
21.HBase不支持二级索引和join操作;
22.Hbase具有特定的适用场景;

详情参见附件



    本文附件下载:
  • Hadoop和HBase.pdf (2.1 MB)


已有 0 人发表留言,猛击->> 这里

ITeye推荐
  • —软件人才免语言低担保 赴美带薪读研!—



"Hadoop/MapReduce/HBase"分享总结

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn