Home >Database >Mysql Tutorial >Hadoop2.3.0详细安装过程

Hadoop2.3.0详细安装过程

WBOY
WBOYOriginal
2016-06-07 16:01:131022browse

前言: Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large d

前言:
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。
1,系统架构
集群角色:
2.2 用户目录创建
创建hadoop运行账户:
2.3 配置ssh免密码登陆
参考文章地址:http://blog.csdn.net/ab198604/article/details/8250461
2.3.1 每个节点分别产生密钥
# 提示:
2.3.2 在data01(192.168.52.129)上面执行:
useradd hadoop #设置hadoop用户组
2.3.3 在data01(192.168.52.130)上面执行:
useradd hadoop #设置hadoop用户组
2.3.4 构造3个通用的authorized_keys
在name01(192.168.52.128)上操作:
2.3.5 解决ssh name01失败的问题
[hadoop@data01 ~]$ ssh name01
2.3.6 验证name01、data01、data02任何ssh免密码登录
[hadoop@data02 ~]$ ssh name01
3.2,安装hadoop
下载软件包:
3.3,hadoop配置文件
hadoop群集涉及配置文件:hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml yarn-env.sh slaves yarn-site.xml
3.3,格式化文件系统
在name01主库上面执行 hadoop namenode -format操作,格式化hdfs文件系统。
3.4,hadoop管理
3.4.1 格式化完成后,开始启动hadoop 程序启动hadoop 的命令脚本都在$HADOOP_HOME/sbin/下,下面的所有命令都不再带有完整路径名称:
distribute-exclude.sh hdfs-config.sh slaves.sh start-dfs.cmd start-yarn.sh stop-dfs.cmd stop-yarn.sh
3.4.2,第一种,一次性全部启动:
执行start-all.sh 启动hadoop,观察控制台的输出,可以看到正在启动进程,分别是namenode、datanode、secondarynamenode、jobtracker、tasktracker,一共5 个,待执行完毕后,并不意味着这5 个进程成功启动,上面仅仅表示系统正在启动进程而已。我们使用jdk 的命令jps 查看进程是否已经正确启动。执行以下jps,如果看到了这5 个进程,说明hadoop 真的启动成功了。如果缺少一个或者多个,那就进入到“Hadoop的常见启动错误”章节寻找原因了。
3.4.2.1,检查后台各个节点运行的hadoop进程
[hadoop@name01 hadoop]$ jps
3.4.2.3,再去data02节点下检查
[hadoop@data02 ~]$ jps
进入http://192.168.52.128:50070/dfshealth.html#tab-overview,看集群基本信息,如下图所示:
\进入http://192.168.52.128:50070/dfshealth.html#tab-datanode,看datanode信息,如下图所示:
\进入http://192.168.52.128:50070/logs/,查看所有日志信息,如下图所示:
\3.4.2.5,关闭hadoop 的命令是stop-all.sh,如下所示:
[hadoop@name01 src]$ /home/hadoop/src/hadoop-2.3.0/sbin/stop-all.sh
3.4.3,第二种,分别启动HDFS 和yarn:
执行命令start-dfs.sh,是单独启动hdfs。执行完该命令后,通过jps 能够看到NameNode、DataNode、SecondaryNameNode 三个进程启动了,该命令适合于只执行hdfs
3.4.3.2 再启动yarn
执行命令start-yarn.sh,可以单独启动资源管理器的服务器端和客户端进程,关闭的命令就是stop-yarn.sh
3.4.3.3 依次关闭,先关闭yarn再关闭HDFS
[hadoop@name01 sbin]$ stop-yarn.sh
3.4.4,第三种,分别启动各个进程:
[root@book0 bin]# jps
3.5,另外一种检查状态hadoop集群的状态
:用"hadoop dfsadmin -report"来查看hadoop集群的状态
参考网址:
http://blog.csdn.net/hguisu/article/details/7237395

Statement:
The content of this article is voluntarily contributed by netizens, and the copyright belongs to the original author. This site does not assume corresponding legal responsibility. If you find any content suspected of plagiarism or infringement, please contact admin@php.cn