1、环境说明 集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下: Hostname IP 新建用户 新建用户密码 Master 10.10.10.213 hadoop 123456 Slave1 10.10.10.214
1、环境说明
集群环境至少需要3个节点(也就是3台服务器设备):1个Master,2个Slave,节点之间局域网连接,可以相互ping通,下面举例说明,配置节点IP分配如下:
Hostname | IP | 新建用户 | 新建用户密码 |
Master | 10.10.10.213 | hadoop | 123456 |
Slave1 | 10.10.10.214 | hadoop | 123456 |
Slave2 | 10.10.10.215 | hadoop | 123456 |
三个节点均使用centos?6.3系统,为了便于维护,集群环境配置项最好使用相同用户名、用户密码、相同hadoop、hbase、zookeeper目录结构。
2、准备工作
2.1、修改Hostname
为了集群能够正常稳定的运行,我们需要将每个节点的hostname分别配置为对应的Master、Slave1、Slave2。
(1)在Master服务器中执行以下命令:
hostname Master //当前有效
vi /etc/sysconfig/network //重启后生效
HOSTNAME=Master
(2)在Slave1服务器中执行以下命令:
hostname Slave1 //当前有效
vi /etc/sysconfig/network //重启后生效
HOSTNAME=Slave1
(3)在Slave2服务器中执行以下命令:
hostname Slave2 //当前有效
vi /etc/sysconfig/network //重启后生效
HOSTNAME=Slave2
2.2、添加Hosts映射关系
分别在三个节点下通过如下命令修改hosts映射关系:
vi /etc/hosts
添加内容如下:
Master 10.10.10.213 Slave1 10.10.10.214 Slave2 10.10.10.215
2.3、配置JDK环境
Hadoop集群必须依赖JDK环境,所以这里我们首先需要配置好JDK环境,同样为了管理,我们建议服务器中的节点JDK安装环境均在相同路径下。
2.3.1、解压安装包
拷贝jdk文件jdk-6u25-linux-x64.bin到/usr/lib/java文件目录(该目录可自行定义)下,解压安装包,如果文件权限被限制,可通过如下命令进行赋权限操作:
chmod u+w jdk-6u25-linux-x64.bin
2.3.2、修改环境配置信息
vi /etc/profile
在最后加上:
export JAVA_HOME=/usr/lib/java/jdk1.6.0_25 export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/rt.jar
通过注销或者以下命令使修改生效:
source /etc/profile
2.3.3、检查当前JDK版本信息
java -version
2.3.4、补充(可选)
如果查看当前的JDK版本不是刚才设置的JDK版本,则可以进行默认JDK版本设置操作:
sudo update-alternatives --install /usr/bin/java java /usr/lib/java/jdk1.6.0_25/bin/java 300 sudo update-alternatives --install /usr/bin/javac javac /usr/lib/java/jdk1.6.0_25/bin/javac 300 sudo update-alternatives --config java(选择jdk1.6.0_25版本的序号就行)
2.4、安装SSH
Centos系统安装时默认可以选择安装SSH,ubuntu下可以通过如下命令进行安装(前提是必须联网):
sudo apt-get install ssh sudo apt-get install rsync
2.5、新建用户
为了hadoop集群的安全与方便管理,我们要另外新建用户,并设置密码,命令如下:
sudo adduser hadoop sudo passwd hadoop
上述命令中,第一行命令新建了一个user为hadoop的用户,第二行命令是为这个hadoop用户设置密码,同样最好服务器之间均保持一致。
2.6、配置集群之间SSH无密码登陆
集群环境的使用必须通过ssh无密码登陆来执行,本机登陆本机必须无密码登陆,主机与从机之间必须可以双向无密码登陆,从机与从机之间无限制。以本次为例,比如Master与Slave1之间的无密码登陆设置步骤如下:
(1)进入Master服务器,进行无密码自登陆设置
ssh hadoop@Master //登陆Master ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys //生成密钥 chmod 700 ~/.ssh && chmod 600 ~/.ssh/* //设置权限
如果不知道是否配置成功,可通过如下命令进行验证:
ssh localhost如果上述命令不需要输入密码则表示配置成功。
进入Slave1服务器,进行无密码自登陆设置,操作同上,只需将对应的Master改为Slave1即可,此处省略。
(2)进入Master服务器,设置Master->Slave1的无密码登陆
ssh hadoop@Master //登陆Master cat ~/.ssh/id_rsa.pub | ssh hadoop@Slave1 'cat - >> ~/.ssh/authorized_keys' ssh hadoop@Slave1 //若此处不需要输入密码则配置成功
(3)进入Slave1服务器,设置Slave1->Master的无密码登陆
ssh hadoop@Slave1 //登陆Slave1 cat ~/.ssh/id_rsa.pub | ssh hadoop@Master 'cat - >> ~/.ssh/authorized_keys' ssh hadoop@Master //若此处不需要输入密码则成功
以上便是Master与Slave1之间的双向无密码登陆配置。Master与Slave2之间的配置原理同上述基本一样,所以不再赘述。
3、Hadoop集群安装配置
3.1、修改hadoop配置文件
在centos系统下解压hadoop安装包hadoop-1.0.3.tar.gz,修改conf目录下的6个文件:
(1)core-site.xmlfs.default.name hdfs://Master:9000(2)hadoop-env.sh
在该文件中加上如下一行代码:
export JAVA_HOME=(你配置的jdk路径,比如:/usr/java/jdk1.6.0_25)
(3)hdfs-site.xml
dfs.name.dir /home/hadoop/temp/hadoop dfs.data.dir /home/hadoop/temp/hadoop dfs.replication 1 dfs.support.append true
(4)mapred-site.xml
mapred.job.tracker Master:9001 mapred.acls.enabled false
(5)Masters
Master
(6)Slaves
Slave1 Slave2
3.2、同步安装包
将解压修改后的hadoop-1.0.3文件夹分别拷贝到Master、Slave1、Slave2的相同hadoop安装路径下。
3.3、启动Hadoop集群
进入Master的hadoop-1.0.3目录,执行以下操作:
bin/hadoop namenode -format //格式化namenode,第一次启动服务前执行的操作,以后不需要执行 bin/start-all.sh //启动hadoop jps //用jps命令能看到除jps外有5个进程
至此,hadoop集群配置过程结束。可通过浏览器地址http://10.10.10.213:50070?查看节点启用状态验证配置是否成功。
4、Zookeeper集群安装配置
4.1、修改zookeeper配置文件zoo.cfg
在centos系统下解压zookeeper安装包zookeeper-3.4.3.tar.gz?,进入到conf目录,将zoo_sample.cfg拷贝一份命名为zoo.cfg(Zookeeper?在启动时会找这个文件作为默认配置文件),打开该文件进行修改为以下格式(注意权限问题,如果最后配置有问题请检查过程中权限是否正确)。
dataDir=/home/hadoop/temp/zookeeper/data server.0=10.10.10.213:2888:3888 server.1=10.10.10.214:2888:3888 server.2=10.10.10.215:2888:3888
4.2、新建目录、新建并编辑myid文件
(本次配置myid文件放在/home/hadoop/temp/zookeeper/data目录下)
mkdir /home/hadoop/temp/zookeeper/data //dataDir目录 vi /home/hadoop/temp/zookeeper/data/myid
注意myid文件中的内容为:Master中为0,Slave1中为1,Slave2中为2,分别与zoo.cfg中对应起来。
4.3、同步安装包
将解压修改后的zookeeper-3.4.3文件夹分别拷贝到Master、Slave1、Slave2的相同zookeeper安装路径下。注意:myid文件的内容不是一样的,各服务器中分别是对应zoo.cfg中的设置。
4.4、启动zookeeper
Zookeeper的启动与hadoop不一样,需要每个节点都执行,分别进入3个节点的zookeeper-3.4.3目录,启动zookeeper:
bin/zkServer.sh start注意:此时如果报错先不理会,继续在另两台服务器中执行相同操作。
4.5、检查zookeeper是否配置成功
待3台服务器均启动后,如果过程正确的话zookeeper应该已经自动选好leader,进入每台服务器的zookeeper-3.4.3目录,执行以下操作查看zookeeper启动状态:
bin/zkServer.sh status
如果出现以下代码表示安装成功了。
[java] view plaincopy JMX enabled by default Using config: /home/hadoop/zookeeper-3.4.3/bin/../conf/zoo.cfg Mode: follower //或者有且只有一个leader
5、HBase集群安装配置
5.1、修改hbase配置文件
在centos系统下解压hadoop安装包hadoop-1.0.3.tar.gz,修改conf目录下的3个文件:
(1)hbase-env.sh
export JAVA_HOME=/usr/lib/java/jdk1.6.0_25 //JDK的安装目录 export HBASE_CLASSPATH=/home/hadoop/hadoop-1.0.3/conf //hadoop的安装目录 export HBASE_MANAGES_ZK=true
(2)hbase-site.xml
hbase.rootdir hdfs://Master:9000/hbase hbase.cluster.distributed true hbase.zookeeper.property.clientPort 2181 hbase.zookeeper.quorum Master hbase.zookeeper.property.dataDir /home/hadoop/temp/zookeeper dfs.support.append true
(3)regionservers
Slave1 Slave2
5.2、同步安装包
将解压修改后的hbase-0.94.1-security文件夹分别拷贝到Master、Slave1、Slave2的相同hbase安装路径下。
5.3、启动HBase
进入Master的hbase-0.94.1-security目录,执行以下操作:
bin/start-hbase.sh //之后用jps查看是否所有进程都已启动
至此,hbase服务配置过程结束。可通过浏览器地址http://10.10.10.213:60010?查看hbase是否可用。
也可以执行以下命令,进入hbase?shell进行验证。
6、结语
关于hadoop、zookeeper、hbase的启动与关闭顺序:启动时hadoop和zookeeper随意先后,但是hbase必须最后启动,关闭时hbase必须首先关闭,然后随意先后关闭hadoop、zookeeper。否则,会出现异常。
关于各软件的安装包可以去官网下载,不同版本的安装配置可能会有少许的变动,而且版本搭配如果不一样的话也可能出现问题,有问题就针对性地去查,这样学习才有进步。
作者:jinnchang 发表于2013-5-8 16:29:30 原文链接
阅读:44 评论:0 查看评论
原文地址:分布式集群环境hadoop、hbase、zookeeper搭建(全), 感谢原作者分享。

在分布式系统的架构中,文件管理和存储是非常重要的一部分。然而,传统的文件系统在应对大规模的文件存储和管理时遇到了一些问题。为了解决这些问题,SeaweedFS分布式文件系统被开发出来。在本文中,我们将介绍如何使用PHP来实现开源SeaweedFS分布式文件系统。什么是SeaweedFS?SeaweedFS是一个开源的分布式文件系统,它用于解决大规模文件存储和

使用Python做数据处理的数据科学家或数据从业者,对数据科学包pandas并不陌生,也不乏像云朵君一样的pandas重度使用者,项目开始写的第一行代码,大多是importpandasaspd。pandas做数据处理可以说是yyds!而他的缺点也是非常明显,pandas只能单机处理,它不能随数据量线性伸缩。例如,如果pandas试图读取的数据集大于一台机器的可用内存,则会因内存不足而失败。另外pandas在处理大型数据方面非常慢,虽然有像Dask或Vaex等其他库来优化提升数

随着互联网的快速发展,网站的访问量也在不断增长。为了满足这一需求,我们需要构建高可用性的系统。分布式数据中心就是这样一个系统,它将各个数据中心的负载分散到不同的服务器上,增加系统的稳定性和可扩展性。在PHP开发中,我们也可以通过一些技术实现分布式数据中心。分布式缓存分布式缓存是互联网分布式应用中最常用的技术之一。它将数据缓存在多个节点上,提高数据的访问速度和

一、Raft 概述Raft 算法是分布式系统开发首选的共识算法。比如现在流行 Etcd、Consul。如果掌握了这个算法,就可以较容易地处理绝大部分场景的容错和一致性需求。比如分布式配置系统、分布式 NoSQL 存储等等,轻松突破系统的单机限制。Raft 算法是通过一切以领导者为准的方式,实现一系列值的共识和各节点日志的一致。二、Raft 角色2.1 角色跟随者(Follower):普通群众,默默接收和来自领导者的消息,当领导者心跳信息超时的

什么是分布式计数器?在分布式系统中,多个节点之间需要对共同的状态进行更新和读取,而计数器是其中一种应用最广泛的状态之一。通俗地讲,计数器就是一个变量,每次被访问时其值就会加1或减1,用于跟踪某个系统进展的指标。而分布式计数器则指的是在分布式环境下对计数器进行操作和管理。为什么要使用Redis实现分布式计数器?随着分布式计算的普及,分布式系统中的许多细节问题也

Redis实现分布式配置管理的方法与应用实例随着业务的发展,配置管理对于一个系统而言变得越来越重要。一些通用的应用配置(如数据库连接信息,缓存配置等),以及一些需要动态控制的开关配置,都需要进行统一管理和更新。在传统架构中,通常是通过在每台服务器上通过单独的配置文件进行管理,但这种方式会导致配置文件的管理和同步变得十分复杂。因此,在分布式架构下,采用一个可靠

Redis实现分布式对象存储的方法与应用实例随着互联网的快速发展和数据量的快速增长,传统的单机存储已经无法满足业务的需求,因此分布式存储成为了当前业界的热门话题。Redis是一个高性能的键值对数据库,它不仅支持丰富的数据结构,而且支持分布式存储,因此具有极高的应用价值。本文将介绍Redis实现分布式对象存储的方法,并结合应用实例进行说明。一、Redis实现分

随着互联网技术的发展,对于一个网络应用而言,对数据库的操作非常频繁。特别是对于动态网站,甚至有可能出现每秒数百次的数据库请求,当数据库处理能力不能满足需求时,我们可以考虑使用数据库分布式。而分布式数据库的实现离不开与编程语言的集成。PHP作为一门非常流行的编程语言,具有较好的适用性和灵活性,这篇文章将着重介绍PHP与数据库分布式集成的实践。分布式的概念分布式


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

Dreamweaver Mac版
시각적 웹 개발 도구
