搭建Hadoop环境的详细过程-mysql教程-PHP中文網

首頁

資料庫

mysql教程

搭建Hadoop环境的详细过程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 07, 2016 pm 04:35 PM

hadoop搭建環境詳細過程

即上一篇《初步了解Hadoop》已经过去好多天了，今天继续hadoop学习之旅。大体了解hadoop原理，我们想先搭建hadoop环境，在这个过程中慢慢体会一下hadoop。我在这里说的是hadoop伪分布式模式（Pseudo-Distributed Mode），其实网上已经有很多教程，在这里我

即上一篇《初步了解Hadoop》已经过去好多天了，今天继续hadoop学习之旅。大体了解hadoop原理，我们想先搭建hadoop环境，在这个过程中慢慢体会一下hadoop。

我在这里说的是hadoop伪分布式模式（Pseudo-Distributed Mode），其实网上已经有很多教程，在这里我详详细细的描述整个搭建过程，也算是自己重新回忆一下。

准备阶段（下载地址我这里就不给出了）：

Win7旗舰版 Vmware-9.0.2

ubuntu-12.04 hadoop-0.20.2 jdk-8u5-linux-i586-demos

搭建流程：

1、装机阶段：

一、安装Ubuntu操作系统

二、在Ubuntu下创建hadoop用户组和用户

三、在Ubuntu下安装JDK

四、修改机器名

五、安装ssh服务

六、建立ssh无密码登录本机

七、安装hadoop

八、在单机上运行hadoop

一、安装Ubuntu操作系统

略……

二、在Ubuntu下创建hadoop用户组和用户

（1）安装Ubuntu时已经建立了一个用户，但是为了以后Hadoop操作，专门渐建立一个hadoop用户组和hadoop用户。

（2）给hadoop用户添加权限，打开/etc/sudoers文件。

sudo gedit /etc/sudoers

打开/etc/sudoers文件了，给hadoop用户赋予root用户同样的权限。在

root    ALL=(ALL:ALL)    ALL

下添加：

hadoop   ALL=(ALL:ALL)  ALL

三、在Ubuntu下安装JDK

1、创建JDK安装目录

（1）由于我使用的是VMware安装的Ubuntu系统，设置本地thisceshi文件夹共享到Ubuntu系统，指定的安装目录是：/usr/local/java。可是系统安装后在/usr/local下并没有java目录，这需要我们去创建一个java文件夹，
进入/usr/local文件夹

cd /usr/local

创建java文件夹，

sudo mkdir /usr/local/java

（2）解压JDK到目标目录
进入共享文件夹thisceshi，

cd /mnt/hgfs/thisceshi

然后进入到共享文件夹中，继续我们解压JDK到之前建好的java文件夹中，

sudo cp jdk-8u5-linux-i586-demos.tar.gz /usr/local/java

2、安装jdk

（1）切换到root用户下,

hadoop@s15:/mnt/hgfs/thisceshi$ su
密码：

（2）解压jdk-8u5-linux-i586-demos.tar.gz

sudo tar -zxf jdk-8u5-linux-i586-demos.tar.gz

此时java目录中多了一个jdk1.6.0_30文件夹。

3、配置环境变量

（1）打开/etc/profile文件，

sudo gedit /etc/profile

（2）添加变量，

#set java environment  
export JAVA_HOME=/usr/local/java/jdk1.6.0_30
export JRE_HOME=/usr/local/java/jdk1.6.0_30/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH   
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$JAVA_HOME:$PATH

一般更改/etc/profile文件后，需要重启机器才能生效，在这里我们可以使用如下指令可使配置文件立即生效，

source /etc/profile

（3）查看java环境变量是否配置成功，

java -version

显示如下：

java version "1.6.0_30"
Java(TM) SE Runtime Environment (build 1.6.0_30-b12)
Java HotSpot(TM) Client VM (build 20.5-b03, mixed mode, sharing)

但是在root下一切正常，在hadoop用户下就出现了问题，

程序“java”已包含在下列软件包中：
 * gcj-4.4-jre-headless
 * openjdk-6-jre-headless
 * cacao
 * gij-4.3
 * jamvm

在终端中我们分别运行下面指令，

sudo update-alternatives --install /usr/bin/java java /usr/local/java/jdk1.6.0_30/bin/java 300
sudo update-alternatives --install /usr/bin/javac javac /usr/local/java/jdk1.6.0_30/bin/javac 300

问题解决。

四、修改机器名

当ubuntu安装成功时，我们的机器名都默认为：ubuntu ，但为了以后集群中能够容易分辨各台服务器，需要给每台机器取个不同的名字。机器名由 /etc/hostname文件决定。这是我开始是根据网上教程也给修改了，其实伪分布式搭建的时候，可以省了，不然还造成一些不必要的麻烦。

1、打开/etc/hostname文件，运行指令，

sudo gedit /etc/hostname

2、然后hostname中添加s15五、安装ssh服务保存退出，即s15是当前用户别名。在这里需要重启系统后才会生效。

hadoop@s15:~$

五、安装ssh服务

1、安装openssh-server

sudo apt-get install openssh-server

2、等待安装，即可。

六、建立ssh无密码登录本机

在这里，我自己还是模模糊糊的。

ssh生成密钥有rsa和dsa两种生成方式，默认情况下采用rsa方式。

1、创建ssh-key，，这里我们采用rsa方式，

ssh-keygen -t rsa -P ''

网上教程中后面是双引号，我在执行出现错误，换成单引号，则可以执行。

进入ssh，查看里面文件

hadoop@s15:~$ cd .ssh
hadoop@s15:~/.ssh$ ls
id_rsa  id_rsa.pub

2、进入~/.ssh/目录下，将idrsa.pub追加到authorizedkeys授权文件中，开始是没有authorized_keys文件的，

cat id_rsa.pub >> authorized_keys

3、登录localhost，

hadoop@s15:~/.ssh$ ssh localhost
Welcome to Ubuntu 12.04 LTS (GNU/Linux 3.2.0-61-generic-pae i686)
 * Documentation:  https://help.ubuntu.com/
663 packages can be updated.
266 updates are security updates.
Last login: Sat May 10 13:08:03 2014 from localhost

4、执行退出命令，

hadoop@s15:~$ exit
登出
Connection to localhost closed.

七、安装hadoop

1、从共享文件夹thisceshi中将hadoop-0.20.2.tar.gz复制到安装目录 /usr/local/下
2、解压hadoop-0.20.203.tar.gz，
3、将解压出的文件夹改名为hadoop，
4、将该hadoop文件夹的属主用户设为hadoop，

sudo chown -R hadoop:hadoop hadoop

5、打开hadoop/conf/hadoop-env.sh文件，
6、配置conf/hadoop-env.sh（找到#export JAVA_HOME=…,去掉#，然后加上本机jdk的路径）

# The java implementation to use.  Required.
 export JAVA_HOME=/usr/local/java/jdk1.6.0_30
 export HADOOP_HOME=/usr/local/hadoop
 export PATH=$PATH:/usr/local/hadoop/bin

让环境立即生效，

source /usr/local/hadoop/conf/hadoop-env.sh

7、打开conf/core-site.xml文件，编辑如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="http://www.cndwzone.com/archives/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
  fs.default.name
  hdfs://localhost:9000

8、打开conf/mapred-site.xml文件，编辑如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="http://www.cndwzone.com/archives/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
  mapred.job.tracker
  localhost:9001

9、打开conf/hdfs-site.xml文件，编辑如下：

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="http://www.cndwzone.com/archives/configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
dfs.name.dir  
/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2  
dfs.data.dir  
/usr/local/hadoop/data1,/usr/local/hadoop/data2  
dfs.replication  
2

10、打开conf/masters文件，添加作为secondarynamenode的主机名，因为是伪分布式，只有一个节点，这里只需填写localhost就可以。

11、打开conf/slaves文件，添加作为slave的主机名，一行一个。因为是伪分布式，只有一个节点，这里也只需填写localhost就可以。

八、在单机上运行hadoop

1、进入hadoop目录下，格式化hdfs文件系统，初次运行hadoop时一定要有该操作，当你看到下图时，就说明你的hdfs文件系统格式化成功了。

3、进入bin目录启动start-all.sh，

4、检测hadoop是否启动成功，

到此，hadoop伪分布式环境搭建完成。

在搭建过程中可能会遇到各种问题，到时大家不用着急，可以谷歌，百度一下。解决问题的过程就是加深学习的过程。我当时都忘了花了多久才将环境搭建好，最初的时候，连最基本的指令也不懂，也不知道怎么运行。我在这里说出来就是想说，开始的一无所知不要害怕，慢慢来就好，在那么一刻你就会有所知，有所明白。之后的文章中会介绍在hadoop环境下运行WordCount，hadoop中的HelloWorld。

即上一篇《初步了解Hadoop》已经过去好多天了，今天继续hadoop学习之旅。大体了解hadoop原理，我们 […] 搭建Hadoop环境的详细过程

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

說明InnoDB重做日誌和撤消日誌的作用。Apr 15, 2025 am 12:16 AM

InnoDB使用redologs和undologs確保數據一致性和可靠性。 1.redologs記錄數據頁修改，確保崩潰恢復和事務持久性。 2.undologs記錄數據原始值，支持事務回滾和MVCC。

在解釋輸出（類型，鍵，行，額外）中要查找的關鍵指標是什麼？Apr 15, 2025 am 12:15 AM

EXPLAIN命令的關鍵指標包括type、key、rows和Extra。 1）type反映查詢的訪問類型，值越高效率越高，如const優於ALL。 2）key顯示使用的索引，NULL表示無索引。 3）rows預估掃描行數，影響查詢性能。 4）Extra提供額外信息，如Usingfilesort提示需要優化。

在解釋中使用臨時狀態以及如何避免它是什麼？Apr 15, 2025 am 12:14 AM

Usingtemporary在MySQL查詢中表示需要創建臨時表，常見於使用DISTINCT、GROUPBY或非索引列的ORDERBY。可以通過優化索引和重寫查詢避免其出現，提升查詢性能。具體來說，Usingtemporary出現在EXPLAIN輸出中時，意味著MySQL需要創建臨時表來處理查詢。這通常發生在以下情況：1)使用DISTINCT或GROUPBY時進行去重或分組；2)ORDERBY包含非索引列時進行排序；3)使用複雜的子查詢或聯接操作。優化方法包括：1)為ORDERBY和GROUPB

描述不同的SQL交易隔離級別（讀取未讀取，讀取，可重複的讀取，可序列化）及其在MySQL/InnoDB中的含義。Apr 15, 2025 am 12:11 AM

MySQL/InnoDB支持四種事務隔離級別：ReadUncommitted、ReadCommitted、RepeatableRead和Serializable。 1.ReadUncommitted允許讀取未提交數據，可能導致臟讀。 2.ReadCommitted避免臟讀，但可能發生不可重複讀。 3.RepeatableRead是默認級別，避免臟讀和不可重複讀，但可能發生幻讀。 4.Serializable避免所有並發問題，但降低並發性。選擇合適的隔離級別需平衡數據一致性和性能需求。

MySQL與其他數據庫：比較選項Apr 15, 2025 am 12:08 AM

MySQL適合Web應用和內容管理系統，因其開源、高性能和易用性而受歡迎。 1)與PostgreSQL相比，MySQL在簡單查詢和高並發讀操作上表現更好。 2)相較Oracle，MySQL因開源和低成本更受中小企業青睞。 3)對比MicrosoftSQLServer，MySQL更適合跨平台應用。 4)與MongoDB不同，MySQL更適用於結構化數據和事務處理。

MySQL索引基數如何影響查詢性能？Apr 14, 2025 am 12:18 AM

MySQL索引基数对查询性能有显著影响：1.高基数索引能更有效地缩小数据范围，提高查询效率；2.低基数索引可能导致全表扫描，降低查询性能；3.在联合索引中，应将高基数列放在前面以优化查询。

MySQL：新用戶的資源和教程Apr 14, 2025 am 12:16 AM

MySQL學習路徑包括基礎知識、核心概念、使用示例和優化技巧。 1)了解表、行、列、SQL查詢等基礎概念。 2)學習MySQL的定義、工作原理和優勢。 3)掌握基本CRUD操作和高級用法，如索引和存儲過程。 4)熟悉常見錯誤調試和性能優化建議，如合理使用索引和優化查詢。通過這些步驟，你將全面掌握MySQL的使用和優化。