BigData大数据运维

重铸
重铸asal
2020-07-23 17:24:20228semak imbas

      大数据运维

一.HDFS分布式文件系统运维

1. HDFS 文件系统的根目录下创建递归目录“1daoyun/file”,将附件中的BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,使用相关命令查看文件系统中 1daoyun/file 目录的文件列表信息。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt /1daoyun/file

hadoop fs -ls /1daoyun/file

2. HDFS 文件系统的根目录下创建递归目录“1daoyun/file”,将附件中的BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,并使用 HDFS 文件系统检查工具检查文件是否受损。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt/1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

3. HDFS 文件系统的根目录下创建递归目录“1daoyun/file”,将附件中的BigDataSkills.txt 文件,上传到 1daoyun/file 目录中,上传过程指定BigDataSkills.txt 文件在 HDFS 文件系统中的复制因子为 2,并使用 fsck 具检查存储块的副本数。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -D dfs.replication=2 -put BigDataSkills.txt /1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

4.HDFS 文件系统的根目录下存在一个/apps 的文件目录,要求开启该目录的可创建快照功能,并为该目录文件创建快照,快照名称为 apps_1daoyun,使用相关命令查看该快照文件的列表信息。

hadoop dfsadmin -allowSnapshot /apps

hadoop fs -createSnapshot /apps apps_1daoyun

hadoop fs -ls /apps/.snapshot

5. Hadoop 集群启动的时候,会首先进入到安全模式的状态,该模式默认30 秒后退出。当系统处于安全模式时,只能对 HDFS 文件系统进行读取,无法进行写入修改删除等的操作。现假设需要对 Hadoop 集群进行维护,需要使集群进入安全模式的状态,并检查其状态。

hdfs dfsadmin -safemode enter

hdfs dfsadmin -safemode get

6.为了防止操作人员误删文件,HDFS 文件系统提供了回收站的功能,但过多的垃圾文件会占用大量的存储空间。要求在先电大数据平台的 WEB 界面HDFS 文件系统回收站中的文件彻底删除的时间间隔为 7 天。高级core-sitefs.trash.interval:10080

image.png 

7.为了防止操作人员误删文件,HDFS 文件系统提供了回收站的功能,但过多的垃圾文件会占用大量的存储空间。要求在 Linux Shell 中使用“vi”命令修改相应的配置文件以及参数信息,关闭回收站功能。完成后,重启相应的服务。高级core-sitefs.trash.interval:0

vi /etc/hadoop/2.4.3.0-227/0/core-site.xml

 

      fs.trash.interval

      0

    

sbin/stop-dfs.sh

sbin/start-dfs.sh

8.Hadoop 集群中的主机在某些情况下会出现宕机或者系统损坏的问题,一旦遇到这些问题,HDFS 文件系统中的数据文件难免会产生损坏或者丢失,为了保证 HDFS 文件系统的可靠性,现需要在先电大数据平台的 WEB 界面将集群的冗余复制因子修改为 5

General
Block replication
5

9.Hadoop 集群中的主机在某些情况下会出现宕机或者系统损坏的问题,一旦遇到这些问题,HDFS 文件系统中的数据文件难免会产生损坏或者丢失,为了保证 HDFS 文件系统的可靠性,需要将集群的冗余复制因子修改为 5Linux Shell 中使用“vi”命令修改相应的配置文件以及参数信息,完成后,重启相应的服务。

image.png 或者

vi/etc/hadoop/2.4.3.0-227/0/hdfs-site.xml

 

      dfs.replication

      5

    

su - hdfs

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf stop {namenode/datenode}

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf start {namenode/datenode}

10.使用命令查看 hdfs 文件系统中/tmp 目录下的目录个数,文件个数和文件总大小。

hadoop fs -count /tmp

2.MapREDUCE 案例题

1.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下,存在一个案例JAR hadoop-mapreduce-examples.jar。运行 JAR 包中的 PI 程序来进行计算圆周率π的近似值,要求运行 5 Map 任务,每个 Map 任务的投掷次数为 5

cd /usr/hdp/2.4.3.0-227/hadoop-mapreduce/

hadoop jar hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar pi 5 5

image.png 

2.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下,存在一个案例JAR hadoop-mapreduce-examples.jar。运行 JAR 包中的 wordcount 程序来/1daoyun/file/BigDataSkills.txt 文件进行单词计数,将运算结果输出到/1daoyun/output 目录中,使用相关命令查询单词计数结果。

hadoop jar/usr/hdp/2.4.3.0-227/hadoop-mapreduce/hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar wordcount /1daoyun/file/BigDataSkills.txt /1daoyun/output

3.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下,存在一个案例JAR hadoop-mapreduce-examples.jar。运行 JAR 包中的 sudoku 程序来计算下表中数独运算题的结果。。

image.png 

cat puzzle1.dta

hadoop jarhadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar sudoku /root/puzzle1.dta

4.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下,存在一个案例JAR hadoop-mapreduce-examples.jar。运行 JAR 包中的 grep 程序来统计文件系统中/1daoyun/file/BigDataSkills.txt 文件中“Hadoop”出现的次数,统计完成后,查询统计结果信息。

hadoop jarhadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar grep /1daoyun/file/BigDataSkills.txt /output hadoop

 

Atas ialah kandungan terperinci BigData大数据运维. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn