BigData大数据运维-linux运维-PHP中文网

首页

运维

linux运维

BigData大数据运维

重铸

Jul 23, 2020 pm 05:24 PM

大数据运维

一.HDFS分布式文件系统运维

1.在 HDFS 文件系统的根目录下创建递归目录“1daoyun/file”，将附件中的BigDataSkills.txt 文件，上传到 1daoyun/file 目录中，使用相关命令查看文件系统中 1daoyun/file 目录的文件列表信息。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt /1daoyun/file

hadoop fs -ls /1daoyun/file

2.在 HDFS 文件系统的根目录下创建递归目录“1daoyun/file”，将附件中的BigDataSkills.txt 文件，上传到 1daoyun/file 目录中，并使用 HDFS 文件系统检查工具检查文件是否受损。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt/1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

3.在 HDFS 文件系统的根目录下创建递归目录“1daoyun/file”，将附件中的BigDataSkills.txt 文件，上传到 1daoyun/file 目录中，上传过程指定BigDataSkills.txt 文件在 HDFS 文件系统中的复制因子为 2，并使用 fsck 工具检查存储块的副本数。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -D dfs.replication=2 -put BigDataSkills.txt /1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

4.HDFS 文件系统的根目录下存在一个/apps 的文件目录，要求开启该目录的可创建快照功能，并为该目录文件创建快照，快照名称为 apps_1daoyun，使用相关命令查看该快照文件的列表信息。

hadoop dfsadmin -allowSnapshot /apps

hadoop fs -createSnapshot /apps apps_1daoyun

hadoop fs -ls /apps/.snapshot

5.当 Hadoop 集群启动的时候，会首先进入到安全模式的状态，该模式默认30 秒后退出。当系统处于安全模式时，只能对 HDFS 文件系统进行读取，无法进行写入修改删除等的操作。现假设需要对 Hadoop 集群进行维护，需要使集群进入安全模式的状态，并检查其状态。

hdfs dfsadmin -safemode enter

hdfs dfsadmin -safemode get

6.为了防止操作人员误删文件，HDFS 文件系统提供了回收站的功能，但过多的垃圾文件会占用大量的存储空间。要求在先电大数据平台的 WEB 界面将HDFS 文件系统回收站中的文件彻底删除的时间间隔为 7 天。高级core-sitefs.trash.interval：10080

7.为了防止操作人员误删文件，HDFS 文件系统提供了回收站的功能，但过多的垃圾文件会占用大量的存储空间。要求在 Linux Shell 中使用“vi”命令修改相应的配置文件以及参数信息，关闭回收站功能。完成后，重启相应的服务。高级core-sitefs.trash.interval：0

vi /etc/hadoop/2.4.3.0-227/0/core-site.xml

fs.trash.interval

sbin/stop-dfs.sh

sbin/start-dfs.sh

8.Hadoop 集群中的主机在某些情况下会出现宕机或者系统损坏的问题，一旦遇到这些问题，HDFS 文件系统中的数据文件难免会产生损坏或者丢失，为了保证 HDFS 文件系统的可靠性，现需要在先电大数据平台的 WEB 界面将集群的冗余复制因子修改为 5。

General
Block replication
5

9.Hadoop 集群中的主机在某些情况下会出现宕机或者系统损坏的问题，一旦遇到这些问题，HDFS 文件系统中的数据文件难免会产生损坏或者丢失，为了保证 HDFS 文件系统的可靠性，需要将集群的冗余复制因子修改为 5，在 Linux Shell 中使用“vi”命令修改相应的配置文件以及参数信息，完成后，重启相应的服务。

或者

vi/etc/hadoop/2.4.3.0-227/0/hdfs-site.xml

dfs.replication

su - hdfs

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf stop {namenode/datenode}

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf start {namenode/datenode}

10.使用命令查看 hdfs 文件系统中/tmp 目录下的目录个数，文件个数和文件总大小。

hadoop fs -count /tmp

2.MapREDUCE 案例题

1.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR 包 hadoop-mapreduce-examples.jar。运行 JAR 包中的 PI 程序来进行计算圆周率π的近似值，要求运行 5 次 Map 任务，每个 Map 任务的投掷次数为 5。

cd /usr/hdp/2.4.3.0-227/hadoop-mapreduce/

hadoop jar hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar pi 5 5

2.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR 包 hadoop-mapreduce-examples.jar。运行 JAR 包中的 wordcount 程序来对/1daoyun/file/BigDataSkills.txt 文件进行单词计数，将运算结果输出到/1daoyun/output 目录中，使用相关命令查询单词计数结果。

hadoop jar/usr/hdp/2.4.3.0-227/hadoop-mapreduce/hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar wordcount /1daoyun/file/BigDataSkills.txt /1daoyun/output

3.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR 包 hadoop-mapreduce-examples.jar。运行 JAR 包中的 sudoku 程序来计算下表中数独运算题的结果。。

cat puzzle1.dta

hadoop jarhadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar sudoku /root/puzzle1.dta

4.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下，存在一个案例JAR 包 hadoop-mapreduce-examples.jar。运行 JAR 包中的 grep 程序来统计文件系统中/1daoyun/file/BigDataSkills.txt 文件中“Hadoop”出现的次数，统计完成后，查询统计结果信息。

hadoop jarhadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar grep /1daoyun/file/BigDataSkills.txt /output hadoop

以上是BigData大数据运维的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

Debian如何提升Hadoop数据处理速度Apr 13, 2025 am 11:54 AM

本文探讨如何在Debian系统上提升Hadoop数据处理效率。优化策略涵盖硬件升级、操作系统参数调整、Hadoop配置修改以及高效算法和工具的运用。一、硬件资源强化确保所有节点硬件配置一致，尤其关注CPU、内存和网络设备性能。选择高性能硬件组件对于提升整体处理速度至关重要。二、操作系统调优文件描述符和网络连接数:修改/etc/security/limits.conf文件，增加系统允许同时打开的文件描述符和网络连接数上限。JVM参数调整:在hadoop-env.sh文件中调整

Debian syslog如何学习Apr 13, 2025 am 11:51 AM

本指南将指导您学习如何在Debian系统中使用Syslog。Syslog是Linux系统中用于记录系统和应用程序日志消息的关键服务，它帮助管理员监控和分析系统活动，从而快速识别并解决问题。一、Syslog基础知识Syslog的核心功能包括：集中收集和管理日志消息；支持多种日志输出格式和目标位置（例如文件或网络）；提供实时日志查看和过滤功能。二、安装和配置Syslog(使用Rsyslog)Debian系统默认使用Rsyslog。您可以通过以下命令安装：sudoaptupdatesud

Debian中Hadoop版本怎么选Apr 13, 2025 am 11:48 AM

选择适合Debian系统的Hadoop版本，需要综合考虑以下几个关键因素：一、稳定性与长期支持：对于追求稳定性和安全性的用户，建议选择Debian稳定版，例如Debian11(Bullseye)。该版本经过充分测试，拥有长达五年的支持周期，能够确保系统稳定运行。二、软件包更新速度：如果您需要使用最新的Hadoop功能和特性，则可以考虑Debian的不稳定版(Sid)。但需注意，不稳定版可能存在兼容性问题和稳定性风险。三、社区支持与资源：Debian拥有庞大的社区支持，可以提供丰富的文档和

Debian上TigerVNC共享文件方法Apr 13, 2025 am 11:45 AM

本文介绍如何在Debian系统上使用TigerVNC共享文件。你需要先安装TigerVNC服务器，然后进行配置。一、安装TigerVNC服务器打开终端。更新软件包列表：sudoaptupdate安装TigerVNC服务器：sudoaptinstalltigervnc-standalone-servertigervnc-common二、配置TigerVNC服务器设置VNC服务器密码：vncpasswd启动VNC服务器：vncserver:1-localhostno

Debian邮件服务器防火墙配置技巧Apr 13, 2025 am 11:42 AM

配置Debian邮件服务器的防火墙是确保服务器安全性的重要步骤。以下是几种常用的防火墙配置方法，包括iptables和firewalld的使用。使用iptables配置防火墙安装iptables（如果尚未安装）：sudoapt-getupdatesudoapt-getinstalliptables查看当前iptables规则：sudoiptables-L配置

Debian邮件服务器SSL证书安装方法Apr 13, 2025 am 11:39 AM

在Debian邮件服务器上安装SSL证书的步骤如下：1.安装OpenSSL工具包首先，确保你的系统上已经安装了OpenSSL工具包。如果没有安装，可以使用以下命令进行安装：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私钥和证书请求接下来，使用OpenSSL生成一个2048位的RSA私钥和一个证书请求（CSR）：openss

Debian邮件服务器虚拟主机配置方法Apr 13, 2025 am 11:36 AM

在Debian系统上配置邮件服务器的虚拟主机通常涉及安装和配置邮件服务器软件（如Postfix、Exim等），而不是ApacheHTTPServer，因为Apache主要用于Web服务器功能。以下是配置邮件服务器虚拟主机的基本步骤：安装Postfix邮件服务器更新系统软件包：sudoaptupdatesudoaptupgrade安装Postfix：sudoapt

Debian邮件服务器DNS设置指南Apr 13, 2025 am 11:33 AM

要配置Debian邮件服务器的DNS设置，您可以按照以下步骤进行操作：打开网络配置文件：使用文本编辑器（例如vi或nano）打开网络配置文件/etc/network/interfaces。sudonano/etc/network/interfaces查找网络接口配置：在配置文件中找到要修改的网络接口。通常情况下，以太网接口的配置位于ifaceeth0区块中。

See all articles