BigData大數據運維-linux運維-PHP中文網

首頁

運維

linux運維

BigData大數據運維

重铸

Jul 23, 2020 pm 05:24 PM

大資料維運

#一.HDFS分散式檔案系統運作

1.在 #HDFS 檔案系統的根目錄下建立遞歸目錄「1daoyun/file」，將附件中的BigDataSkills.txt ##文件，上傳到1daoyun/file 目錄中，使用相關指令檢視檔案系統中1daoyun/file 目錄的文件列表資訊。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt /1daoyun/file

#hadoop fs -ls /1daoyun/file

#2.在 HDFS 檔案系統的根目錄下建立遞歸目錄「1daoyun/file」，將附件中的BigDataSkills.txt 文件，上傳到1daoyun/file 目錄中，並使用HDFS #檔案系統檢查工具檢查檔案是否受損。

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -put BigDataSkills.txt/1daoyun/file

#hadoop fsck /1daoyun/file/BigDataSkills.txt

#3.在 # HDFS 檔案系統的根目錄下建立遞歸目錄「1daoyun/file」，將附件中的 BigDataSkills.txt 文件，上傳到1daoyun/file 目錄中，上傳過程指定BigDataSkills.txt 檔案在HDFS 檔案系統中的複製因子為2#，並使用

###fsck ######工######具檢查儲存區塊的副本數。 ######

hadoop fs -mkdir -p /1daoyun/file

hadoop fs -D dfs.replication=2 -put BigDataSkills.txt /1daoyun/file

hadoop fsck /1daoyun/file/BigDataSkills.txt

4.HDFS 檔案系統的根目錄下存在一個/apps 的檔案目錄，要求開啟該目錄的可建立快照功能，並為該目錄檔案建立快照，快照名稱為apps_1daoyun#，使#用相關指令查看該快照檔案的清單資訊。

hadoop dfsadmin -allowSnapshot /apps

hadoop fs -createSnapshot /apps apps_1daoyun

hadoop fs -ls /apps/.snapshot

5.當 Hadoop #叢集啟動的時候，會先進入到安全模式的狀態，該模式預設30 秒後退出。當系統處於安全模式時，只能對 HDFS 檔案系統進行讀取，無法進行寫入修改刪除等的操作。現假設需要對 Hadoop 叢集進行維護，需要使叢集進入安全模式的狀態，並檢查其狀態。

hdfs dfsadmin -safemode enter

#hdfs dfsadmin -safemode get

6.為了防止操作人員誤刪文件，HDFS 檔案系統提供了回收站的功能，但經過多的垃圾檔案會佔用大量的儲存空間。要求在先電大資料平台的WEB 介面將HDFS 檔案系統回收站中的檔案徹底刪除的時間間隔為7 天。進階core-sitefs.trash.interval：10080

BigData大數據運維 ## ##

7.為了防止操作人員誤刪文件，#HDFS 檔案系統提供了回收站的功能，但過多的垃圾檔案會佔用大量的儲存空間。要求在Linux Shell 中使用“vi”命令修改為對應的設定檔以及參數訊息，關閉回收站功能。完成後，重啟對應的服#。進階##core-sitefs.trash.interval：0

vi /etc/hadoop/2.4.3.0 -227/0/core-site.xml

# #. trash.interval

sbin/stop-dfs.sh

sbin/start- dfs.sh8.Hadoop 叢集中的主機在某些情況下會出現宕機或系統損壞的問題，一旦遇到這些問題，HDFS 檔案系統中的資料檔案難免會產生損壞或遺失，為了保證HDFS 檔案系統的可靠性，現需要在先電大資料平台的WEB 介面

將叢集的冗餘複製因子修改為

5。
General
Block replication

############5#### ##

9.Hadoop 叢集中的主機在某些情況下會出現宕機或係統損壞的問題，一旦遇到這些問題，HDFS 檔案系統中的資料檔案難免會產生損壞或遺失，為了保證##HDFS 檔案系統的可靠性，需要將叢集的冗餘複製因子修改為5，在Linux Shell 中使用「vi」指令修改對應的設定檔以及參數訊息，完成後，重啟對應的服務。

BigData大數據運維或

#vi/etc/hadoop/2.4.3.0-227/0/hdfs- site.xml

dfs.replication

#/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf stop {namenode/datenode}

/usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /usr/hdp/current/hadoop-client/conf start {namenode/datenode}

10.

使用指令檢視hdfs 檔案系統中/tmp 目錄下的目錄個數，檔案數量和檔案總大小。

hadoop fs -count /tmp

#2.

MapREDUCE 案例題#

1.在叢集節點中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目錄下，存在一個案例JAR 套件#hadoop-mapreduce-examples.jar。運行JAR 包中的PI #程式來進行計算圓周率π的近似值，要求執行5 次Map 任務，每個##Map 任務的投擲次數為5。

cd /usr/hdp/2.4.3.0-227/hadoop-mapreduce/

hadoop jar hadoop- mapreduce-examples-2.7.1.2.4.3.0-227.jar pi 5 5

BigData大數據運維

#2. 在叢集節點中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目錄下，存在一個案例JAR 套件hadoop-mapreduce-examples.jar。執行JAR 套件中的wordcount #程式來對/1daoyun/file/ BigDataSkills.txt 檔案進行單字計數，將運算結果輸出到/1daoyun/output 目錄中，使用相關指令查詢單字計數結果。

hadoop jar/usr/hdp/2.4.3.0-227/hadoop-mapreduce/hadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar wordcount /1daoyun/ file/BigDataSkills.txt /1daoyun/output#

3.在叢集節點中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目錄下，存在一個案例JAR 套件#hadoop-mapreduce-examples.jar。執行 JAR 包中的 sudoku 程式來計算#下表中數獨運算題的結果。。

BigData大數據運維

cat puzzle1.dta

##hadoop jarhadoop-mapreduce-examples- 2.7.1.2.4.3.0-227.jar sudoku /root/puzzle1.dta

4.在叢集節點中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目錄下，存在一個案例JAR 包hadoop-mapreduce-examples.jar。運行JAR 包中的grep 程式來統計文字件系統中/ 1daoyun/file/BigDataSkills.txt 檔案中「Hadoop」出現的次數，統計完成後，查詢統計結果資訊。

hadoop jarhadoop-mapreduce-examples-2.7.1.2.4.3.0-227.jar grep /1daoyun/file/BigDataSkills.txt /output hadoop

################################################################################################################################################################################################' #### ######

以上是BigData大數據運維的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

了解Linux的維護模式：必需品Apr 14, 2025 am 12:04 AM

Linux維護模式通過在啟動時添加init=/bin/bash或single參數進入。 1.進入維護模式：編輯GRUB菜單，添加啟動參數。 2.重新掛載文件系統為讀寫模式：mount-oremount,rw/。 3.修復文件系統：使用fsck命令，如fsck/dev/sda1。4.備份數據並謹慎操作，避免數據丟失。

Debian如何提升Hadoop數據處理速度Apr 13, 2025 am 11:54 AM

本文探討如何在Debian系統上提升Hadoop數據處理效率。優化策略涵蓋硬件升級、操作系統參數調整、Hadoop配置修改以及高效算法和工具的運用。一、硬件資源強化確保所有節點硬件配置一致，尤其關注CPU、內存和網絡設備性能。選擇高性能硬件組件對於提升整體處理速度至關重要。二、操作系統調優文件描述符和網絡連接數:修改/etc/security/limits.conf文件，增加系統允許同時打開的文件描述符和網絡連接數上限。 JVM參數調整:在hadoop-env.sh文件中調整

Debian syslog如何學習Apr 13, 2025 am 11:51 AM

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務，它幫助管理員監控和分析系統活動，從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括：集中收集和管理日誌消息；支持多種日誌輸出格式和目標位置（例如文件或網絡）；提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝：sudoaptupdatesud

Debian中Hadoop版本怎麼選Apr 13, 2025 am 11:48 AM

選擇適合Debian系統的Hadoop版本，需要綜合考慮以下幾個關鍵因素：一、穩定性與長期支持：對於追求穩定性和安全性的用戶，建議選擇Debian穩定版，例如Debian11(Bullseye)。該版本經過充分測試，擁有長達五年的支持週期，能夠確保系統穩定運行。二、軟件包更新速度：如果您需要使用最新的Hadoop功能和特性，則可以考慮Debian的不穩定版(Sid)。但需注意，不穩定版可能存在兼容性問題和穩定性風險。三、社區支持與資源：Debian擁有龐大的社區支持，可以提供豐富的文檔和

Debian上TigerVNC共享文件方法Apr 13, 2025 am 11:45 AM

本文介紹如何在Debian系統上使用TigerVNC共享文件。你需要先安裝TigerVNC服務器，然後進行配置。一、安裝TigerVNC服務器打開終端。更新軟件包列表：sudoaptupdate安裝TigerVNC服務器：sudoaptinstalltigervnc-standalone-servertigervnc-common二、配置TigerVNC服務器設置VNC服務器密碼：vncpasswd啟動VNC服務器：vncserver:1-localhostno

Debian郵件服務器防火牆配置技巧Apr 13, 2025 am 11:42 AM

配置Debian郵件服務器的防火牆是確保服務器安全性的重要步驟。以下是幾種常用的防火牆配置方法，包括iptables和firewalld的使用。使用iptables配置防火牆安裝iptables（如果尚未安裝）：sudoapt-getupdatesudoapt-getinstalliptables查看當前iptables規則：sudoiptables-L配置

Debian郵件服務器SSL證書安裝方法Apr 13, 2025 am 11:39 AM

在Debian郵件服務器上安裝SSL證書的步驟如下：1.安裝OpenSSL工具包首先，確保你的系統上已經安裝了OpenSSL工具包。如果沒有安裝，可以使用以下命令進行安裝：sudoapt-getupdatesudoapt-getinstallopenssl2.生成私鑰和證書請求接下來，使用OpenSSL生成一個2048位的RSA私鑰和一個證書請求（CSR）：openss

Debian郵件服務器虛擬主機配置方法Apr 13, 2025 am 11:36 AM

在Debian系統上配置郵件服務器的虛擬主機通常涉及安裝和配置郵件服務器軟件（如Postfix、Exim等），而不是ApacheHTTPServer，因為Apache主要用於Web服務器功能。以下是配置郵件服務器虛擬主機的基本步驟：安裝Postfix郵件服務器更新系統軟件包：sudoaptupdatesudoaptupgrade安裝Postfix：sudoapt

See all articles