HADOOP三大核心組件分別是HDFS、MapReduce和YARN。詳細介紹:1、HDFS:即分散式檔案系統,用於儲存Hadoop叢集中的大量資料。具有高容錯性,可跨多個數據節點儲存數據,並提供高吞吐量的數據存取;2、MapReduce:用於大規模數據集的平行處理。它將大數據任務分解為多個小任務,並在多個節點上並行處理,最後將結果匯總;3、YARN:負責叢集資源的分配和管理。
1、HDFS:HADOOP分散式檔案系統
HDFS(Hadoop Distributed File System)是Hadoop 專案的核心子項目,主要負責叢集資料的儲存與讀取取,HDFS 是一個主/從(Master/Slave) 體系結構的分散式檔案系統。 HDFS 支援傳統的層次型檔案組織結構,使用者或應用程式可以建立目錄,然後將檔案保存在這些目錄中。檔案系統名字空間的層次結構和大多數現有的檔案系統類似,可以透過檔案路徑對檔案執行建立、讀取、更新和刪除操作。但是由於分散式儲存的性質,它又和傳統的檔案系統有明顯的區別。
HDFS優點:
2、MapReduce:大規模資料處理
MapReduce 是Hadoop 核心計算框架,適用於大規模資料集(大於1TB)平行運算的編程模型,包括Map(映射)和Reduce(規約) 兩部分。
當啟動一個 MapReduce 任務時,Map 端會讀取 HDFS 上的數據,將資料對應成所需的鍵值對類型並傳到 Reduce 端。 Reduce 端接收 Map 端傳過來的鍵值對類型的數據,根據不同鍵進行分組,對每一組鍵相同的數據進行處理,得到新的鍵值對並輸出到 HDFS,這就是 MapReduce 的核心思想。
一個完整的 MapReduce 流程包含資料的輸入與分片、Map 階段資料處理、Reduce 階段資料處理、資料輸出等階段:
3、Yarn:資源管理器
Hadoop 的MapReduce 架構稱為YARN(Yet Another Resource Negotiator,另一種資源協調者),是效率更高的資源管理核心。
YARN 主要包含三大模組:Resource Manager(RM)、Node Manager(NM)、Application Master(AM):
以上是HADOOP三大核心組件分別是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!