首頁 >常見問題 >Hadoop是用於分散式運算的,它是什麼東西

Hadoop是用於分散式運算的,它是什麼東西

(*-*)浩
(*-*)浩原創
2019-11-18 14:01:233290瀏覽

Hadoop是用於分散式運算的,它是什麼東西

hadoop是什麼?

(1)Hadoop是一個開源的框架,可編寫和運行分散式應用程式處理大規模數據,是專為離線和大規模數據分析而設計的,並不適合那種對幾個記錄隨機讀寫的線上事務處理模式。         ( 推薦學習:web前端視訊教學

Hadoop=HDFS(檔案系統,資料儲存技術相關) Mapreduce(資料處理),Hadoop的資料來源可以是任何形式,在處理半結構化和非結構化資料上與關係型資料庫相比有更好的性能,具有更靈活的處理能力,不管任何資料形式最終會轉化為key/value,key/value是基本資料單元。

用函數式變成Mapreduce取代SQL,SQL是查詢語句,而Mapreduce則是使用腳本和程式碼,而對於適用於關係型資料庫,習慣SQL的Hadoop有開源工具hive取代。

(2)Hadoop就是一個分散式運算的解.

#hadoop能做什麼?

hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非編程人員的30%的人使用HiveQL進行數據分析;

#淘寶搜尋中  的自訂篩選也使用的Hive;利用Pig還可以做進階的資料處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。

淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig運行的,包括垃圾郵件的識別和過濾,還有用戶特徵建模。

Hadoop 由許多元素組成。

其最底部是 Hadoop Distributed File System(HDFS),它儲存 Hadoop 叢集中所有儲存節點上的檔案。

HDFS的上一層是MapReduce 引擎,由 JobTrackers 和 TaskTrackers 組成。透過Hadoop分散式運算平台最核心的分散式檔案系統HDFS、MapReduce處理過程,以及資料倉儲工具Hive和分散式資料庫Hbase的介紹,基本上涵蓋了Hadoop分散式平台的所有技術核心。

以上是Hadoop是用於分散式運算的,它是什麼東西的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn