Hadoop實作了一個分散式檔案系統(HadoopDistributedFileSystem),簡稱HDFS。超大資料集(largedataset)的應用程式。
最核心的設計就是:HDFS和MapReduce。 ## Hadoop這個名字不是一個縮寫,而是一個虛構的名字。 Hadoop是一個能夠讓使用者輕鬆架構
和使用的分散式運算平台。使用者可以輕鬆地在Hadoop上開發和運行處理大量資料的應用程式。它主要有以下幾個優點:
1、高可靠性Hadoop位元儲存和處理資料的能力值得人們信賴。 2、高擴展性Hadoop是在可用的電腦集簇間分配資料並完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。 3、高效性Hadoop能夠在節點之間動態地移動數據,並保證各個節點的動態平衡,因此處理速度非常快。
4、高容錯性Hadoop能夠自動儲存資料的多個副本,並且能夠自動將失敗的任務重新指派。
5、低成本與一體機、商用資料倉儲以及QlikView、YonghongZ-Suite等資料市集相比,hadoop是開源的,專案的軟體成本因此會大幅降低。
Hadoop有一個用java語言寫的框架,因此運行在
Linux
生產平台上是非常理想的。 Hadoop上的應用程式也可以使用其他語言來編寫,例如C++。
Hadoop大數據處理的意義 Hadoop得以在大數據處理應用中廣泛應用得益於其自身在資料擷取、變形和載入(ETL)方面上的天然優勢。 Hadoop的分散式架構,將大數據處理引擎盡可能的靠近存儲,對例如像ETL這樣的批次操作相對合適,因為類似這樣操作的批次結果可以直接走向存儲。 Hadoop的MapReduce功能實作了將單一任務打碎,並將片段任務(Map)送到多個節點上,之後再以單一資料集的形式載入(Reduce)到資料倉儲裡。 PHP中文網Hadoop學習路線資料:
1、HadoopCommon:Hadoop系統最底層的一個模組,為Hadoop各子項目提供各種工具,如:
配置文件
和日誌操作等。
2、HDFS:分散式檔案系統,提供高吞吐量的應用程式資料訪問,對外部客戶機而言,HDFS就像一個傳統的分級檔案系統。可以建立、刪除、移動或重新命名文件,等等。但是HDFS的架構是基於一組特定的節點所建構的(參見圖1),這是由它本身的特徵決定的。這些節點包括NameNode(僅一個),它在HDFS內部提供元資料服務;DataNode,它為HDFS提供儲存區塊。由於只存在一個NameNode,因此這是HDFS的缺點(單點失敗)。
儲存在HDFS中的檔案被分成區塊,然後將這些區塊複製到多個電腦中(DataNode)。這與傳統的RAID架構大不相同。區塊的大小(通常為64MB)和複製的區塊數量在建立檔案時由客戶機決定。 NameNode可以控制所有檔案操作。 HDFS內部的所有通訊都基於標準的TCP/IP協定。
3、MapReduce:一個分散式海量資料處理的軟體框架集計算群集。 4、Avro:dougcutting主持的RPC項目,主要負責資料的序列化
。有點類似Google的protobuf和Facebook的thr
ift。 avro用來做以後hadoop的RPC,讓hadoop的RPC模組通訊速度更快、資料結構更緊湊。 5、Hive:類似CloudBase,也是基於hadoop分散式運算平台上的提供datawarehouse的sql功能的一套軟體。使得儲存在hadoop裡面的大量資料的匯總,即席查詢簡化。 hive提供了一套QL的查詢語言,以sql為基礎,使用起來很方便。
6、HBase:基於HadoopDistributedFileSystem,是一個開源的,基於列存儲模型的可擴展的分散式資料庫,支援大型表的儲存結構化資料。
7、Pig:是一個平行計算的高階的資料流語言和執行框架,SQL-like語言,是在MapReduce上建構的一種高階查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,並且使用者可以定義自己的功能。
8、ZooKeeper:Google的Chubby一個開源的實作。它是一個針對大型分散式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分散式同步、群組服務等。 ZooKeeper的目標就是封裝好複雜易出錯的關鍵服務,將簡單易用的介面和效能高效、功能穩定的系統提供給使用者。
9、Chukwa:一個管理大型分散式系統的資料擷取系統由yahoo貢獻。
10、Cassandra:無單點故障的可擴展的多主資料庫。
11、Mahout:一個可擴展的機器學習和資料探勘庫。
Hadoop設計之初的目標就定位於高可靠性、高可拓展性、高容錯性和高效性,正是這些設計上與生俱來的優點,才使得Hadoop一出現就受到眾多大公司的青睞,同時也引起了研究界的普遍關注。到目前為止,Hadoop技術在網路領域已經得到了廣泛的運用。
以上就是關於Hadoop是什麼及Hadoop學習路線的詳細介紹,想要了解更多關於Hadoop的新聞資訊,請關注大講台官網、微信等平台,大講台IT職業在線學習教育平台為您提供權威的大數據Hadoop培訓課程和視頻教程系統,透過大講台金牌講師在線錄製的第一套自適應Hadoop在線視頻課程系統,讓你快速掌握Hadoop從入門到精通大數據開發實戰技能。
以上是淺談Hadoop是什麼及其學習路線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

Java错误:Hadoop错误,如何处理和避免当使用Hadoop处理大数据时,常常会遇到一些Java异常错误,这些错误可能会影响任务的执行,导致数据处理失败。本文将介绍一些常见的Hadoop错误,并提供处理和避免这些错误的方法。Java.lang.OutOfMemoryErrorOutOfMemoryError是Java虚拟机内存不足的错误。当Hadoop任

随着互联网的发展,动态网页的需求越来越大。而PHP作为一种主流的编程语言,被广泛应用于Web开发中。那么,对于初学者来说,如何学习PHP开发呢?一、了解PHP的基础知识PHP是一种脚本语言,可以直接嵌入HTML代码中,通过Web服务器进行解析运行。因此,在学习PHP之前,可以先了解HTML、CSS、JavaScript等前端技术基础,以便更好地理解PHP的作

随着大数据时代的到来,数据处理和存储变得越来越重要,如何高效地管理和分析大量的数据也成为企业面临的挑战。Hadoop和HBase作为Apache基金会的两个项目,为大数据存储和分析提供了一种解决方案。本文将介绍如何在Beego中使用Hadoop和HBase进行大数据存储和查询。一、Hadoop和HBase简介Hadoop是一个开源的分布式存储和计算系统,它可

随着数据量的不断增大,传统的数据处理方式已经无法处理大数据时代带来的挑战。Hadoop是开源的分布式计算框架,它通过分布式存储和处理大量的数据,解决了单节点服务器在大数据处理中带来的性能瓶颈问题。PHP是一种脚本语言,广泛应用于Web开发,而且具有快速开发、易于维护等优点。本文将介绍如何使用PHP和Hadoop进行大数据处理。什么是HadoopHadoop是

Java大数据技术栈:了解Java在大数据领域的应用,如Hadoop、Spark、Kafka等随着数据量不断增加,大数据技术成为了当今互联网时代的热门话题。在大数据领域,我们常常听到Hadoop、Spark、Kafka等技术的名字。这些技术起到了至关重要的作用,而Java作为一门广泛应用的编程语言,也在大数据领域发挥着巨大的作用。本文将重点介绍Java在大

Python是一种强大的编程语言,已经成为许多领域中最流行的语言之一。从简单的脚本编写到复杂的Web应用程序和科学计算,Python都可以胜任。本文将介绍Python高级学习路线,提供了一条清晰的学习路径,帮助你掌握Python编程的高级技能。提高基础知识在进入Python高级学习之前,我们需要先回顾一下Python的基础知识。这包括Python的语法、数据

一:安装JDK1.执行以下命令,下载JDK1.8安装包。wget--no-check-certificatehttps://repo.huaweicloud.com/java/jdk/8u151-b12/jdk-8u151-linux-x64.tar.gz2.执行以下命令,解压下载的JDK1.8安装包。tar-zxvfjdk-8u151-linux-x64.tar.gz3.移动并重命名JDK包。mvjdk1.8.0_151//usr/java84.配置Java环境变量。echo'

Hadoop的三大核心组件分别是:Hadoop Distributed File System(HDFS)、MapReduce和Yet Another Resource Negotiator(YARN)。


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

禪工作室 13.0.1
強大的PHP整合開發環境

SublimeText3漢化版
中文版,非常好用

SublimeText3 Linux新版
SublimeText3 Linux最新版

記事本++7.3.1
好用且免費的程式碼編輯器

Dreamweaver CS6
視覺化網頁開發工具