首頁  >  文章  >  大數據經典學習路線是什麼

大數據經典學習路線是什麼

silencement
silencement原創
2019-06-14 10:14:092272瀏覽

大數據經典學習路線是什麼

大數據的學習路線如下:

java(Java se,javaweb)

Linux(shell,高並發架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

#機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

雲端運算平台(docker,kvm,openstack)

名詞解釋

一、Linux

lucene:全文檢索引擎的架構

solr: 基於lucene的全文搜尋伺服器,實現了可配置、可擴展並對查詢效能進行了最佳化,並且提供了一個完善的功能管理介面。

二、Hadoop

HDFS: 分散式儲存系統,包含NameNode,DataNode。 NameNode:元數據,DataNode。 DataNode:存數資料。

yarn: 可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。

MapReduce: 軟體框架,編寫程式。

Hive: 資料倉儲 可以用SQL查詢,可以執行Map/Reduce程式。用來計算趨勢或網站日誌,不應用於即時查詢,需要很長時間返回結果。

HBase: 資料庫。非常適合用來做大數據的即時查詢。 Facebook以Hbase儲存訊息資料並進行訊息即時的分析

ZooKeeper:針對大型分散式的可靠性協調系統。 Hadoop的分散式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。

Sqoop: 資料庫相互轉移,關係型資料庫和HDFS相互轉移

Mahout:可擴展的機器學習和資料探勘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。

Chukwa: 開源收集系統,監控大型分散式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari: 用於設定、管理和監視Hadoop集群,基於Web,介面友善。

二、Cloudera

Cloudera Manager: 管理監控診斷整合

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了對應的改變,發行版本稱為CDH。

Cloudera Flume: 日誌收集系統,支援在日誌系統中客製化各類資料發送方,用來收集資料。

Cloudera Impala: 對儲存在Apache Hadoop的HDFS,HBase的資料提供直接查詢互動的SQL。

Cloudera hue: web管理器,包括hue ui,hui server,hui db。 hue提供所有CDH組件的shell介面的接口,可以在hue編寫mr。

三、機器學習/R

R: 用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R

mahout: 提供可擴展的機器學習領域經典演算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可透過Hadoop擴展到雲端。

四、storm

Storm: 分散式,容錯的即時串流運算系統,可以用作即時分析,線上機器學習,資訊流處理,連續性計算,分散式RPC,即時處理訊息並更新資料庫。

Kafka: 高吞吐量的分散式發布訂閱訊息系統,可以處理消費者規模的網站中的所有動作流程資料(瀏覽,搜尋等)。相對Hadoop的日誌資料和離線分析,可以實現即時處理。目前透過Hadoop的平行載入機制來統一線上和離線的訊息處理

Redis: 由c語言編寫,支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

五、Spark

Scala: 一種類似java的完全物件導向的程式語言。

jblas: 一個快速的線性代數函式庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。

Spark: Spark是Scala語言中實現的類似Hadoop MapReduce的通用平行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在記憶體中,從而不需要讀寫HDFS,因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作,用過Mesos的第三方叢集框架可以支援此行為。

Spark SQL: 作為Apache Spark大資料框架的一部分,可用於結構化資料處理並且可以執行類似SQL的Spark資料查詢

Spark Streaming:一個建構在Spark上的即時計算框架,擴展了Spark處理大數據流式資料的能力。

Spark MLlib: MLlib是Spark是常用的機器學習演算法的實作庫,目前(2014.05)支援二元分類,回歸,聚類以及協同過濾。同時也包含一個底層的梯度下降最佳化基礎演算法。 MLlib以來jblas線性代數庫,jblas本身以來遠端的Fortran程式。

Spark GraphX: GraphX是Spark中用於圖和圖平行計算的API,可在Spark之上提供一站式資料解決方案,可方便且有效率地完成圖計算的一整套流水作業。

Fortran: 最早出現的電腦高階程式設計語言,廣泛應用於科學和工程計算領域。

BLAS: 基礎線性代數子程式庫,擁有大量已經寫好的關於線性代數運算的程式。

LAPACK: 著名的公開軟體,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小平方法問題、特徵值問題和奇異值問題等。

ATLAS: BLAS線性演算法庫的最佳化版本。

Spark Python: Spark是由scala語言編寫的,但是為了推廣和相容,提供了java和python介面。

六、Python

Python: 一種物件導向的、解釋型電腦程式設計語言。

七、雲端運算平台

Docker: 開源的應用容器引擎

kvm: (Keyboard Video Mouse)

openstack:  開源的雲端運算管理平台專案

以上是大數據經典學習路線是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn