搜尋
首頁常見問題大數據經典學習路線是什麼

大數據經典學習路線是什麼

Jun 14, 2019 am 10:14 AM
大數據

大數據經典學習路線是什麼

大數據的學習路線如下:

java(Java se,javaweb)

Linux(shell,高並發架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

#機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python,spark python)

雲端運算平台(docker,kvm,openstack)

名詞解釋

一、Linux

lucene:全文檢索引擎的架構

solr: 基於lucene的全文搜尋伺服器,實現了可配置、可擴展並對查詢效能進行了最佳化,並且提供了一個完善的功能管理介面。

二、Hadoop

HDFS: 分散式儲存系統,包含NameNode,DataNode。 NameNode:元數據,DataNode。 DataNode:存數資料。

yarn: 可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。

MapReduce: 軟體框架,編寫程式。

Hive: 資料倉儲 可以用SQL查詢,可以執行Map/Reduce程式。用來計算趨勢或網站日誌,不應用於即時查詢,需要很長時間返回結果。

HBase: 資料庫。非常適合用來做大數據的即時查詢。 Facebook以Hbase儲存訊息資料並進行訊息即時的分析

ZooKeeper:針對大型分散式的可靠性協調系統。 Hadoop的分散式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。

Sqoop: 資料庫相互轉移,關係型資料庫和HDFS相互轉移

Mahout:可擴展的機器學習和資料探勘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。

Chukwa: 開源收集系統,監控大型分散式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari: 用於設定、管理和監視Hadoop集群,基於Web,介面友善。

二、Cloudera

Cloudera Manager: 管理監控診斷整合

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了對應的改變,發行版本稱為CDH。

Cloudera Flume: 日誌收集系統,支援在日誌系統中客製化各類資料發送方,用來收集資料。

Cloudera Impala: 對儲存在Apache Hadoop的HDFS,HBase的資料提供直接查詢互動的SQL。

Cloudera hue: web管理器,包括hue ui,hui server,hui db。 hue提供所有CDH組件的shell介面的接口,可以在hue編寫mr。

三、機器學習/R

R: 用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R

mahout: 提供可擴展的機器學習領域經典演算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可透過Hadoop擴展到雲端。

四、storm

Storm: 分散式,容錯的即時串流運算系統,可以用作即時分析,線上機器學習,資訊流處理,連續性計算,分散式RPC,即時處理訊息並更新資料庫。

Kafka: 高吞吐量的分散式發布訂閱訊息系統,可以處理消費者規模的網站中的所有動作流程資料(瀏覽,搜尋等)。相對Hadoop的日誌資料和離線分析,可以實現即時處理。目前透過Hadoop的平行載入機制來統一線上和離線的訊息處理

Redis: 由c語言編寫,支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

五、Spark

Scala: 一種類似java的完全物件導向的程式語言。

jblas: 一個快速的線性代數函式庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。

Spark: Spark是Scala語言中實現的類似Hadoop MapReduce的通用平行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在記憶體中,從而不需要讀寫HDFS,因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作,用過Mesos的第三方叢集框架可以支援此行為。

Spark SQL: 作為Apache Spark大資料框架的一部分,可用於結構化資料處理並且可以執行類似SQL的Spark資料查詢

Spark Streaming:一個建構在Spark上的即時計算框架,擴展了Spark處理大數據流式資料的能力。

Spark MLlib: MLlib是Spark是常用的機器學習演算法的實作庫,目前(2014.05)支援二元分類,回歸,聚類以及協同過濾。同時也包含一個底層的梯度下降最佳化基礎演算法。 MLlib以來jblas線性代數庫,jblas本身以來遠端的Fortran程式。

Spark GraphX: GraphX是Spark中用於圖和圖平行計算的API,可在Spark之上提供一站式資料解決方案,可方便且有效率地完成圖計算的一整套流水作業。

Fortran: 最早出現的電腦高階程式設計語言,廣泛應用於科學和工程計算領域。

BLAS: 基礎線性代數子程式庫,擁有大量已經寫好的關於線性代數運算的程式。

LAPACK: 著名的公開軟體,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小平方法問題、特徵值問題和奇異值問題等。

ATLAS: BLAS線性演算法庫的最佳化版本。

Spark Python: Spark是由scala語言編寫的,但是為了推廣和相容,提供了java和python介面。

六、Python

Python: 一種物件導向的、解釋型電腦程式設計語言。

七、雲端運算平台

Docker: 開源的應用容器引擎

kvm: (Keyboard Video Mouse)

openstack:  開源的雲端運算管理平台專案

以上是大數據經典學習路線是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具