搜尋
首頁常見問題大數據學習路線

大數據學習路線

Jun 05, 2019 am 10:59 AM
大數據

大數據學習路線

大數據學習路線

#java(Java se,[mysql])

Linux (shell,高同時架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python ,spark python)(推薦學習:Python影片教學

#計算平台(docker,kvm,openstack)

名詞解釋

對於小白學習大數據需要注意的點有很多,但無論如何,既然你選擇了進入大數據行業,那麼便只顧風雨兼程。正所謂不忘初心、方得始終,學習大數據你最需要的還是一顆持之以恆的心。

javase基礎【包含mysql】,注意是javase,不是javaee。 javaweb那一塊的知識針對大數據工程師而言不是必須的

Linux

lucene:全文檢索引擎的架構

solr : 基於lucene的全文搜尋伺服器,實現了可設定、可擴展並對查詢效能進行了最佳化,並且提供了一個完善的功能管理介面。

Hadoop

HDFS: 分散式儲存系統,包含NameNode,DataNode。 NameNode:元數據,DataNode。 DataNode:存數資料。

yarn: 可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。

MapReduce: 軟體框架,編寫程式。

Hive: 資料倉儲 可以用SQL查詢,可以執行Map/Reduce程式。用來計算趨勢或網站日誌,不應用於即時查詢,需要很長時間返回結果。

HBase: 資料庫。非常適合用來做大數據的即時查詢。 Facebook以Hbase儲存訊息資料並進行訊息即時的分析

ZooKeeper:針對大型分散式的可靠性協調系統。 Hadoop的分散式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。

Sqoop: 資料庫相互轉移,關係型資料庫和HDFS相互轉移

Mahout:可擴展的機器學習和資料探勘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。

Chukwa: 開源收集系統,監控大型分散式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari: 用於設定、管理和監視Hadoop集群,基於Web,介面友善。

Cloudera

Cloudera Manager: 管理監控診斷整合

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了對應的改變,發行版本稱為CDH。

Cloudera Flume: 日誌收集系統,支援在日誌系統中客製化各類資料發送方,用來收集資料。

Cloudera Impala: 對儲存在Apache Hadoop的HDFS,HBase的資料提供直接查詢互動的SQL。

Cloudera hue: web管理器,包括hue ui,hui server,hui db。 hue提供所有CDH組件的shell介面的接口,可以在hue編寫mr。

機器學習/R

R: 用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R

mahout: 提供可擴展的機器學習領域經典演算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可透過Hadoop擴展到雲端。

storm

Storm: 分散式,容錯的即時串流運算系統,可用作即時分析,線上機器學習,資訊流處理,連續性計算,分散式RPC,即時處理訊息並更新資料庫。

Kafka: 高吞吐量的分散式發布訂閱訊息系統,可以處理消費者規模的網站中的所有動作流程資料(瀏覽,搜尋等)。相對Hadoop的日誌資料和離線分析,可以實現即時處理。目前透過Hadoop的平行載入機制來統一線上和離線的訊息處理

Redis: 由c語言編寫,支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

Spark

Scala: 一種類似java的完全物件導向的程式語言。

jblas: 一個快速的線性代數函式庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。

Spark: Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用平行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在內存中,從而不需要讀寫HDFS,因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作,用過Mesos的第三方叢集框架可以支援此行為。

Spark SQL: 作為Apache Spark大資料框架的一部分,可用於結構化資料處理並且可以執行類似SQL的Spark資料查詢

Spark Streaming:一個建構在Spark上的即時計算框架,擴展了Spark處理大數據流式資料的能力。

Spark MLlib:MLlib是Spark是常用的機器學習演算法的實作庫,目前(2014.05)支援二元分類,回歸,聚類以及協同過濾。同時也包含一個底層的梯度下降最佳化基礎演算法。 MLlib以來jblas線性代數庫,jblas本身以來遠端的Fortran程式。

Spark GraphX: GraphX是Spark中用於圖和圖表並行計算的API,可以在Spark之上提供一站式資料解決方案,可以方便且有效率地完成圖計算的一整套流水作業。

Fortran: 最早出現的電腦高階程式設計語言,廣泛應用於科學和工程計算領域。

BLAS: 基礎線性代數子程式庫,擁有大量已經寫好的關於線性代數運算的程式。

LAPACK: 著名的公開軟體,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小平方法問題、特徵值問題和奇異值問題等。

ATLAS: BLAS線性演算法庫的最佳化版本。

Spark Python: Spark是由scala語言編寫的,但是為了推廣和相容,提供了java和python介面。

Python

Python: 一種物件導向的、解釋型電腦程式設計語言。

雲端運算平台

Docker: 開源的應用程式容器引擎

kvm: (Keyboard Video Mouse)

openstack:  開源的雲端運算管理平台專案

更多Python相關技術文章,請造訪Python教學欄位學習!

以上是大數據學習路線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中