搜尋
首頁常見問題大數據學習路線

大數據學習路線

Jun 05, 2019 am 10:59 AM
大數據

大數據學習路線

大數據學習路線

#java(Java se,[mysql])

Linux (shell,高同時架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python ,spark python)(推薦學習:Python影片教學

#計算平台(docker,kvm,openstack)

名詞解釋

對於小白學習大數據需要注意的點有很多,但無論如何,既然你選擇了進入大數據行業,那麼便只顧風雨兼程。正所謂不忘初心、方得始終,學習大數據你最需要的還是一顆持之以恆的心。

javase基礎【包含mysql】,注意是javase,不是javaee。 javaweb那一塊的知識針對大數據工程師而言不是必須的

Linux

lucene:全文檢索引擎的架構

solr : 基於lucene的全文搜尋伺服器,實現了可設定、可擴展並對查詢效能進行了最佳化,並且提供了一個完善的功能管理介面。

Hadoop

HDFS: 分散式儲存系統,包含NameNode,DataNode。 NameNode:元數據,DataNode。 DataNode:存數資料。

yarn: 可以理解為MapReduce的協調機制,本質就是Hadoop的處理分析機制,分為ResourceManager NodeManager。

MapReduce: 軟體框架,編寫程式。

Hive: 資料倉儲 可以用SQL查詢,可以執行Map/Reduce程式。用來計算趨勢或網站日誌,不應用於即時查詢,需要很長時間返回結果。

HBase: 資料庫。非常適合用來做大數據的即時查詢。 Facebook以Hbase儲存訊息資料並進行訊息即時的分析

ZooKeeper:針對大型分散式的可靠性協調系統。 Hadoop的分散式同步等靠Zookeeper實現,例如多個NameNode,active standby切換。

Sqoop: 資料庫相互轉移,關係型資料庫和HDFS相互轉移

Mahout:可擴展的機器學習和資料探勘庫。用來做推薦挖掘,聚集,分類,頻繁項集挖掘。

Chukwa: 開源收集系統,監控大型分散式系統,建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari: 用於設定、管理和監視Hadoop集群,基於Web,介面友善。

Cloudera

Cloudera Manager: 管理監控診斷整合

Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera對Hadoop做了對應的改變,發行版本稱為CDH。

Cloudera Flume: 日誌收集系統,支援在日誌系統中客製化各類資料發送方,用來收集資料。

Cloudera Impala: 對儲存在Apache Hadoop的HDFS,HBase的資料提供直接查詢互動的SQL。

Cloudera hue: web管理器,包括hue ui,hui server,hui db。 hue提供所有CDH組件的shell介面的接口,可以在hue編寫mr。

機器學習/R

R: 用於統計分析、繪圖的語言和操作環境,目前有Hadoop-R

mahout: 提供可擴展的機器學習領域經典演算法的實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,且可透過Hadoop擴展到雲端。

storm

Storm: 分散式,容錯的即時串流運算系統,可用作即時分析,線上機器學習,資訊流處理,連續性計算,分散式RPC,即時處理訊息並更新資料庫。

Kafka: 高吞吐量的分散式發布訂閱訊息系統,可以處理消費者規模的網站中的所有動作流程資料(瀏覽,搜尋等)。相對Hadoop的日誌資料和離線分析,可以實現即時處理。目前透過Hadoop的平行載入機制來統一線上和離線的訊息處理

Redis: 由c語言編寫,支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

Spark

Scala: 一種類似java的完全物件導向的程式語言。

jblas: 一個快速的線性代數函式庫(JAVA)。基於BLAS與LAPACK,矩陣計算實際的行業標準,並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現,使其非常快。

Spark: Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用平行框架,除了Hadoop MapReduce所具有的優點,但不同於MapReduce的是job中間輸出結果可以保存在內存中,從而不需要讀寫HDFS,因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作,用過Mesos的第三方叢集框架可以支援此行為。

Spark SQL: 作為Apache Spark大資料框架的一部分,可用於結構化資料處理並且可以執行類似SQL的Spark資料查詢

Spark Streaming:一個建構在Spark上的即時計算框架,擴展了Spark處理大數據流式資料的能力。

Spark MLlib:MLlib是Spark是常用的機器學習演算法的實作庫,目前(2014.05)支援二元分類,回歸,聚類以及協同過濾。同時也包含一個底層的梯度下降最佳化基礎演算法。 MLlib以來jblas線性代數庫,jblas本身以來遠端的Fortran程式。

Spark GraphX: GraphX是Spark中用於圖和圖表並行計算的API,可以在Spark之上提供一站式資料解決方案,可以方便且有效率地完成圖計算的一整套流水作業。

Fortran: 最早出現的電腦高階程式設計語言,廣泛應用於科學和工程計算領域。

BLAS: 基礎線性代數子程式庫,擁有大量已經寫好的關於線性代數運算的程式。

LAPACK: 著名的公開軟體,包含了求解科學與工程計算中最常見的數值線性代數問題,如求解線性方程組、線性最小平方法問題、特徵值問題和奇異值問題等。

ATLAS: BLAS線性演算法庫的最佳化版本。

Spark Python: Spark是由scala語言編寫的,但是為了推廣和相容,提供了java和python介面。

Python

Python: 一種物件導向的、解釋型電腦程式設計語言。

雲端運算平台

Docker: 開源的應用程式容器引擎

kvm: (Keyboard Video Mouse)

openstack:  開源的雲端運算管理平台專案

更多Python相關技術文章,請造訪Python教學欄位學習!

以上是大數據學習路線的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
ao3夸克入口官網 ao3官方網站夸克入口ao3夸克入口官網 ao3官方網站夸克入口May 15, 2025 pm 06:45 PM

1、ao3官方網站夸克入口☜☜☜☜☜點擊保存。 2、ao3夸克入口官網☜☜☜☜☜點擊保存。 【ao3】1、AO3(Archive of Our Own)是一個龐大的、由粉絲創作的在線作品存檔網站。 2、它主要收錄同人作品,涵蓋各種各樣的媒體,從書籍和電影到電視劇和遊戲,幾乎無所不包。 3、AO3 的內容豐富,類型多樣,能夠滿足不同讀者的需求。

ao3鏡像網址夸克 ao3鏡像地址夸克入口ao3鏡像網址夸克 ao3鏡像地址夸克入口May 15, 2025 pm 06:42 PM

1、ao3鏡像網址夸克☜☜☜☜☜點擊進入。 2、ao3鏡像地址夸克入口☜☜☜☜☜點擊進入。 3、AO3(檔案我們自己的)是一個非營利性的粉絲小說和同人小說存檔網站,於 2008 年 10 月 29 日啟動。 4、AO3 是一個由粉絲創辦、為粉絲運營的網站,致力於保護粉絲創造的作品,並為同人小說作家提供一個無審查的環境。

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。