大數據學習路線-常見問題-PHP中文網

首頁

常見問題

大數據學習路線

(*-*)浩

Jun 05, 2019 am 10:59 AM

大數據

大數據學習路線

#java(Java se,[mysql])

Linux (shell,高同時架構,lucene,solr)

Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)

機器學習(R,mahout)

Storm(Storm,kafka,redis)

Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)

Python(python ,spark python)（推薦學習：Python影片教學）

#計算平台(docker,kvm,openstack)

名詞解釋

對於小白學習大數據需要注意的點有很多，但無論如何，既然你選擇了進入大數據行業，那麼便只顧風雨兼程。正所謂不忘初心、方得始終，學習大數據你最需要的還是一顆持之以恆的心。

javase基礎【包含mysql】，注意是javase，不是javaee。 javaweb那一塊的知識針對大數據工程師而言不是必須的

Linux

lucene：全文檢索引擎的架構

solr ：基於lucene的全文搜尋伺服器，實現了可設定、可擴展並對查詢效能進行了最佳化，並且提供了一個完善的功能管理介面。

Hadoop

HDFS：分散式儲存系統，包含NameNode，DataNode。 NameNode：元數據，DataNode。 DataNode：存數資料。

yarn：可以理解為MapReduce的協調機制，本質就是Hadoop的處理分析機制，分為ResourceManager NodeManager。

MapReduce：軟體框架，編寫程式。

Hive：資料倉儲可以用SQL查詢，可以執行Map/Reduce程式。用來計算趨勢或網站日誌，不應用於即時查詢，需要很長時間返回結果。

HBase：資料庫。非常適合用來做大數據的即時查詢。 Facebook以Hbase儲存訊息資料並進行訊息即時的分析

ZooKeeper：針對大型分散式的可靠性協調系統。 Hadoop的分散式同步等靠Zookeeper實現，例如多個NameNode，active standby切換。

Sqoop：資料庫相互轉移，關係型資料庫和HDFS相互轉移

Mahout：可擴展的機器學習和資料探勘庫。用來做推薦挖掘，聚集，分類，頻繁項集挖掘。

Chukwa：開源收集系統，監控大型分散式系統，建立在HDFS和Map/Reduce框架之上。顯示、監視、分析結果。

Ambari：用於設定、管理和監視Hadoop集群，基於Web，介面友善。

Cloudera

Cloudera Manager：管理監控診斷整合

Cloudera CDH：(Cloudera's Distribution，including Apache Hadoop) Cloudera對Hadoop做了對應的改變，發行版本稱為CDH。

Cloudera Flume：日誌收集系統，支援在日誌系統中客製化各類資料發送方，用來收集資料。

Cloudera Impala：對儲存在Apache Hadoop的HDFS，HBase的資料提供直接查詢互動的SQL。

Cloudera hue： web管理器，包括hue ui，hui server，hui db。 hue提供所有CDH組件的shell介面的接口，可以在hue編寫mr。

機器學習/R

R：用於統計分析、繪圖的語言和操作環境，目前有Hadoop-R

mahout：提供可擴展的機器學習領域經典演算法的實現，包括聚類、分類、推薦過濾、頻繁子項挖掘等，且可透過Hadoop擴展到雲端。

storm

Storm：分散式，容錯的即時串流運算系統，可用作即時分析，線上機器學習，資訊流處理，連續性計算，分散式RPC，即時處理訊息並更新資料庫。

Kafka：高吞吐量的分散式發布訂閱訊息系統，可以處理消費者規模的網站中的所有動作流程資料（瀏覽，搜尋等）。相對Hadoop的日誌資料和離線分析，可以實現即時處理。目前透過Hadoop的平行載入機制來統一線上和離線的訊息處理

Redis：由c語言編寫，支援網路、可基於記憶體亦可持久化的日誌型、key-value型資料庫。

Spark

Scala：一種類似java的完全物件導向的程式語言。

jblas：一個快速的線性代數函式庫（JAVA）。基於BLAS與LAPACK，矩陣計算實際的行業標準，並使用先進的基礎設施等所有的計算程序的ATLAS藝術的實現，使其非常快。

Spark： Spark是在Scala語言中實現的類似於Hadoop MapReduce的通用平行框架，除了Hadoop MapReduce所具有的優點，但不同於MapReduce的是job中間輸出結果可以保存在內存中，從而不需要讀寫HDFS，因此Spark能更好的適用於資料探勘與機器學習等需要迭代的MapReduce演算法。可以和Hadoop檔案系統並行運作，用過Mesos的第三方叢集框架可以支援此行為。

Spark SQL：作為Apache Spark大資料框架的一部分,可用於結構化資料處理並且可以執行類似SQL的Spark資料查詢

Spark Streaming：一個建構在Spark上的即時計算框架，擴展了Spark處理大數據流式資料的能力。

Spark MLlib：MLlib是Spark是常用的機器學習演算法的實作庫，目前(2014.05)支援二元分類，回歸，聚類以及協同過濾。同時也包含一個底層的梯度下降最佳化基礎演算法。 MLlib以來jblas線性代數庫，jblas本身以來遠端的Fortran程式。

Spark GraphX： GraphX是Spark中用於圖和圖表並行計算的API，可以在Spark之上提供一站式資料解決方案，可以方便且有效率地完成圖計算的一整套流水作業。

Fortran：最早出現的電腦高階程式設計語言，廣泛應用於科學和工程計算領域。

BLAS：基礎線性代數子程式庫，擁有大量已經寫好的關於線性代數運算的程式。

LAPACK：著名的公開軟體，包含了求解科學與工程計算中最常見的數值線性代數問題，如求解線性方程組、線性最小平方法問題、特徵值問題和奇異值問題等。

ATLAS： BLAS線性演算法庫的最佳化版本。

Spark Python： Spark是由scala語言編寫的，但是為了推廣和相容，提供了java和python介面。

Python

Python: 一種物件導向的、解釋型電腦程式設計語言。

雲端運算平台

Docker：開源的應用程式容器引擎

kvm: (Keyboard Video Mouse)

openstack：開源的雲端運算管理平台專案

更多Python相關技術文章，請造訪Python教學欄位學習！

以上是大數據學習路線的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

ao3夸克入口官網 ao3官方網站夸克入口May 15, 2025 pm 06:45 PM

1、ao3官方網站夸克入口☜☜☜☜☜點擊保存。 2、ao3夸克入口官網☜☜☜☜☜點擊保存。【ao3】1、AO3（Archive of Our Own）是一個龐大的、由粉絲創作的在線作品存檔網站。 2、它主要收錄同人作品，涵蓋各種各樣的媒體，從書籍和電影到電視劇和遊戲，幾乎無所不包。 3、AO3 的內容豐富，類型多樣，能夠滿足不同讀者的需求。

ao3鏡像網址夸克 ao3鏡像地址夸克入口May 15, 2025 pm 06:42 PM

1、ao3鏡像網址夸克☜☜☜☜☜點擊進入。 2、ao3鏡像地址夸克入口☜☜☜☜☜點擊進入。 3、AO3（檔案我們自己的）是一個非營利性的粉絲小說和同人小說存檔網站，於 2008 年 10 月 29 日啟動。 4、AO3 是一個由粉絲創辦、為粉絲運營的網站，致力於保護粉絲創造的作品，並為同人小說作家提供一個無審查的環境。