首頁  >  文章  >  大數據分析到底需要多少種工具

大數據分析到底需要多少種工具

爱喝马黛茶的安东尼
爱喝马黛茶的安东尼原創
2019-07-25 17:25:414258瀏覽

大數據分析到底需要多少種工具

一、hadoop相關工具

1.Hadoop

Apache的Hadoop專案已幾乎與大數據劃上了等號。它不斷壯大起來,已成為一個完整的生態系統,眾多開源工具面向高度擴展的分散式運算。

支援的作業系統:Windows、Linux和OSX。

2.Ambari

作為Hadoop生態系統的一部分,這個Apache專案提供了基於Web的直覺式介面,可用於設定、管理和監控Hadoop叢集。有些開發人員想把Ambari的功能整合到自己的應用程式當中,Ambari也為他們提供了充分利用REST(代表性狀態傳輸協定)的API。

支援的作業系統:Windows、Linux和OSX。

3.Avro

這個Apache專案提供了資料序列化系統,擁有豐富的資料結構和緊湊格式。模式用JSON來定義,它很容易與動態語言整合。

4.Cascading

Cascading是一款基於Hadoop的應用程式開發平台。提供商業支援和培訓服務。

5.Chukwa

Chukwa基於Hadoop,可以收集來自大型分散式系統的數據,用於監控。它還含有用於分析和顯示數據的工具。

支援的作業系統:Linux和OSX。

6.Flume

Flume可以從其他應用程式收集日誌數據,然後將這些數據送入Hadoop。官方網站聲稱:「它功能強大、具有容錯性,還擁有可以調整優化的可靠性機制和許多故障切換及恢復機制。」

支援的作業系統:Linux和OSX。

7.HBase

HBase是為有數十億行和數百萬列的超大表設計的,這是一種分散式資料庫,可以對大數據進行隨機性的即時讀取/寫入存取。它有點類似Google的Bigtable,不過是基於Hadoop和Hadoop分散式檔案系統(HDFS)而建。

8.Hadoop分散式檔案系統(HDFS)

HDFS是Hadoop的檔案系統,不過它也可以用作一種獨立的分散式檔案系統。它基於Java,具有容錯性、高度擴充性和高度配置性。

支援的作業系統:Windows、Linux和OSX。

9.Hive

ApacheHive是Hadoop生態系統的資料倉儲。它讓使用者可以使用HiveQL查詢和管理大數據,這是一種類似SQL的語言。

10.Hivemall

Hivemall結合了Hive導向的多種機器學習演算法。它包括許多高度擴展性演算法,可用於資料分類、遞歸、推薦、k最近鄰、異常檢測和特徵雜湊。

11.Mahout

根據官方網站聲稱,Mahout專案的目的是「為迅速建立可擴展、高效能的機器學習應用程式打造一個環境。」它包括用於在HadoopMapReduce上進行資料探勘的眾多演算法,也包括一些面向Scala和Spark環境的新穎演算法。

12.MapReduce

作為Hadoop一個不可或缺的部分,MapReduce這個程式設計模型為處理大型分散式資料集提供了一種方法。它最初是由Google開發的,但現在也被本文介紹的另外幾個大數據工具所使用,包括CouchDB、MongoDB和Riak。

13.Oozie

這種工作流程排程工具是為了管理Hadoop任務而專門設計的。它能夠依照時間或依照資料可用情況觸發任務,並與MapReduce、Pig、Hive、Sqoop及其他許多相關工具整合起來。

支援的作業系統:Linux和OSX。

14.Pig

ApachePig是分散式大數據分析的平台。它依賴一種名為PigLatin的程式語言,擁有簡化的平行程式設計、最佳化和可擴展性等優點。

15.Sqoop

企業經常需要在關聯式資料庫與Hadoop之間傳輸數據,而Sqoop就是能完成這項任務的一款工具。它可以將資料匯入Hive或HBase,並從Hadoop匯出到關聯式資料庫管理系統(RDBMS)。

16.Spark

作為MapReduce以外的選擇,Spark是一種資料處理引擎。它聲稱,用在記憶體中時,其速度比MapReduce最多快100倍;用在磁碟上時,其速度比MapReduce最多快10倍。它可以與Hadoop和ApacheMesos一起使用,也可以獨立使用。

支援的作業系統:Windows、Linux和OSX。

17.Tez

Tez建立在ApacheHadoopYARN的基礎上,這是「一種應用程式框架,允許為任務建立一種複雜的有向無環圖,以便處理資料。 「它讓Hive和Pig可以簡化複雜的任務,而這些任務原本需要多個步驟才能完成。

支援的作業系統:Windows、Linux和OSX。

18.Zookeeper

這種大數據管理工具自稱是「一項集中式服務,可用於維護設定資訊、命名、提供分散式同步以及提供群組服務。」它讓Hadoop叢集裡面的節點可以彼此協調。

支援的作業系統:Linux、Windows(只適合開發環境)和OSX(只適合開發環境)。

相關推薦:《常見問題

二、大數據分析平台和工具

19.Disco

Disco最初由諾基亞開發,這是一種分散式運算框架,與Hadoop一樣,它也是基於MapReduce。它包括一種分散式檔案系統以及支援數十億個鍵和值的資料庫。

支援的作業系統:Linux和OSX。

20.HPCC

作為Hadoop以外的選擇,HPCC這種大數據平台承諾速度非常快,擴展性超強。除了免費社群版外,HPCCSystems還提供收費的企業版、收費模組、培訓、諮詢及其他服務。

支援的作業系統:Linux。

21.Lumify

Lumify歸Altamira科技公司(以國家安全技術而聞名)所有,這是一種開源大數據整合、分析和視覺化平台。你只要在Try.Lumify.io試試試用版,就能看看它的實際效果。

支援的作業系統:Linux。

22.Pandas

Pandas專案包括基於Python程式語言的資料結構和資料分析工具。它讓企業組織可以將Python用作R以外的一種選擇,用於大數據分析專案。

支援的作業系統:Windows、Linux和OSX。

23.Storm

Storm現在是Apache項目,它提供了即時處理大數據的功能(不像Hadoop只提供批次任務處理)。其用戶包括推特、美國天氣頻道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard等許多公司。

支援的作業系統:Linux。

三、資料庫/資料倉儲

24.Blazegraph

Blazegraph之前名為“Bigdata”,這是一種高度擴展、高效能的資料庫。它既有使用開源許可證的版本,也有使用商業許可證的版本。

25.Cassandra

這種NoSQL資料庫最初由Facebook開發,現已被1500多家企業組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機構。它能支援超大規模叢集;比如說,蘋果部署的Cassandra系統就包含75,000多個節點,擁有的資料量超過10PB。

26.CouchDB

CouchDB號稱是“一款完全擁抱互聯網的資料庫”,它將資料儲存在JSON文件中,這種文件可以透過Web瀏覽器來查詢,並且用JavaScript來處理。它易於使用,在分散式上網路上具有高可用性和高擴展性。

支援的作業系統:Windows、Linux、OSX和安卓。

27.FlockDB

由推特開發的FlockDB是一種非常快速、擴展性非常好的圖形資料庫,擅長儲存社交網路資料。雖然它仍可用於下載,但是這個專案的開源版已經有一段時間沒有更新了。

28.Hibari

這個基於Erlang的專案自稱是「一種分散式有序鍵值儲存系統,保證擁有很強的一致性」。它最初是由GeminiMobileTechnologies開發的,現在已被歐洲和亞洲的幾家電信業者所使用。

29.Hypertable

Hypertable是一種與Hadoop相容的大數據資料庫,承諾效能超高,其使用者包括電子港灣、百度、高朋、Yelp及另外許多網路公司。提供商業支援服務。

支援的作業系統:Linux和OSX。

30.Impala

Cloudera聲稱,基於SQL的Impala資料庫是「面向ApacheHadoop的領先的開源分析資料庫」。它可以作為一款獨立產品來下載,又是Cloudera的商業大數據產品的一部分。

支援的作業系統:Linux和OSX。

31.InfoBright社群版

InfoBright為資料分析而設計,這是一種面向列的資料庫,具有很高的壓縮比。 InfoBright.com提供基於相同代碼的收費產品,提供支援服務。

支援的作業系統:Windows和Linux。

32.MongoDB

mongoDB的下載量已超過1000萬人次,這是一個極為受歡迎的NoSQL資料庫。 MongoDB.com上提供了企業版、支援、培訓及相關產品和服務。

支援的作業系統:Windows、Linux、OSX和Solaris。

以上是大數據分析到底需要多少種工具的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn