一、hadoop相關工具
1.Hadoop
Apache的Hadoop專案已幾乎與大數據劃上了等號。它不斷壯大起來,已成為一個完整的生態系統,眾多開源工具面向高度擴展的分散式運算。
支援的作業系統:Windows、Linux和OSX。
2.Ambari
作為Hadoop生態系統的一部分,這個Apache專案提供了基於Web的直覺式介面,可用於設定、管理和監控Hadoop叢集。有些開發人員想把Ambari的功能整合到自己的應用程式當中,Ambari也為他們提供了充分利用REST(代表性狀態傳輸協定)的API。
支援的作業系統:Windows、Linux和OSX。
3.Avro
這個Apache專案提供了資料序列化系統,擁有豐富的資料結構和緊湊格式。模式用JSON來定義,它很容易與動態語言整合。
4.Cascading
Cascading是一款基於Hadoop的應用程式開發平台。提供商業支援和培訓服務。
5.Chukwa
Chukwa基於Hadoop,可以收集來自大型分散式系統的數據,用於監控。它還含有用於分析和顯示數據的工具。
支援的作業系統:Linux和OSX。
6.Flume
Flume可以從其他應用程式收集日誌數據,然後將這些數據送入Hadoop。官方網站聲稱:「它功能強大、具有容錯性,還擁有可以調整優化的可靠性機制和許多故障切換及恢復機制。」
支援的作業系統:Linux和OSX。
7.HBase
HBase是為有數十億行和數百萬列的超大表設計的,這是一種分散式資料庫,可以對大數據進行隨機性的即時讀取/寫入存取。它有點類似Google的Bigtable,不過是基於Hadoop和Hadoop分散式檔案系統(HDFS)而建。
8.Hadoop分散式檔案系統(HDFS)
HDFS是Hadoop的檔案系統,不過它也可以用作一種獨立的分散式檔案系統。它基於Java,具有容錯性、高度擴充性和高度配置性。
支援的作業系統:Windows、Linux和OSX。
9.Hive
ApacheHive是Hadoop生態系統的資料倉儲。它讓使用者可以使用HiveQL查詢和管理大數據,這是一種類似SQL的語言。
10.Hivemall
Hivemall結合了Hive導向的多種機器學習演算法。它包括許多高度擴展性演算法,可用於資料分類、遞歸、推薦、k最近鄰、異常檢測和特徵雜湊。
11.Mahout
根據官方網站聲稱,Mahout專案的目的是「為迅速建立可擴展、高效能的機器學習應用程式打造一個環境。」它包括用於在HadoopMapReduce上進行資料探勘的眾多演算法,也包括一些面向Scala和Spark環境的新穎演算法。
12.MapReduce
作為Hadoop一個不可或缺的部分,MapReduce這個程式設計模型為處理大型分散式資料集提供了一種方法。它最初是由Google開發的,但現在也被本文介紹的另外幾個大數據工具所使用,包括CouchDB、MongoDB和Riak。
13.Oozie
這種工作流程排程工具是為了管理Hadoop任務而專門設計的。它能夠依照時間或依照資料可用情況觸發任務,並與MapReduce、Pig、Hive、Sqoop及其他許多相關工具整合起來。
支援的作業系統:Linux和OSX。
14.Pig
ApachePig是分散式大數據分析的平台。它依賴一種名為PigLatin的程式語言,擁有簡化的平行程式設計、最佳化和可擴展性等優點。
15.Sqoop
企業經常需要在關聯式資料庫與Hadoop之間傳輸數據,而Sqoop就是能完成這項任務的一款工具。它可以將資料匯入Hive或HBase,並從Hadoop匯出到關聯式資料庫管理系統(RDBMS)。
16.Spark
作為MapReduce以外的選擇,Spark是一種資料處理引擎。它聲稱,用在記憶體中時,其速度比MapReduce最多快100倍;用在磁碟上時,其速度比MapReduce最多快10倍。它可以與Hadoop和ApacheMesos一起使用,也可以獨立使用。
支援的作業系統:Windows、Linux和OSX。
17.Tez
Tez建立在ApacheHadoopYARN的基礎上,這是「一種應用程式框架,允許為任務建立一種複雜的有向無環圖,以便處理資料。 「它讓Hive和Pig可以簡化複雜的任務,而這些任務原本需要多個步驟才能完成。
支援的作業系統:Windows、Linux和OSX。
18.Zookeeper
這種大數據管理工具自稱是「一項集中式服務,可用於維護設定資訊、命名、提供分散式同步以及提供群組服務。」它讓Hadoop叢集裡面的節點可以彼此協調。
支援的作業系統:Linux、Windows(只適合開發環境)和OSX(只適合開發環境)。
相關推薦:《常見問題》
二、大數據分析平台和工具
19.Disco
Disco最初由諾基亞開發,這是一種分散式運算框架,與Hadoop一樣,它也是基於MapReduce。它包括一種分散式檔案系統以及支援數十億個鍵和值的資料庫。
支援的作業系統:Linux和OSX。
20.HPCC
作為Hadoop以外的選擇,HPCC這種大數據平台承諾速度非常快,擴展性超強。除了免費社群版外,HPCCSystems還提供收費的企業版、收費模組、培訓、諮詢及其他服務。
支援的作業系統:Linux。
21.Lumify
Lumify歸Altamira科技公司(以國家安全技術而聞名)所有,這是一種開源大數據整合、分析和視覺化平台。你只要在Try.Lumify.io試試試用版,就能看看它的實際效果。
支援的作業系統:Linux。
22.Pandas
Pandas專案包括基於Python程式語言的資料結構和資料分析工具。它讓企業組織可以將Python用作R以外的一種選擇,用於大數據分析專案。
支援的作業系統:Windows、Linux和OSX。
23.Storm
Storm現在是Apache項目,它提供了即時處理大數據的功能(不像Hadoop只提供批次任務處理)。其用戶包括推特、美國天氣頻道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard等許多公司。
支援的作業系統:Linux。
三、資料庫/資料倉儲
24.Blazegraph
Blazegraph之前名為“Bigdata”,這是一種高度擴展、高效能的資料庫。它既有使用開源許可證的版本,也有使用商業許可證的版本。
25.Cassandra
這種NoSQL資料庫最初由Facebook開發,現已被1500多家企業組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機構。它能支援超大規模叢集;比如說,蘋果部署的Cassandra系統就包含75,000多個節點,擁有的資料量超過10PB。
26.CouchDB
CouchDB號稱是“一款完全擁抱互聯網的資料庫”,它將資料儲存在JSON文件中,這種文件可以透過Web瀏覽器來查詢,並且用JavaScript來處理。它易於使用,在分散式上網路上具有高可用性和高擴展性。
支援的作業系統:Windows、Linux、OSX和安卓。
27.FlockDB
由推特開發的FlockDB是一種非常快速、擴展性非常好的圖形資料庫,擅長儲存社交網路資料。雖然它仍可用於下載,但是這個專案的開源版已經有一段時間沒有更新了。
28.Hibari
這個基於Erlang的專案自稱是「一種分散式有序鍵值儲存系統,保證擁有很強的一致性」。它最初是由GeminiMobileTechnologies開發的,現在已被歐洲和亞洲的幾家電信業者所使用。
29.Hypertable
Hypertable是一種與Hadoop相容的大數據資料庫,承諾效能超高,其使用者包括電子港灣、百度、高朋、Yelp及另外許多網路公司。提供商業支援服務。
支援的作業系統:Linux和OSX。
30.Impala
Cloudera聲稱,基於SQL的Impala資料庫是「面向ApacheHadoop的領先的開源分析資料庫」。它可以作為一款獨立產品來下載,又是Cloudera的商業大數據產品的一部分。
支援的作業系統:Linux和OSX。
31.InfoBright社群版
InfoBright為資料分析而設計,這是一種面向列的資料庫,具有很高的壓縮比。 InfoBright.com提供基於相同代碼的收費產品,提供支援服務。
支援的作業系統:Windows和Linux。
32.MongoDB
mongoDB的下載量已超過1000萬人次,這是一個極為受歡迎的NoSQL資料庫。 MongoDB.com上提供了企業版、支援、培訓及相關產品和服務。
支援的作業系統:Windows、Linux、OSX和Solaris。
以上是大數據分析到底需要多少種工具的詳細內容。更多資訊請關注PHP中文網其他相關文章!