首頁  >  文章  >  運維  >  apache spark是什麼

apache spark是什麼

藏色散人
藏色散人原創
2019-06-11 13:47:004139瀏覽

apache spark是什麼

Apache Spark是一個開源叢集運算框架,最初是由加州大學柏克萊分校AMPLab所開發。相對於Hadoop的MapReduce會在運作完工作後將中介資料存放到磁碟中,Spark使用了記憶體內運算技術,能在資料尚未寫入硬碟時即在記憶體內分析運算。

Spark在記憶體內執行程式的運算速度能做到比Hadoop MapReduce的運算速度快上100倍,即便是執行程式於硬碟時,Spark也能快上10倍速度。 Spark允許使用者將資料載入至叢集記憶體,並多次查詢,非常適合用於機器學習演算法。

使用Spark需要搭配叢集管理員和分散式儲存系統。 Spark支援獨立模式(本地Spark叢集)、Hadoop YARN或Apache Mesos的叢集管理。

在分散式儲存方面,Spark可以和HDFS、 Cassandra、OpenStack Swift和Amazon S3等介面搭載。 Spark也支援偽分散式(pseudo-distributed)本機模式,不過通常只用於開發或測試時以本機檔案系統取代分散式儲存系統。在這樣的情況下,Spark僅在一台機器上使用每個CPU核心運行程式。

在2014年有超過465位貢獻家投入Spark開發,讓其成為Apache軟體基金會以及大數據眾多開源專案中最為活躍的專案。

更多Apache相關知識知識,請造訪Apache使用教學專欄!

以上是apache spark是什麼的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn