首頁  >  文章  >  apache spark是什麼意思

apache spark是什麼意思

藏色散人
藏色散人原創
2019-08-02 13:18:103821瀏覽

apache spark是什麼意思

apache spark是什麼意思?

Apache Spark是一個強大的開源處理引擎,最初由Matei Zaharia開發,是他在加州大學柏克萊分校的博士論文的一部分。 Spark的第一個版本於2012年發布。

Apache Spark是一個快速、易於使用的框架,讓你可以解決各種複雜的資料問題,無論是半結構化、結構化、串流,或機器學習、資料科學。它也成為大數據方面最大的開源社群之一,擁有來自250多個組織的超過1000個貢獻者,以及遍布全球570多個地方的超過30萬個Spark Meetup社群成員。

什麼是Apache Spark?

Apache Spark是一個開源的、強大的分散式查詢和處理引擎。它提供MapReduce的靈活性和可擴展性,但速度明顯更高:當資料儲存在記憶體中時,它比Apache Hadoop快100倍,存取磁碟時高達10倍。

Apache Spark允許使用者讀取、轉換、聚合數據,還可以輕鬆地訓練和部署複雜的統計模型。 Java、Scala、Python、R和SQL都可以存取 Spark API。

Apache Spark可用於建立應用程序,或將其打包成為要部署在叢集上的庫,或透過筆記本(notebook)(例如Jupyter、Spark-Notebook、Databricks notebooks和Apache Zeppelin)互動式執行快速的分析。

Apache Spark提供的許多函式庫會讓那些使用過Python的pandas或R語言的data.frame 或data.tables的資料分析師、資料科學家或研究人員覺得熟悉。非常重要的一點是,雖然Spark DataFrame會讓pandas或data.frame、data.tables使用者感到熟悉,但仍有一些差異,所以不要期望過高。具有更多SQL使用背景的使用者也可以用該語言來塑造其資料。

此外,Apache Spark也提供了幾個已經實現並調優過的演算法、統計模型和框架:為機器學習提供的MLlib和ML,為圖形處理提供的GraphX和GraphFrames,以及Spark Streaming (DStream和Structured)。 Spark允許用戶在同一個應用程式中隨意地組合使用這些庫。

Apache Spark可以方便地在本機筆記型電腦上運行,而且還可以輕鬆地在獨立模式下透過YARN或Apache Mesos在本地叢集或雲端中進行部署。它可以從不同的資料來源讀取和寫入,包括(但不限於)HDFS、Apache Cassandra、Apache HBase和S3:

apache spark是什麼意思

以上是apache spark是什麼意思的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn