使用Spark-submit 將JAR 檔案加入Spark 作業
不明確的詳細資料
以下詳細資料之前不清楚或省略在Documentation:
-
ClassPath: --driver-class-path 和--conf spark.driver.extraClassPath 影響驅動程式類別路徑,而--conf spark.executor.extraClassPath 影響Executor 類別路徑。
-
分隔符號: Linux 使用冒號 (:),而 Windows則使用分號 (;)。
-
分發:
- 客戶端模式:JAR 由 Driver 節點上的伺服器透過 HTTP 分發。
- 叢集模式:必須透過 HDFS 手動將 JAR 提供給工作節點類似。
-
URI:「file:/」方案由Driver HTTP 伺服器提供,而「hdfs」、「http」、「ftp」則拉取檔案直接來自URI。 "local:/" 假設檔案已經在每個 Worker 節點上。
-
檔案位置: JAR 複製到每個Worker 節點上的工作目錄(通常為/var/run/spark/work ).
受影響選項
優先順序從高到低的選項:
- 直接在程式碼中設定的SparkConf屬性
- 傳遞給spark- submit的標誌
- 選項中Spark-defaults.conf
選項分析
- 這些相當於新增JAR 相依性。
- SparkContext.addJar 與SparkContext.addFile: addJar 用於依賴項,addFile 用於任意檔案。
- DriverClassPath 選項: --driver-class-path 和 --conf spark.driver.extraClassPath 是別名。
- DriverLibraryPath 選項: --driver-library-path 和 --conf Spark.driver.extraLibraryPath 是別名,代表 java.library.path。
- Executor ClassPath: --conf Spark.executor.extraClassPath 依賴項。
- 執行器庫路徑: --conf Spark.executor.extraLibraryPath for JVM 函式庫
新增JAR 檔案的安全實作🎜>為了在客戶端模式下簡單起見,可以安全地同時使用所有三個主要選項:
在叢集模式下,需要透過HDFS 手動將外部JAR 新增至Worker 節點。
以上是如何使用spark-submit將JAR檔加入到Spark作業?的詳細內容。更多資訊請關注PHP中文網其他相關文章!