Rumah >Java >javaTutorial >Bagaimana untuk Menambah Fail JAR ke Spark Jobs dengan spark-submit?

Bagaimana untuk Menambah Fail JAR ke Spark Jobs dengan spark-submit?

Patricia Arquette
Patricia Arquetteasal
2024-11-15 00:25:02982semak imbas

How to Add JAR Files to Spark Jobs with spark-submit?

Menambahkan Fail JAR ke Spark Jobs dengan spark-submit

Butiran Samar

Butiran berikut sebelum ini tidak jelas atau ditinggalkan dalam dokumentasi:

  • ClassPath: --driver-class-path dan --conf spark.driver.extraClassPath menjejaskan laluan kelas Pemandu, manakala --conf spark.executor.extraClassPath mempengaruhi laluan kelas Pelaksana.
  • Watak Pemisahan: Linux menggunakan titik bertindih (:), manakala Windows menggunakan koma bertitik (;).
  • Pengedaran:

    • Mod pelanggan: JAR diedarkan melalui HTTP oleh pelayan pada nod Pemandu.
    • Mod Kluster: JAR mesti disediakan secara manual kepada nod Pekerja melalui HDFS atau yang serupa.
  • URI: Skim "fail:/" disediakan oleh pelayan HTTP Pemandu, manakala "hdfs", "http", "ftp" menarik fail terus dari URI. "local:/" menganggap fail sudah ada pada setiap nod Pekerja.
  • Lokasi Fail: JAR disalin ke direktori kerja pada setiap nod Pekerja (biasanya /var/run/spark/work ).

Pilihan Terjejas

Pilihan dengan keutamaan dari tertinggi ke terendah:

  1. Sifat SparkConf ditetapkan terus dalam kod
  2. Bendera diserahkan kepada percikan-serahkan
  3. Pilihan dalam pencucuh-lalai.conf

Analisis Pilihan

  • --jars vs SparkContext.addJar: Ini adalah setara untuk menambah kebergantungan JAR.
  • SparkContext.addJar vs SparkContext.addFile: addJar untuk kebergantungan, add.File untuk arbitrari fail
  • PilihanDriverClassPath: --driver-class-path dan --conf spark.driver.extraClassPath ialah alias.
  • DriverLibraryPath Options> -
  • Executor ClassPath: --conf spark.executor.extraClassPath untuk dependensi .
  • Laluan Perpustakaan Pelaksana: --conf spark.executor.extraLibraryPath untuk laluan perpustakaan JVM.

Amalan Selamat untuk Menambah Fail JAR

Untuk kesederhanaan dalam mod Pelanggan, adalah selamat untuk menggunakan ketiga-tiga pilihan utama bersama-sama:

spark-submit --jars additional1.jar,additional2.jar \
  --driver-class-path additional1.jar:additional2.jar \
  --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \
  --class MyClass main-application.jar
Dalam mod Kluster, JAR luaran hendaklah ditambahkan secara manual pada nod Pekerja melalui HDFS.

Atas ialah kandungan terperinci Bagaimana untuk Menambah Fail JAR ke Spark Jobs dengan spark-submit?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn