Rumah  >  Artikel  >  Java  >  Bagaimanakah saya menguruskan kebergantungan fail Spark JAR dengan "spark-submit"?

Bagaimanakah saya menguruskan kebergantungan fail Spark JAR dengan "spark-submit"?

Linda Hamilton
Linda Hamiltonasal
2024-11-18 04:42:02313semak imbas

How do I manage Spark JAR file dependencies with

Memahami Pengurusan Fail Spark JAR dengan "spark-submit"

Menambah Fail JAR pada Spark Job

Apabila menyerahkan tugas Spark menggunakan "spark -submit," anda mempunyai berbilang pilihan untuk menambah fail JAR tambahan:

ClassPath

Pilihan seperti "--driver-class-path" dan "--spark.executor.extraClassPath" digunakan untuk mengubah suai ClassPath. Menambah JAR pada ClassPath membolehkan kod anda mencari dan memuatkan kelas dalam JAR tersebut.

Watak Pemisah

Pemisah untuk berbilang fail JAR dalam tetapan ClassPath bergantung pada sistem pengendalian. Di Linux, ia adalah titik bertindih (':'), manakala pada Windows, ia adalah koma bertitik (';').

Pengagihan Fail

Fail JAR ditambah melalui "--jars" atau " SparkContext.addJar()" diedarkan secara automatik kepada semua nod pekerja dalam mod klien. Dalam mod kluster, anda perlu memastikan fail JAR boleh diakses oleh semua nod melalui sumber luaran seperti HDFS atau S3. "SparkContext.addFile()" berguna untuk mengedarkan fail bukan kebergantungan.

URI Fail Diterima

"spark-submit" menerima fail JAR menggunakan pelbagai skema URI, termasuk laluan fail setempat, HDFS , HTTP, HTTPS dan FTP.

Lokasi Menyalin

Fail JAR tambahan disalin ke direktori kerja setiap SparkContext pada nod pekerja, biasanya di bawah "/var/run/spark/work. "

Keutamaan Pilihan

Properti yang ditetapkan terus pada SparkConf mempunyai keutamaan tertinggi, diikuti dengan bendera yang dihantar kepada "spark-submit," dan kemudian pilihan dalam "spark-defaults.conf."

Peranan Pilihan Khusus

  • --jars, SparkContext.addJar(): Menambah fail JAR tetapi tidak mengubah suai ClassPath.
  • --driver-class-path, spark.driver.extraClassPath: Menambahkan fail JAR pada ClassPath pemandu.
  • --driver-library-path, spark.driver. extraLibraryPath: Mengubah suai tetapan laluan perpustakaan pemacu.
  • **--conf spark.executor.extraClassPath`: Menambah fail JAR pada ClassPath pelaksana.
  • **--conf spark.executor. extraLibraryPath`: Mengubah suai tetapan laluan perpustakaan pelaksana.

Pilihan Penggabungan

Dalam mod klien, adalah selamat untuk menggunakan berbilang pilihan untuk menambah fail JAR pada kedua-dua nod pemacu dan pekerja. Walau bagaimanapun, dalam mod kluster, anda mungkin perlu menggunakan kaedah tambahan untuk memastikan fail JAR tersedia kepada semua nod pekerja.

Atas ialah kandungan terperinci Bagaimanakah saya menguruskan kebergantungan fail Spark JAR dengan "spark-submit"?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn