Maison  >  Article  >  Java  >  Comment les fichiers JAR sont-ils ajoutés à une tâche Spark à l'aide de Spark-Submit, et quelles sont les différentes options et considérations pour ce faire ?

Comment les fichiers JAR sont-ils ajoutés à une tâche Spark à l'aide de Spark-Submit, et quelles sont les différentes options et considérations pour ce faire ?

Mary-Kate Olsen
Mary-Kate Olsenoriginal
2024-11-16 17:41:03738parcourir

How are JAR files added to a Spark job using Spark-Submit,  and what are the different options and considerations for doing so?

Ajout de fichiers JAR à une tâche Spark avec Spark-Submit

Lors de l'utilisation de Spark-Submit, il existe plusieurs options pour ajouter des fichiers JAR à une tâche Spark, chacune avec ses propres implications pour le chemin de classe, la distribution des fichiers et la priorité.

Effets ClassPath

Spark-Submit influence les ClassPaths via ces options :

  • spark.driver.extraClassPath ou --driver-class-path : Spécifie des chemins de classe supplémentaires pour le nœud de pilote.
  • spark.executor.extraClassPath : Spécifie des chemins de classe supplémentaires pour les nœuds de travail.

Pour qu'un fichier soit inclus sur les deux ClassPaths, il doit être spécifié dans les les deux indicateurs.

Distribution des fichiers

La distribution des fichiers dépend du mode d'exécution :

  • Mode client : Spark distribue les fichiers aux nœuds de travail via un serveur HTTP.
  • Mode cluster : Spark ne distribue pas de fichiers et vous devez rendez-les manuellement disponibles à tous les nœuds de travail via HDFS ou un autre stockage partagé.

Formats d'URI acceptés

Spark-Submit prend en charge les préfixes d'URI suivants pour la distribution de fichiers :

  • file : Servi par le serveur HTTP du pilote.
  • hdfs :, http :, https :, ftp : Extrait de l'URI spécifié.
  • local : Doit être un fichier local sur chaque nœud de travail.

Options concernées

Les options mentionnées dans la question affectent la gestion des fichiers JAR comme suit :

  • --jars et SparkContext.addJar : options équivalentes qui n'ajoutent pas de fichiers JAR aux ClassPaths.
  • SparkContext.addFile : utilisé pour les fichiers arbitraires qui ne sont pas des dépendances d'exécution.
  • --conf spark.driver.extraClassPath ou - -driver-class-path : Alias ​​pour les modifications du pilote ClassPath.
  • --conf spark.driver.extraLibraryPath ou --driver-library-path : Alias ​​pour les chemins de la bibliothèque de pilotes.
  • -- conf spark.executor.extraClassPath : utilisé pour les dépendances d'exécution qui ne peuvent pas être incluses dans un über JAR.
  • --conf spark.executor.extraLibraryPath : spécifie l'option java.library.path de la JVM.

Priorité

Les propriétés définies directement sur SparkConf ont la priorité la plus élevée, suivies des indicateurs Spark-Submit, puis des options dans spark-defaults.conf. Par conséquent, toutes les valeurs définies dans le code remplaceront les indicateurs ou options correspondants.

Ajout simultané de fichiers JAR

En mode client, il est sûr d'ajouter des fichiers JAR en utilisant les trois options principales :

spark-submit --jars additional1.jar,additional2.jar \
  --driver-class-path additional1.jar:additional2.jar \
  --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \
  --class MyClass main-application.jar

Cependant, en mode cluster, vous ne devez ajouter des fichiers qu'à l'aide de --jars et les distribuer manuellement vous-même aux nœuds de travail. Les arguments redondants comme la transmission de fichiers JAR à --driver-library-path doivent être évités.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn