Maison >Java >javaDidacticiel >Comment gérer les dépendances des fichiers Spark JAR avec « spark-submit » ?
Lors de la soumission d'une tâche Spark à l'aide de « spark -submit", vous disposez de plusieurs options pour ajouter un JAR supplémentaire files :
Des options telles que "--driver-class-path" et "--spark.executor.extraClassPath" sont utilisées pour modifier le ClassPath. L'ajout d'un JAR au ClassPath permet à votre code de rechercher et de charger les classes dans ce JAR.
Le séparateur de plusieurs fichiers JAR dans les paramètres ClassPath dépend du système d'exploitation. Sous Linux, c'est un deux-points (':'), tandis que sous Windows, c'est un point-virgule (';').
Fichiers JAR ajoutés via "--jars" ou " SparkContext.addJar()" sont automatiquement distribués à tous les nœuds de travail en mode client. En mode cluster, vous devez vous assurer que les fichiers JAR sont accessibles à tous les nœuds via une source externe comme HDFS ou S3. "SparkContext.addFile()" est utile pour distribuer des fichiers sans dépendance.
"spark-submit" accepte les fichiers JAR utilisant divers schémas d'URI, y compris les chemins de fichiers locaux, HDFS , HTTP, HTTPS et FTP.
Les fichiers JAR supplémentaires sont copiés dans le répertoire de travail de chaque SparkContext sur les nœuds de travail, généralement sous "/var/run/spark/work."
Les propriétés définies directement sur SparkConf ont la priorité la plus élevée, suivies par les indicateurs passés à « spark-submit », puis les options dans "spark-defaults.conf."
En mode client, c'est Vous pouvez utiliser en toute sécurité plusieurs options pour ajouter des fichiers JAR aux nœuds pilote et travailleur. Cependant, en mode cluster, vous devrez peut-être utiliser des méthodes supplémentaires pour garantir que les fichiers JAR sont disponibles pour tous les nœuds de travail.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!