使用“spark”提交 Spark 作业时-submit”,您有多个选项用于添加其他 JAR 文件:
使用“--driver-class-path”和“--spark.executor.extraClassPath”等选项修改类路径。将 JAR 添加到 ClassPath 允许您的代码查找并加载该 JAR 中的类。
ClassPath 设置中多个 JAR 文件的分隔符取决于操作系统。在 Linux 上,它是冒号 (':'),而在 Windows 上,它是分号 (';')。
通过“--jars”或“添加的 JAR 文件SparkContext.addJar()”会在客户端模式下自动分发到所有工作节点。在集群模式下,您需要确保所有节点都可以通过 HDFS 或 S3 等外部源访问 JAR 文件。 “SparkContext.addFile()”对于分发非依赖文件很有用。
“spark-submit”接受使用各种 URI 方案的 JAR 文件,包括本地文件路径、HDFS 、HTTP、HTTPS 和 FTP。
其他 JAR 文件将复制到工作节点上每个 SparkContext 的工作目录,通常位于“/var/run/spark/work.jar”下。 "
直接在 SparkConf 上设置的属性具有最高优先级,其次是传递给“spark-submit”的标志,然后是“spark-defaults.conf”中的选项。
在客户端模式下,可以安全地使用多个选项将 JAR 文件添加到驱动程序和工作节点。然而,在集群模式下,您可能需要使用额外的方法来确保 JAR 文件可供所有工作节点使用。
以上是如何使用“spark-submit”管理 Spark JAR 文件依赖项?的详细内容。更多信息请关注PHP中文网其他相关文章!