使用 Spark-Submit 时,有多个选项可用于将 JAR 文件添加到 Spark 作业,每个选项都包含它本身对类路径、文件分布和优先级的影响。
Spark-Submit 通过以下选项影响 ClassPath:
用于要包含的文件在两个 ClassPath 上,都需要在 both 标志中指定。
文件分布取决于执行模式:
Spark-Submit 支持以下 URI 前缀进行文件分发:
问题中提到的选项影响 JAR 文件处理,如下所示:
直接在 SparkConf 上设置的属性具有最高优先级,其次是 Spark-Submit 标志,然后是 Spark-defaults.conf 中的选项。因此,代码中设置的任何值都将覆盖相应的标志或选项。
在客户端模式下,可以安全地使用所有三个主要选项添加 JAR 文件:
spark-submit --jars additional1.jar,additional2.jar \ --driver-class-path additional1.jar:additional2.jar \ --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \ --class MyClass main-application.jar
但是,在集群模式下,您应该只使用 --jars 添加文件,并自己手动将它们分发到工作节点。应避免将 JAR 文件传递给 --driver-library-path 等冗余参数。
以上是如何使用 Spark-Submit 将 JAR 文件添加到 Spark 作业中?执行此操作有哪些不同的选项和注意事项?的详细内容。更多信息请关注PHP中文网其他相关文章!