首页 >Java >java教程 >如何使用'spark-submit”管理 Spark JAR 文件依赖项?

如何使用'spark-submit”管理 Spark JAR 文件依赖项?

Linda Hamilton
Linda Hamilton原创
2024-11-18 04:42:02369浏览

How do I manage Spark JAR file dependencies with

使用“spark-submit”了解 Spark JAR 文件管理

将 JAR 文件添加到 Spark 作业

使用“spark”提交 Spark 作业时-submit”,您有多个选项用于添加其他 JAR 文件:

ClassPath

使用“--driver-class-path”和“--spark.executor.extraClassPath”等选项修改类路径。将 JAR 添加到 ClassPath 允许您的代码查找并加载该 JAR 中的类。

分隔符

ClassPath 设置中多个 JAR 文件的分隔符取决于操作系统。在 Linux 上,它是冒号 (':'),而在 Windows 上,它是分号 (';')。

文件分发

通过“--jars”或“添加的 JAR 文件SparkContext.addJar()”会在客户端模式下自动分发到所有工作节点。在集群模式下,您需要确保所有节点都可以通过 HDFS 或 S3 等外部源访问 JAR 文件。 “SparkContext.addFile()”对于分发非依赖文件很有用。

接受的文件 URI

“spark-submit”接受使用各种 URI 方案的 JAR 文件,包括本地文件路径、HDFS 、HTTP、HTTPS 和 FTP。

复制位置

其他 JAR 文件将复制到工作节点上每个 SparkContext 的工作目录,通常位于“/var/run/spark/work.jar”下。 "

选项优先级

直接在 SparkConf 上设置的属性具有最高优先级,其次是传递给“spark-submit”的标志,然后是“spark-defaults.conf”中的选项。

具体选项角色

  • --jars,SparkContext.addJar():添加JAR文件,但不修改ClassPath。
  • --driver-class-path,spark.driver.extraClassPath:将 JAR 文件添加到驱动程序的 ClassPath。
  • --driver-library-path,spark.driver。 extraLibraryPath:修改驱动程序的库路径设置。
  • **--conf spark.executor.extraClassPath`:将 JAR 文件添加到执行器的 ClassPath。
  • **--conf Spark.executor。 extraLibraryPath`:修改执行器的库路径设置。

组合选项

在客户端模式下,可以安全地使用多个选项将 JAR 文件添加到驱动程序和工作节点。然而,在集群模式下,您可能需要使用额外的方法来确保 JAR 文件可供所有工作节点使用。

以上是如何使用'spark-submit”管理 Spark JAR 文件依赖项?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn