搜索
首页Javajava教程如何使用 Spark-Submit 将 JAR 文件添加到 Spark 作业中?执行此操作有哪些不同的选项和注意事项?

How are JAR files added to a Spark job using Spark-Submit,  and what are the different options and considerations for doing so?

使用 Spark-Submit 将 JAR 文件添加到 Spark 作业

使用 Spark-Submit 时,有多个选项可用于将 JAR 文件添加到 Spark 作业,每个选项都包含它本身对类路径、文件分布和优先级的影响。

ClassPath 效果

Spark-Submit 通过以下选项影响 ClassPath:

  • spark.driver.extraClassPath 或--driver-class-path:为驱动程序节点指定额外的类路径。
  • spark.executor.extraClassPath:为工作节点指定额外的类路径。

用于要包含的文件在两个 ClassPath 上,都需要在 both 标志中指定。

文件分布

文件分布取决于执行模式:

  • 客户端模式: Spark 通过 HTTP 服务器将文件分发到工作节点。
  • 集群模式: Spark 分发文件,您必须通过 HDFS 或其他共享存储手动使它们可供所有工作节点使用。

接受的 URI 格式

Spark-Submit 支持以下 URI 前缀进行文件分发:

  • file:: 由驱动程序 HTTP 服务器提供服务。
  • hdfs:, http:, https:, ftp:: 从指定的 URI 拉取。
  • local:: 必须是每个工作节点上的本地文件。

受影响的选项

问题中提到的选项影响 JAR 文件处理,如下所示:

  • --jars 和SparkContext.addJar:不将 JAR 添加到 ClassPaths 的等效选项。
  • SparkContext.addFile:用于不是运行时依赖项的任意文件。
  • --conf spark.driver.extraClassPath 或 - -driver-class-path:驱动程序类路径修改的别名。
  • --conf spark.driver.extraLibraryPath 或 --driver-library-path:驱动程序库路径的别名。
  • -- conf spark.executor.extraClassPath:用于无法包含在 über JAR 中的运行时依赖项。
  • --conf spark.executor.extraLibraryPath:指定 JVM 的 java.library.path 选项。

优先级

直接在 SparkConf 上设置的属性具有最高优先级,其次是 Spark-Submit 标志,然后是 Spark-defaults.conf 中的选项。因此,代码中设置的任何值都将覆盖相应的标志或选项。

同时添加 JAR 文件

在客户端模式下,可以安全地使用所有三个主要选项添加 JAR 文件:

spark-submit --jars additional1.jar,additional2.jar \
  --driver-class-path additional1.jar:additional2.jar \
  --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \
  --class MyClass main-application.jar

但是,在集群模式下,您应该只使用 --jars 添加文件,并自己手动将它们分发到工作节点。应避免将 JAR 文件传递​​给 --driver-library-path 等冗余参数。

以上是如何使用 Spark-Submit 将 JAR 文件添加到 Spark 作业中?执行此操作有哪些不同的选项和注意事项?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
2025年的前4个JavaScript框架:React,Angular,Vue,Svelte2025年的前4个JavaScript框架:React,Angular,Vue,SvelteMar 07, 2025 pm 06:09 PM

本文分析了2025年的前四个JavaScript框架(React,Angular,Vue,Susve),比较了它们的性能,可伸缩性和未来前景。 尽管由于强大的社区和生态系统,所有这些都保持占主导地位,但它们的相对人口

如何使用咖啡因或Guava Cache等库在Java应用程序中实现多层缓存?如何使用咖啡因或Guava Cache等库在Java应用程序中实现多层缓存?Mar 17, 2025 pm 05:44 PM

本文讨论了使用咖啡因和Guava缓存在Java中实施多层缓存以提高应用程序性能。它涵盖设置,集成和绩效优势,以及配置和驱逐政策管理最佳PRA

Node.js 20:关键性能提升和新功能Node.js 20:关键性能提升和新功能Mar 07, 2025 pm 06:12 PM

Node.js 20通过V8发动机改进可显着提高性能,特别是更快的垃圾收集和I/O。 新功能包括更好的WebSembly支持和精制的调试工具,提高开发人员的生产率和应用速度。

Java的类负载机制如何起作用,包括不同的类载荷及其委托模型?Java的类负载机制如何起作用,包括不同的类载荷及其委托模型?Mar 17, 2025 pm 05:35 PM

Java的类上载涉及使用带有引导,扩展程序和应用程序类负载器的分层系统加载,链接和初始化类。父代授权模型确保首先加载核心类别,从而影响自定义类LOA

Spring Boot Snakeyaml 2.0 CVE-2022-1471问题已修复Spring Boot Snakeyaml 2.0 CVE-2022-1471问题已修复Mar 07, 2025 pm 05:52 PM

本文介绍了SnakeyAml中的CVE-2022-1471漏洞,这是一个允许远程代码执行的关键缺陷。 它详细介绍了如何升级春季启动应用程序到Snakeyaml 1.33或更高版本的降低风险,强调了依赖性更新

冰山:数据湖桌的未来冰山:数据湖桌的未来Mar 07, 2025 pm 06:31 PM

冰山是用于大型分析数据集的开放式桌子格式,可提高数据湖的性能和可伸缩性。 它通过内部元数据管理解决了镶木quet/orc的局限

如何在Java中实施功能编程技术?如何在Java中实施功能编程技术?Mar 11, 2025 pm 05:51 PM

本文使用lambda表达式,流API,方法参考和可选探索将功能编程集成到Java中。 它突出显示了通过简洁性和不变性改善代码可读性和可维护性等好处

如何共享黄瓜中的步骤之间的数据如何共享黄瓜中的步骤之间的数据Mar 07, 2025 pm 05:55 PM

本文探讨了在黄瓜步骤之间共享数据的方法,比较方案上下文,全局变量,参数传递和数据结构。 它强调可维护性的最佳实践,包括简洁的上下文使用,描述性

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
2 周前By尊渡假赌尊渡假赌尊渡假赌
仓库:如何复兴队友
4 周前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒险:如何获得巨型种子
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

EditPlus 中文破解版

EditPlus 中文破解版

体积小,语法高亮,不支持代码提示功能

Dreamweaver Mac版

Dreamweaver Mac版

视觉化网页开发工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),