使用 Spark-Submit 将 JAR 文件添加到 Spark 作业
使用 Spark-Submit 时,有多个选项可用于将 JAR 文件添加到 Spark 作业,每个选项都包含它本身对类路径、文件分布和优先级的影响。
ClassPath 效果
Spark-Submit 通过以下选项影响 ClassPath:
- spark.driver.extraClassPath 或--driver-class-path:为驱动程序节点指定额外的类路径。
- spark.executor.extraClassPath:为工作节点指定额外的类路径。
用于要包含的文件在两个 ClassPath 上,都需要在 both 标志中指定。
文件分布
文件分布取决于执行模式:
- 客户端模式: Spark 通过 HTTP 服务器将文件分发到工作节点。
- 集群模式: Spark 不分发文件,您必须通过 HDFS 或其他共享存储手动使它们可供所有工作节点使用。
接受的 URI 格式
Spark-Submit 支持以下 URI 前缀进行文件分发:
- file:: 由驱动程序 HTTP 服务器提供服务。
- hdfs:, http:, https:, ftp:: 从指定的 URI 拉取。
- local:: 必须是每个工作节点上的本地文件。
受影响的选项
问题中提到的选项影响 JAR 文件处理,如下所示:
- --jars 和SparkContext.addJar:不将 JAR 添加到 ClassPaths 的等效选项。
- SparkContext.addFile:用于不是运行时依赖项的任意文件。
- --conf spark.driver.extraClassPath 或 - -driver-class-path:驱动程序类路径修改的别名。
- --conf spark.driver.extraLibraryPath 或 --driver-library-path:驱动程序库路径的别名。
- -- conf spark.executor.extraClassPath:用于无法包含在 über JAR 中的运行时依赖项。
- --conf spark.executor.extraLibraryPath:指定 JVM 的 java.library.path 选项。
优先级
直接在 SparkConf 上设置的属性具有最高优先级,其次是 Spark-Submit 标志,然后是 Spark-defaults.conf 中的选项。因此,代码中设置的任何值都将覆盖相应的标志或选项。
同时添加 JAR 文件
在客户端模式下,可以安全地使用所有三个主要选项添加 JAR 文件:
spark-submit --jars additional1.jar,additional2.jar \ --driver-class-path additional1.jar:additional2.jar \ --conf spark.executor.extraClassPath=additional1.jar:additional2.jar \ --class MyClass main-application.jar
但是,在集群模式下,您应该只使用 --jars 添加文件,并自己手动将它们分发到工作节点。应避免将 JAR 文件传递给 --driver-library-path 等冗余参数。
以上是如何使用 Spark-Submit 将 JAR 文件添加到 Spark 作业中?执行此操作有哪些不同的选项和注意事项?的详细内容。更多信息请关注PHP中文网其他相关文章!

本文分析了2025年的前四个JavaScript框架(React,Angular,Vue,Susve),比较了它们的性能,可伸缩性和未来前景。 尽管由于强大的社区和生态系统,所有这些都保持占主导地位,但它们的相对人口

本文讨论了使用咖啡因和Guava缓存在Java中实施多层缓存以提高应用程序性能。它涵盖设置,集成和绩效优势,以及配置和驱逐政策管理最佳PRA

Node.js 20通过V8发动机改进可显着提高性能,特别是更快的垃圾收集和I/O。 新功能包括更好的WebSembly支持和精制的调试工具,提高开发人员的生产率和应用速度。

Java的类上载涉及使用带有引导,扩展程序和应用程序类负载器的分层系统加载,链接和初始化类。父代授权模型确保首先加载核心类别,从而影响自定义类LOA

本文介绍了SnakeyAml中的CVE-2022-1471漏洞,这是一个允许远程代码执行的关键缺陷。 它详细介绍了如何升级春季启动应用程序到Snakeyaml 1.33或更高版本的降低风险,强调了依赖性更新

本文使用lambda表达式,流API,方法参考和可选探索将功能编程集成到Java中。 它突出显示了通过简洁性和不变性改善代码可读性和可维护性等好处

本文探讨了在黄瓜步骤之间共享数据的方法,比较方案上下文,全局变量,参数传递和数据结构。 它强调可维护性的最佳实践,包括简洁的上下文使用,描述性


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

Dreamweaver Mac版
视觉化网页开发工具

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),