解决 Apache Spark 中的依赖问题
Apache Spark 动态构造其类路径,增加了其对 java.lang.ClassNotFoundException 等依赖问题的敏感性,对象 x 不是包 y 的成员,并且java.lang.NoSuchMethodError.
解决这些问题的关键在于理解 Spark 应用程序的各个组件:
-
驱动程序: 执行应用程序逻辑并管理集群连接。
-
集群管理器:分配资源应用程序的(执行器)。
-
执行器:执行实际的处理任务。
每个组件都需要特定的类,如下图所示:
[班级分班概述图图像]
Spark代码:
- 必须存在于所有组件中以促进通信。
- 在所有组件中使用相同的 Scala 和 Spark 版本。
仅限驾驶员代码:
分布式代码:
- 必须被运送到执行者进行处理。
- 包括用户转换及其依赖项。
依赖关系解析指南:
-
Spark 代码:
- 全部使用一致的 Spark 和 Scala 版本
- 对于独立模式,驱动程序必须与主节点和执行器上的 Spark 版本匹配。
- 对于 YARN/Mesos,在启动 SparkSession 时提供正确的 Spark 版本。将所有 Spark 依赖项运送到执行器。
-
驱动程序代码:
- 打包为单个或多个 jar,确保包含所有 Spark 依赖项和用户
-
分布式代码:
- 打包为库,包括用户代码和依赖项。
- 使用spark.jars将库发送给执行者
最佳实践:
- 使用分布式代码创建库,将它们打包为常规和胖罐子。
- 构建依赖于这些库和 Spark 的驱动程序应用程序(具体
- 将驱动程序应用程序打包为 fat jar。
- 将spark.jars 设置为分布式代码的位置。
- 将spark.yarn.archive 设置为Spark 的位置二进制文件。
以上是如何有效解决 Apache Spark 应用程序中的依赖冲突?的详细内容。更多信息请关注PHP中文网其他相关文章!