在 Apache Spark 2.0.0 中从外部数据库获取特定查询结果
使用 PySpark 在 Apache Spark 2.0.0 中处理外部数据库时,用户可能希望从特定查询中获取数据,而不是获取整个表。这可以增强性能并减少数据传输。
问题:
在以下 PySpark 代码中,从名为“schema.tablename”的数据库表加载 df DataFrame 。我们如何修改代码以从自定义查询的结果集中获取数据?
from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema.tablename")\ .option("user", "username")\ .option("password", "password")\ .load()
答案:
获取自定义查询的结果集查询,将查询作为 Spark DataFrameReader 选项中的“dbtable”参数提供。查询必须用括号括起来,并为临时表名称起别名。
... .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp") ...
通过将子查询作为“dbtable”参数传递,Spark 将执行查询并将结果数据加载到 DataFrame 中。这允许用户从外部数据库检索特定数据,而无需获取整个表的开销。
以上是如何使用 PySpark 的 JDBC 从外部数据库获取特定查询结果?的详细内容。更多信息请关注PHP中文网其他相关文章!

本文讨论了使用MySQL的Alter Table语句修改表,包括添加/删除列,重命名表/列以及更改列数据类型。

文章讨论了为MySQL配置SSL/TLS加密,包括证书生成和验证。主要问题是使用自签名证书的安全含义。[角色计数:159]

文章讨论了流行的MySQL GUI工具,例如MySQL Workbench和PhpMyAdmin,比较了它们对初学者和高级用户的功能和适合性。[159个字符]

本文讨论了使用Drop Table语句在MySQL中放下表,并强调了预防措施和风险。它强调,没有备份,该动作是不可逆转的,详细介绍了恢复方法和潜在的生产环境危害。

本文讨论了在PostgreSQL,MySQL和MongoDB等各个数据库中的JSON列上创建索引,以增强查询性能。它解释了索引特定的JSON路径的语法和好处,并列出了支持的数据库系统。

文章讨论了使用准备好的语句,输入验证和强密码策略确保针对SQL注入和蛮力攻击的MySQL。(159个字符)


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

EditPlus 中文破解版
体积小,语法高亮,不支持代码提示功能

ZendStudio 13.5.1 Mac
功能强大的PHP集成开发环境

VSCode Windows 64位 下载
微软推出的免费、功能强大的一款IDE编辑器

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

Dreamweaver Mac版
视觉化网页开发工具