将 Apache Spark 与 MySQL 集成以读取数据库表
要将 Apache Spark 与 MySQL 连接并将数据库表用作 Spark 数据帧,请按照以下步骤操作:
创造火花Session:
<code class="python">from pyspark.sql import SparkSession # Create a Spark session object spark = SparkSession.builder \ .appName("Spark-MySQL-Integration") \ .getOrCreate()</code>
实例化 MySQL Connector:
<code class="python">from pyspark.sql import DataFrameReader # Create a DataFrameReader object for MySQL connection jdbc_df_reader = DataFrameReader(spark)</code>
配置MySQL连接参数:
<code class="python"># Set MySQL connection parameters jdbc_params = { "url": "jdbc:mysql://localhost:3306/my_db", "driver": "com.mysql.jdbc.Driver", "dbtable": "my_table", "user": "root", "password": "password" }</code>
读取数据库表:
<code class="python"># Read the MySQL table as a Spark dataframe dataframe_mysql = jdbc_df_reader.format("jdbc") \ .options(**jdbc_params) \ .load() # Print the dataframe schema dataframe_mysql.printSchema()</code>
此方法演示了如何将 Apache Spark 与 MySQL 集成,允许您将数据库表作为 Spark 数据帧访问。
以上是如何将 MySQL 表读取为 Spark DataFrame?的详细内容。更多信息请关注PHP中文网其他相关文章!