Apache Spark と MySQL の統合: データベース テーブルを Spark DataFrame に読み取る
Spark と MySQL を統合すると、MySQL データベース テーブルにシームレスにアクセスして処理できるようになりますSpark アプリケーション内のデータ。これを実現する方法は次のとおりです。
PySpark から、次のコード スニペットを利用できます。
<code class="python">dataframe_mysql = mySqlContext.read.format("jdbc").options( url="jdbc:mysql://localhost:3306/my_bd_name", driver="com.mysql.jdbc.Driver", dbtable="my_tablename", user="root", password="root").load()</code>
このコードは、MySQL データベースへの JDBC 接続を確立し、指定されたデータベース テーブルを MySQL データベースにロードします。 dataframe_mysql という名前の Spark DataFrame。
その後、Spark の豊富な API を使用して、DataFrame でさまざまなデータ変換や操作を実行できます。たとえば、テーブルのデータをフィルタリング、集計し、他のデータ ソースと結合できます。
この統合が機能するには、MySQL JDBC ドライバーが Spark アプリケーションのクラスパスに含まれていることを確認する必要がある場合があることに注意してください。 .
以上がPySpark を使用して MySQL データベース テーブルを Spark DataFrame に読み取る方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。