Heim >Datenbank >MySQL-Tutorial >Wie rufe ich bestimmte Abfrageergebnisse aus einer externen Datenbank in einen Spark-DataFrame ab?
In Apache Spark ist es möglich, eine Verbindung zu externen Datenbanken herzustellen und Daten in Spark DataFrames zu laden mit der Lesemethode. Beim Lesen aus einer Datenbanktabelle besteht das Standardverhalten darin, die gesamte Tabelle abzurufen. In bestimmten Szenarien kann es jedoch wünschenswert sein, nur die Ergebnisse einer bestimmten Abfrage abzurufen.
Mit PySpark können Sie eine SQL-Abfrage als „ dbtable“-Option beim Lesen aus einer Datenbank. Dadurch können Sie die Ergebnismenge einer Abfrage anstelle der gesamten Tabelle abrufen.
from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp")\ .option("user", "username")\ .option("password", "password")\ .load()
In diesem Beispiel wird die Abfrage (SELECT foo, bar FROM schema.tablename) in der externen Datenbank ausgeführt und Die Ergebnismenge wird in den Spark DataFrame df geladen.
Das obige ist der detaillierte Inhalt vonWie rufe ich bestimmte Abfrageergebnisse aus einer externen Datenbank in einen Spark-DataFrame ab?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!