在Apache Spark 中,從外部資料庫取得資料通常是透過使用DataFrameReader 載入整個表格來完成的。但是,有時可能需要僅獲取特定查詢的結果。
在 Apache Spark 2.0.0 中,可以將子查詢指定為 dbtable 參數從 JDBC 來源讀取時。這允許您獲取特定查詢的結果而不是整個表。
考慮用Pyspark 編寫的以下程式碼片段:
在此範例中,而不是取得整個表schema.tablename 表,程式碼執行子查詢(SELECT foo, bar FROM schema .tablename) AS tmp 並將結果儲存在暫存表tmp 中。然後,DataFrameReader 將暫存表 tmp 中的資料載入到 DataFrame df 中。
以上是如何在 Apache Spark 2.0.0 中從外部資料庫取得特定查詢結果?的詳細內容。更多資訊請關注PHP中文網其他相關文章!