SQL 查詢中的UDF 和笛卡爾積
在SQL 查詢中使用使用者定義函數(UDF) 可能會導致笛卡爾積而不是預期的完整外連接。當一個表中的所有行與另一個表中的所有行組合時,就會出現笛卡爾積,產生比完全外連接大得多的資料集。
為什麼 UDF 會導致笛卡兒積?
UDF 引入了額外的複雜性,阻礙了查詢引擎的最佳化。 UDF 可以接受任意數量的具有非確定性行為的參數。要評估所有可能的行組合的 UDF,查詢引擎必須執行笛卡爾積。
相反,列之間的簡單相等比較(例如 t1.foo = t2.bar)具有可預測的行為。查詢引擎可以使用它透過根據 foo 和 bar 列打亂行來優化連接,從而避免使用笛卡爾積。
強制外部聯結
不幸的是,在上面的範例中,沒有直接的方法可以對笛卡爾積強制進行外部聯接。唯一的選擇是修改 Spark SQL 引擎。
如上所述,笛卡爾積是 UDF 的任意性和非確定性性質的結果。如果不引入額外的約束,查詢引擎就無法最佳化它們。
以上是為什麼 SQL 查詢中的 UDF 有時會產生笛卡爾積而不是外部連接?的詳細內容。更多資訊請關注PHP中文網其他相關文章!