VLDB 2023國際會議已在加拿大溫哥華成功舉辦。 VLDB會議是資料庫領域歷史悠久的三大頂尖會議之一,其全稱為國際大型資料庫會議。每屆會議都集中展示了當前資料庫研究的前沿方向、工業界的最新技術以及各國的研發水平,吸引了全球頂尖研究機構的投稿
該會議對系統創新性、完整性、實驗設計等方面都有極高的要求。 VLDB 的論文接受率整體較低,約18%,只有貢獻很大的論文才有可能被錄用。今年的競爭更加激烈。根據官方數據顯示,今年VLDB 共有9篇論文獲得了最佳論文獎項,其中包括史丹佛大學、卡內基美隆大學、微軟研究院、VMware 研究院、Meta 等全球知名大學、研究機構和科技巨頭的身影
其中由第四範式、清華大學以及新加坡國立大學聯合完成的"FEBench: A Benchmark for Real-Time Relational Data Feature Extraction" 論文,獲得了最佳工業界論文Runner Up 獎項。
這篇論文是由第四範式、清華大學和新加坡國立大學合作完成的。論文提出了一個基於工業界真實場景累積的即時特徵計算測試基準,用於評估基於機器學習的即時決策系統
請點擊以下連結查看論文:https://github.com/decis-bench/febench/blob/main/report/febench.pdf
專案背景
基於人工智慧的決策系統在許多行業場景中已廣泛應用。其中,許多場景涉及基於即時數據的計算,例如金融業的反詐騙和零售業的即時線上推薦。機器學習驅動的即時決策系統通常包括兩個主要計算環節:特徵和模型。由於業務邏輯的多樣性以及線上低延遲和高並發的需求,特徵計算往往成為整個決策系統的瓶頸。因此,需要進行大量的工程實踐來建立一個可用、穩定和高效的即時特徵計算平台。下圖1展示了一個常見的反詐騙應用程式的即時特徵計算場景。透過基於原始的刷卡流水記錄表格進行特徵計算,產生新的特徵(例如最近10秒內的最大/最小/平均刷卡金額等特徵),然後將其輸入到下游模型進行即時推理重寫後的內容:圖1. 即時特徵運算在反詐騙應用程式中的應用程式
一般而言,即時特徵運算平台需要滿足以下兩個基本要求:圖2. 即時特徵計算平台架構及工作流程
如上圖2 列舉了一個常見的即時特徵計算平台的架構。簡單來說主要包含了離線計算引擎和線上計算引擎,其中的關鍵點是確保離線和線上計算引擎的計算邏輯一致性。目前市面上有許多特徵平台可以滿足上述要求,構成一個完整的即時特徵運算平台,包括通用系統如 Flink,或專用系統如 OpenMLDB、Tecton、Feast 等。但是,目前工業界缺少一個面向即時特徵的專用基準來對這類系統的性能進行嚴謹科學的評估。針對該需求,本論文作者建構了 FEBench,一個即時特徵計算基準測試,用於評估特徵計算平台的性能,分析系統的整體延遲、長尾延遲和並發性能等。技術原理
FEBench 的基準建構主要包括三個方面的工作:資料集收集、查詢產生的內容需要進行改寫和重寫內容時,需要選擇適當的模板資料集蒐集
研究團隊總共收集了118 個可以用於即時特徵計算場景的資料集,這些資料集來自Kaggle,Tianchi,UCI ML,KiltHub 等公開數據網站以及第四範式內部可公開數據,涵蓋了工業界的典型使用場景,如金融、零售、醫療、製造、交通等行業場景。研究小組進一步依照表格數量及資料集大小將收集到的資料集進行了歸類,如下圖 3 所示。
重寫內容:FEBench中資料集的表格數量和資料集大小的圖表如下:
##查詢產生的內容需要進行改寫
由於資料集數量較大,為每一個資料集人工產生特徵抽取的計算邏輯工作量十分巨大,因此研究人員利用瞭如AutoCross(參考論文: AutoCross: Automatic Feature Crossing for Tabular Data in Real-World Applications) 等自動機器學習技術,來為收集到的資料集自動化產生查詢。 FEBench 的特徵選擇和查詢產生的內容需要進行改寫過程包括以下四個步驟(如下圖4 所示):圖4. FEBench 中查詢的產生流程
重寫內容時,需要選擇適當的模板
在產生每個資料集的查詢後,研究人員進一步使用聚類演算法來選擇代表性的查詢作為查詢模板,以減少對相似任務的重複測試。針對收集到的118個資料集和特徵查詢,使用DBSCAN演算法對這些查詢進行聚類,具體步驟如下:圖5. 118 個特徵查詢透過聚類分析得到6 個集群,產生查詢模板(Q0 -5)
最終,根據聚類結果,將118 個特徵查詢分為6 個集群。對於每個集群,選擇質心附近的查詢作為候選模板。此外,考慮到不同應用場景下的人工智慧應用可能有不同的特徵工程需求,圍繞每個叢集的質心,嘗試選擇來自不同場景的查詢,以更好地覆蓋不同的特徵工程場景。最終,從 118 個特徵查詢中選擇了 6 個查詢模板,適用於不同場景,包括交通、醫療保健、能源、銷售,以及金融交易。這 6 個查詢模板最終構成了 FEBench 最為核心的資料集和查詢,用於進行即時特徵計算平台的效能測試。#需要重寫的內容是:基準評測(OpenMLDB與Flink)
在研究中,研究人員使用了FEBench來測試兩個典型的工業界系統,分別是Flink和OpenMLDB。 Flink是一個通用的批次和流處理一致性計算平台,而OpenMLDB則是一個專用的即時特徵計算平台。透過測試和分析,研究人員發現了這兩個系統各自的優缺點以及背後的原因。實驗結果顯示,由於架構設計的不同,Flink和OpenMLDB在效能上有差異。同時,這也說明了FEBench在分析目標系統能力上的重要性。總結來說,研究的主要結論如下
Flink 比 OpenMLDB 在延遲上慢兩個數量級(圖 6)。研究人員分析,其造成差距的主要原因在於兩者係統架構的不同實現方式,其中OpenMLDB 作為實時特徵計算的專用系統,包含了基於內存的雙層跳表等專門針對時序數據優化的數據結構,最終相比較於Flink,在特徵計算場景上有明顯的效能優勢。當然 Flink 作為一個通用系統,在可適用場景上比 OpenMLDB 更為廣泛。
#圖6. OpenMLDB 與Flink 的TP-50 延遲比較
OpenMLDB 表現出明顯的長尾延遲問題,而Flink 的尾延遲更穩定(圖7)。請注意,以下數字顯示均為歸一化到 OpenMLDB 和 Flink 各自的 TP-50 下的延遲效能,並不代表絕對效能的比較。 重寫為:OpenMLDB 在尾延遲方面有明顯的問題,而 Flink 的尾延遲更穩定(見圖7)。要注意的是,下面的數字是將延遲效能歸一化到OpenMLDB 和Flink 分別在TP-50 下的效能,而不是絕對效能的比較
執行計畫分析:以Q0 為例,下圖9 比較了Flink 和OpenMLDB 的執行計畫差異。 Flink 中的計算運算子花費最多的時間,而 OpenMLDB 透過最佳化視窗處理和使用自訂聚合函數等最佳化技術減少了執行延遲。
以上是VLDB 2023獎項公佈,清華、第四範式、NUS聯合論文獲最佳工業界論文獎的詳細內容。更多資訊請關注PHP中文網其他相關文章!