當訓練資料集和測試資料集的分佈相同時,機器學習模型可以表現出優越的效能。然而在開放世界環境中,模型經常會遇到分佈外(Out-of-Distribution, OOD,下稱「OOD」)樣本,OOD樣本可能會導致模型做出不可預測的行為,而錯誤的後果可能是致命的,尤其是在自動駕駛等高風險場景中[1, 2]。因此OOD偵測對於確保機器學習模式在實際部署中的可靠性至關重要。
大多數OOD檢測方法 [1, 3] 可以基於訓練有素的分佈內 (In-Distribution, ID) 分類器有效地檢測 OOD 樣本。然而,對於不同的ID資料集,它們需要重新訓練分類器才能進行OOD檢測。此外,這些方法僅依賴視覺模式,而忽略了視覺圖像與文字標籤之間的連結。隨著大規模視覺語言模型(Vision-Manguage Models , VLMs,例如CLIP [4])的出現,使得零樣本 OOD 偵測成為了可能[5]。透過建立僅具有 ID 類別標籤的文字分類器,能夠實現在無需重新訓練分類器的情況下跨不同的 ID 資料集檢測 OOD 樣本。
儘管現有的基於CLIP的分佈外檢測方法展現出了令人印象深刻的性能,但是它們在遇到較難檢測的分佈外樣本時常常會檢測失敗,我們認為現有僅依賴ID 類別標籤建構文字分類器的方法很大程度上限制了CLIP 識別來自開放標籤空間樣本的固有能力。如圖1 (a) 所示,僅依賴ID 類別標籤建構文本分類器的方法難以區分較難偵測的OOD樣本 (ID資料集:CUB-200-2011,OOD資料集:Places)。
圖1. 研究動機示意圖:(a) 僅依賴ID 類別標籤構建文本分類器, (b) 使用真實OOD標籤, (c) 使用LLM想像潛在的異常值暴露
在這項工作中,我們提出了一種名為Envisioning Outlier Exposure (EOE) 的分佈外檢測方法,該方法利用透過利用大型語言模型(LLM) 的專家知識和推理能力來想像潛在的異常值暴露,從而提升VLMs的OOD檢測性能(如圖1 (c) 所示),同時無需存取任何實際的OOD 資料。我們設計了(1) 基於視覺相似性的LLM 提示,以產生專門用於OOD 檢測的潛在異常值類標籤,以及(2) 基於潛在異常值懲罰的新評分函數,以有效區分難以識別的OOD 樣本。實驗表明,EOE 在不同的 OOD 任務中實現了優越的性能,並且可以有效地擴展到 ImageNet-1K 資料集。
Ø論文連結:https://arxiv.org/pdf/2406.00806
Ø程式碼連結:https://github.com/tmlr-group/EOE
接下來將簡單地向大家分享我們近期發表在ICML 2024 上的分佈外檢測方向的研究結果。
預備知識
方法介紹
EOE旨在透過利用 LLM 產生潛在的異常值類別標籤來提高零樣本 OOD 偵測效能。然而,由於模型部署時遇到的OOD類別是未知的,那麼,我們應該如何引導 LLM 產生所需的異常值類別標籤?在取得異常值類別標籤後,我們如何才能更好地區分 ID 和 OOD 樣本?為了解決這些問題,我們提出了基於視覺相似性原則設計的專門針對 OOD 檢測的 LLM 提示,並引入了一種新穎的評分函數來更好地區分ID/OOD樣本。我們方法的整體架構如圖 2所示。
圖2. EOE總體框架圖
Fine-grained OOD 檢測也稱為開放集識別,在Fine-grained OOD 檢測中,ID 和OOD 樣本都屬於同一主要類別(例如「鳥”類),且子類之間存在內在的視覺相似性(例如“麻雀”和“燕子”)。因此,指示 LLM 直接提供同一主要類別內的不同子類別更為合適。
以上三種OOD 檢測的 LLM 提示如圖3所示
圖3. 基於視覺相似性原則設計的三類LLM提示
圖4. EOE偽代碼
我們的方法優點總結如下:
EOE 不依賴於未知 OOD 資料的先驗知識,因此特別適合開放世界場景。
零樣本:同一個預訓練模型可有效地應用於各種特定於任務的 ID 資料集,而無需對每個特定 ID 資料集進行單獨訓練。 EOE 僅透過了解 ID 類標籤即可實現卓越的 OOD 偵測效能。
可擴展性和通用性:與同樣產生潛在OOD 類別標籤的現有零樣本 OOD 偵測方法 [6]相比,EOE 可以輕鬆應用於 ImageNet-1K 等大規模資料集。此外,EOE 在不同任務中表現出通用性,包括Far, Near和Fine-grainedOOD 檢測。
實驗結果
我們在不同OOD任務的多個資料集上進行了實驗。表1展示了在ImageNet-1K 上進行Far OOD 檢測實驗結果,其中,Ground Truth表示使用真實OOD標籤時的性能,在實際部署中是不可取得的。結果表明,EOE 與微調方法相當,並超越了 MCM [5]。
表1. Far OOD實驗結果
我們也報告了在Near OOD和Fine-grained OOD任務上的實驗結果,如表2和表3所示,我們的方法均實現了最佳的檢測性能。
表2. Near OOD實驗結果
表3. Fine-grained OOD實驗結果
我們對EOE的各個模型進行了消融函數,包括不同提示的的LLM和不同長度的潛在OOD 類標籤數量。實驗表明,我們設計的得分函數和基於視覺相似性原則設計的LLM prompt獲得了最優的性能,並且我們的方法在不同的LLM和不同長度的潛在OOD 類標籤數量上都獲得了優異的表現。同時,我們也對視覺語言模型的結構進行了消融實驗,詳細的實驗結果請大家參考原文。
圖5. 消融實驗 –不同的得分函數、LLM提示和不同的LLM
圖5. 消融實驗具有潛在OOD 類標籤數量
我們對EO的有效性,實際上,產生的異常類別標籤不太可能有很高的機率命中真實值OOD 類別。這是因為在模型的實際部署中遇到的 OOD 資料是多種多樣,且不可預測的。然而,透過視覺相似性規則引導,即使沒有命中真實的OOD類的情況下,EOE產生的潛在異常類標籤仍然可以提高模型在 OOD 檢測中的表現。
為了說明上述論點,我們展示了透過 T-SNE從標籤匹配分數的 softmax 輸出中得出的視覺化效果。我們的 EOE 與對比方法 MCM 之間的視覺化結果如圖6所示。基於 ImageNet-10 的 ID 類別標籤,LLM 產生基於視覺相似性規則的潛在異常標籤「潛艇」。當遇到 OOD 類 “蒸汽機車”(ImageNet-20 中的類)時,“蒸汽機車” 在 和 中與“潛艇”的相似度最高。因此,EOE 會將其聚類為 “潛艇”,從而將其檢測為 OOD 類。然而,如果沒有潛在的異常類別標籤,我們可以發現 MCM 傾向於將所有 OOD 類別標籤聚集在一起。這可能導致將難以識別的 OOD 樣本識別為 ID 類別。總之,在我們的EOE 框架中,1) 屬於同一類的OOD 樣本傾向於被聚集在一起,2) 同一組的樣本被歸類到與它們在視覺上相似的設想的異常值類中(「蒸汽機車” vs“潛水艇”)。這些觀察結果表明,我們的 EOE 可以在不觸及實際 OOD 類別的情況下增強 OOD 檢測,並且在語義上也更易於解釋。我們希望這項工作能為 OOD 檢測領域的未來研究提供一個新的思路。
圖6. 視覺化結果
參考文獻
[1] Hendrycks, D. and Gimpel, K. A baseline for detecting misclassified and outrycks, D. and Gimpel, K. A baseline for detecting misclassified and out-of-distribution 17.
[2] Yang, J., Zhou, K., Li, Y., and Liu, Z. Generalized out-of-distribution detection: A survey. arXiv preprint arXiv:2110.11334, 2021.
Liu, W., Wang, X., Owens, J., and Li, Y. Energy-based out-of-distribution detection. In NeurIPS, 2020.[4] Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. Learning transferable visual models from natural language supervision. In ICML, 2021.[5] Ming, Y., Cai, Z., Gu, J., Sun, Y., Li, W., and Li, Y. Delving into out-of-distribution detection with vision-language representations. In NeurIPS, 2022.[6] Esmaeilpour, S., Liu, B., Robertson, E., and Shu, L. Zeroshot out-of-distribution detection based on the pretection- trained model clip. In AAAI, 2022.主題組介紹
香港浸會大學可信機器學習和推理課題組(TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士和推理課題組(TMLR Group) 由多名青年教授、博士後研究員、博士生、訪問博士和研究助理共同組成,課題組隸屬於理學院電腦系。課題組專攻可信表徵學習、基於因果推理的可信學習、可信基礎模型等相關的演算法,理論和系統設計以及在自然科學上的應用,具體研究方向和相關成果詳見本組Github (https ://github.com/tmlr-group)。課題組由政府科研基金以及工業界科研基金資助,如香港研究資助局傑出青年學者計劃,國家自然科學基金面上項目和青年項目,以及微軟、英偉達、百度、阿里、騰訊等企業的科研基金。青年教授及資深研究員手把手帶,GPU計算資源充足,長期招收多位博士後研究員、博士生、研究助理及研究實習生。此外,本組也歡迎自費的訪問博士後研究員、博士生和研究助理申請,訪問至少3-6個月,支援遠端訪問。有興趣的同學請發送個人簡歷和初步研究計劃到郵箱 (bhanml@comp.hkbu.edu.hk)。以上是ICML 2024| 大語言模型協助基於CLIP的分佈外偵測任務的詳細內容。更多資訊請關注PHP中文網其他相關文章!