搜尋
首頁科技週邊人工智慧生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

目前主流語意分割演算法本質上是基於softmax 分類器的判別式分類模型,直接對p (class|pixel feature) 進行建模,而完全忽略了潛在的像素資料分佈,即p ( class|pixel feature)。這限制了模型的表達能力以及在 OOD (out-of-distribution) 資料上的泛化性。

在最近的一項研究中,來自浙江大學、雪梨科技大學、百度研究院的研究者提出了一種全新的語意分割範式—— 基於高斯混合模型(GMM)的生成式語意分割模型GMMSeg。

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

  • 論文連結:https://arxiv.org/abs/2210.02025
  • #程式碼連結:https://github.com/leonnnop/GMMSeg

GMMSeg 對像素與類別的聯合分佈進行建模,透過EM 演算法在像素特徵空間學習高斯混合分類器(GMM Classifier),以產生式範式對每個類別的像素特徵分佈進行精細捕捉。同時,GMMSeg 採用判別式損失來端到端的最佳化深度特徵提取器。這使得 GMMSeg 同時具備判別式與生成式模式的優點。

實驗結果表明,GMMSeg 在多種分割網路架構(segmentation architecture) 及骨幹網路(backbone network) 上都獲得了效能提升;同時,無需任何後處理或微調, GMMSeg 可以直接被應用到異常分割(anomaly segmentation) 任務。

迄今為止,這是第一次有語意分割方法能夠使用單一的模型實例,在閉集(closed-set) 及開放世界(open-world) 條件下同時取得進階效能。這也是生成式分類器第一次在大規模視覺任務中展現優勢。

判別式v.s​​. 生成式分類器

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

#在深入探討現有分割範式以及所提方法之前,這裡簡略引入判別式以及生成式分類器的概念。

假設有資料集合D,其包含成對的樣本- 標籤對(x, y);分類器的最終目標是預測樣本分類機率p ( y|x)。分類方法可以分為兩類:判別式分類器以及生成式分類器。

  • 判別式分類器:直接建模條件機率p (y|x);其僅僅學習分類的最優決策邊界,而完全不考慮樣本本身的分佈,也因此無法反映樣本的特性。
  • 生成式分類器:首先建模聯合機率分佈p (x, y),而後透過貝葉斯定理推導出分類條件機率;其明確地對資料本身的分佈進行建模,往往針對每一個類別都會建立對應的模型。相較於判別式分類器,其充分考慮了樣本的特徵資訊。

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

主流語意分割範式:判別式Softmax 分類器

目前主流的逐像素分割模型大多使用深度網路會抽取像素特徵,而後使用softmax 分類器進行像素特徵分類。其網路架構由兩部分組成:

第一部分為像素特徵提取器,其典型架構為編碼器- 解碼器對,透過將RGB 空間的像素輸入映射到D - 維度的高維空間來獲取像素特徵。

第二部分為像素分類器,即主流的softmax 分類器;其將輸入的像素特徵編碼為C - 類實數輸出(logits),而後利用softmax 函數對輸出(logits)歸一化並賦予機率意義,即利用logits 計算像素分類的後驗機率:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

最終,由兩個部分構成的完整模型將透過cross-entropy 損失進行端到端的最佳化:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

##在此過程中,模型忽略了像素本身的分佈,而直接對像素分類預測的條件機率p (c|x) 進行估計。由此可見,主流的 softmax 分類器本質為判別式分類器

判別式分類器結構簡單,並因其最佳化目標直接針對於縮小判別誤差,往往能夠取得優異的判別效能。然而同時,其有一些尚未引起已有工作重視的致命缺點,極大的影響了softmax 分類器的分類性能及泛化性:

  • 首先,其僅僅對決策邊界進行建模;完全忽略了像素特徵的分佈,也因而無法對每一個類別的具體特性進行建模與利用;削弱了其泛化性以及表達能力。
  • 其次,其使用單一的參數對(w,b) 建模一個類別;換言之,softmax 分類器依賴於單模分佈(unimodality) 假設;這種極強且過於簡化的假設在實際應用往往不能成立,這導致其只能夠取得次優的性能。
  • 最後,softmax 分類器的輸出無法準確反映真實的機率意義;其最終的預測只能作為與其他類別進行比較時的參考。這也正是大量主流分割模式較難偵測出 OOD 輸入的根本原因。

針對這些問題,作者認為應該對目前主流的判別式範式進行重新思考,並在本文中給出了對應的方案:生成式語義分割模型— —GMMSeg。

產生式語意分割模型:GMMSeg

作者從生成式模型的角度重新整理了語意分割過程。相較於直接建模分類機率p (c|x),生成式分類器對聯合分佈p (x, c) 進行建模,而後使用貝葉斯定理推導出分類機率:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

其中,出於泛化性考慮,類別先驗p (c) 往往被設定為uniform 分佈,而如何對像素特徵的類別條件分佈p (x|c) 進行建模,就成為了目前的首要問題。

在本文中,即GMMSeg 中,採用高斯混合模型對p (x|c) 進行建模,其形式如下:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

在分模型(component) 數目不受限的情況下,高斯混合模型理論上能夠擬合任意的分佈,因而十分優雅且強大;同時,其混合模型的本質也使得建模多模分佈(multimodality),即建模類內變化,變得可行。基於此,本文採用極大似然估計來最佳化模型的參數:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

#其經典的解法為EM 演算法,即透過交替執行E-M - 兩步驟逐步最佳化F - 函數:#

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

具體到高斯混合模型的最佳化;EM 演算法實際上在 E - 步驟中,對資料點屬於每一個分模型的機率進行了重新估計。換言之,其相當於在 E - 步中對像素點進行了軟聚類 (soft clustering);而後,在 M - 步,即可利用聚類結果,再次更新模型參數。

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

然而在實際應用中,作者發現標準的 EM 演算法收斂緩慢,且最終結果較差。作者懷疑是由於 EM 演算法對參數最佳化初始值過於敏感,導致其難以收斂到更優的局部極值點。受到近期一系列基於最優傳輸理論(optimal transport) 的聚類演算法的啟發,作者對混合分模型分佈額外引入了一個uniform 先驗:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

對應的,參數最佳化過程中的E - 步驟被轉換為約束最佳化問題,如下:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

##這個過程可以被直觀的理解成,對聚類過程引入了一個均分的限制:在聚類過程中,資料點能夠被一定程度上均勻的分配給每一個分模型。引入此約束之後,此最佳化過程就等價於下式列出的最優傳輸問題:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

#此式可以利用Sinkhorn-Knopp算法快速求解。而整個改進後的最佳化過程被命名為 Sinkhorn EM,其被一些理論工作證明,具有與標準 EM 演算法相同的全局最優解,且更不容易陷入局部最優解。

線上混合(Online Hybrid) 優化

之後,在完整的優化過程中,文章中使用了一種在線混合(online hybrid) 的優化模式:透過生成式Sinkhorn EM,在逐漸更新的特徵空間中,不斷對高斯混合分類器進行最佳化;而對於完整框架中另一個部分,即像素特徵提取器部分,則基於生成式分類器的預測結果,使用判別式cross-entropy 損失進行最佳化。兩個部分交替優化,互相對齊,使得整個模型緊密耦合,並且能夠進行端到端的訓練:

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

在此過程中,特徵提取部分只透過梯度反向傳播優化;而生成式分類器部分,則只透過SinkhornEM 進行最佳化。正是這種交替式最佳化的設計,使得整個模型能夠緊湊的融合在一起,並同時繼承來自判別式以及生成式模型的優勢。

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

最終,GMMSeg 受益於其生成式分類的架構以及線上混合的訓練策略,展示出了判別式softmax 分類器所不具有的優勢:

  • 其一,受惠於其通用的架構,GMMSeg 與大部分主流分割模型相容,即與使用softmax 進行分類的模型相容:只需要替換判別式softmax 分類器,即可無痛增強現有模型的效能。
  • 其二,由於hybrid 訓練模式的應用,GMMSeg 合併了生成式以及判別式分類器的優點,且一定程度上解決了softmax 無法建模類別內變化的問題;使得其判別性能大為提升。
  • 其三,GMMSeg 明確建模了像素特徵的分佈,即p (x|c);GMMSeg 能夠直接給出樣本屬於各個類別的機率,這使得其能夠自然的處理未曾見過的OOD 資料。

實驗結果

實驗結果表明,不論是基於CNN 架構或基於Transformer 架構,在廣泛使用的語義分割資料集(ADE20K, Cityscapes , COCO-Stuff) 上,GMMSeg 都能夠取得穩定且明顯的效能提升。

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

除此之外,在例外分割任務中,無需對在閉集任務,即常規語意分割任務中訓練完畢的模型做任何的修改,GMMSeg 即可在所有一般評量指標上,超越其他需要特殊後處理的方法。

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別


生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別

#

以上是生成式語意分割新範式GMMSeg,可同時處理閉集與開集識別的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
外推指南外推指南Apr 15, 2025 am 11:38 AM

介紹 假設有一個農民每天在幾週內觀察農作物的進展。他研究了增長率,並開始思考他的植物在幾週內可以生長的高度。從Th

軟AI的興起及其對當今企業的意義軟AI的興起及其對當今企業的意義Apr 15, 2025 am 11:36 AM

軟AI(被定義為AI系統,旨在使用近似推理,模式識別和靈活的決策執行特定的狹窄任務 - 試圖通過擁抱歧義來模仿類似人類的思維。 但是這對業務意味著什麼

為AI前沿的不斷發展的安全框架為AI前沿的不斷發展的安全框架Apr 15, 2025 am 11:34 AM

答案很明確 - 只是雲計算需要向雲本地安全工具轉變,AI需要專門為AI獨特需求而設計的新型安全解決方案。 雲計算和安全課程的興起 在

生成AI的3種方法放大了企業家:當心平均值!生成AI的3種方法放大了企業家:當心平均值!Apr 15, 2025 am 11:33 AM

企業家,並使用AI和Generative AI來改善其業務。同時,重要的是要記住生成的AI,就像所有技術一樣,都是一個放大器 - 使得偉大和平庸,更糟。嚴格的2024研究O

Andrew Ng的新簡短課程Andrew Ng的新簡短課程Apr 15, 2025 am 11:32 AM

解鎖嵌入模型的力量:深入研究安德魯·NG的新課程 想像一個未來,機器可以完全準確地理解和回答您的問題。 這不是科幻小說;多虧了AI的進步,它已成為R

大語言模型(LLM)中的幻覺是不可避免的嗎?大語言模型(LLM)中的幻覺是不可避免的嗎?Apr 15, 2025 am 11:31 AM

大型語言模型(LLM)和不可避免的幻覺問題 您可能使用了諸如Chatgpt,Claude和Gemini之類的AI模型。 這些都是大型語言模型(LLM)的示例,在大規模文本數據集上訓練的功能強大的AI系統

60%的問題 -  AI搜索如何消耗您的流量60%的問題 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明,根據行業和搜索類型,AI概述可能導致有機交通下降15-64%。這種根本性的變化導致營銷人員重新考慮其在數字可見性方面的整個策略。 新的

麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心麻省理工學院媒體實驗室將人類蓬勃發展成為AI R&D的核心Apr 15, 2025 am 11:26 AM

埃隆大學(Elon University)想像的數字未來中心的最新報告對近300名全球技術專家進行了調查。由此產生的報告“ 2035年成為人類”,得出的結論是,大多數人擔心AI系統加深的採用

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),