基於Transformer的視覺基礎模型在各種下游任務,如分割和檢測中都展現出了非常強大的性能,並且DINO等模型經過自監督訓練後已經湧現出了語義的分割屬性。
視覺Transformer模型經過有監督分類訓練後,並沒有出現類似的湧現能力,這一點令人感到奇怪
最近,馬毅教授的團隊研究了基於Transformer架構的模型,以探索湧現分割能力是否僅僅是複雜的自監督學習機制所導致的結果,或者是否可以透過適當設計模型架構,在更通用的條件下實現相同的湧現
#程式碼連結:https://github.com/Ma-Lab-Berkeley/CRATE
請點擊以下連結查看論文:https://arxiv.org/abs/2308.16271
經過大量實驗,研究人員證明了使用白盒Transformer模型CRATE時,其設計明確地模擬並追求資料分佈中的低維結構,以最小化的監督訓練配方出現整體和部分層級的分割屬性
透過分層的細粒度分析,我們得出了一個重要結論:湧現屬性有力地證實了白盒網路的設計數學功能。基於這一結果,我們提出了一種設計白盒基礎模型的方法,該模型不僅具有高性能,而且在數學上完全可解釋
馬毅教授也表示,深度學習的研究將會逐漸從經驗設計轉向理論指導。
#DINO的分割湧現能力指的是DINO模型在處理語言任務時,能夠將輸入的句子分割成較小的片段,並對每個片段進行獨立的處理。這種能力使得DINO模型能夠更好地理解複雜的句子結構和語義訊息,從而提高其在自然語言處理領域的性能
智慧系統中的表徵學習旨在將世界的高維度、多模態感官資料(圖像、語言、語音)轉換為更緊湊的形式,同時保留其基本的低維結構,實現高效的識別(例如分類)、分組(例如分割)和追蹤。
深度學習模型的訓練通常採用數據驅動的方式,透過輸入大規模數據,以自監督的方式進行學習
#在視覺基礎模型中,DINO模型展現了令人驚訝的湧現能力,即使沒有經過有監督分割訓練,ViTs也能辨識出顯式的語意分割資訊。自監督Transformer架構的DINO模型在這方面表現出色
後續有工作研究瞭如何在DINO模型中利用這種分割信息,並在下游任務中,如分割、檢測等實現了最先進的性能,也有工作證明了用DINO訓練的ViTs中的倒數第二層特徵與視覺輸入中的顯著性信息強烈相關,如區分前景、背景和物體邊界,從而提升圖像分割和其他任務的性能。
為了讓分割屬性得以凸顯,DINO需要在訓練過程中巧妙地結合自監督學習、知識蒸餾和權重平均的方法
目前還不清楚DINO中引入的每個組件是否對於分割遮罩的湧現來說必不可缺,儘管DINO也採用ViT架構作為其主幹,但在分類任務上訓練的普通有監督ViT模型中,並沒有觀察到分割湧現行為。
CRATE的湧現
#基於DINO的成功案例,研究者想要探究,複雜的自監督學習管道對於獲得類似Transformer的視覺模型中的湧現屬性是否是必要的。
研究人員認為,在Transformer模型中促進分割屬性的一種有前途的方法是,在考慮輸入資料結構的情況下設計Transformer模型架構,也代表了表徵學習經典方法與現代數據驅動的深度學習框架的結合。
與目前主流的Transformer模型對比,這種設計方法也可以叫做白盒Transformer模型。
基於馬毅教授組先前的工作,研究人員對白盒架構的CRATE模型進行了廣泛的實驗,證明了CRATE的白盒設計是自註意力圖中分割屬性湧現的原因。
需要重新表達的內容是:定性評估
研究人員使用基於[CLS] token的注意力圖方法對模型進行解釋和視覺化,發現CRATE中的查詢-鍵-值矩陣都是相同的
可以觀察到CRATE模型的自註意力圖(self-attention map)可以對應到輸入影像的語意上,模型的內部網路對每個影像都進行了清晰的語意分割,實現了類似DINO模型的效果。
普通的ViT在有監督分類任務上訓練時,並沒有展現出類似的分割屬性
根據先前關於視覺化影像學習逐塊深度特徵的研究,研究人員對CRATE和ViT模型的深度token表徵進行了主成分分析(PCA)研究
可以發現,CRATE可以在沒有分割監督訓練的情況下,依然可以捕捉到影像中物體的邊界。
而且,主要成分(principal components)也顯示了token和物體之間相似部分的特徵對齊,例如紅色通道對應馬腿
而有監督ViT模型的PCA可視化結構化程度相當低。
定量評估
#研究人員對CRATE湧現的分割屬性進行評估時,使用了現有的分割和物件偵測技術
從自註意力圖可以看到,CRATE用清晰的邊界明確地捕獲了物件層級的語義,為了定量測量分割的質量,研究人員利用自注意力圖產生分割遮罩(segmentation mask),對比其與真實遮罩之間的標準mIoU(平均交並比)。
透過實驗結果可以看出,CRATE在視覺和mIOU評分方面明顯優於ViT,這表明CRATE的內部表示對於產生分割遮罩任務更有效
物件偵測與細粒度分割
#為了進一步驗證和評估CRATE捕獲的豐富語意信息,研究人員採用了一種高效的對象檢測和分割方法MaskCut,無需人工標註即可獲得自動化評估模型,可以基於CRATE學到的token表徵從圖像中提取更細粒度的分割。
在COCO val2017上的分割結果可以看到,有CRATE的內部表徵在偵測和分割指標上都比有監督ViT,有監督ViT特徵的MaskCut在某些情況下甚至完全無法產生分割遮罩。
CRATE中深度的作用
CRATE的每一層設計都遵循相同的概念目的:優化稀疏速率降低,並將token分佈轉換為緊湊和結構化的形式。 重寫後:CRATE的每個層次的設計都遵循相同的理念:優化稀疏速率的降低,並將token的分佈轉化為緊湊且結構化的形式
假設CRATE中語意分割能力的湧現類似於「表徵Z中屬於相似語意類別token的聚類」,預期CRATE的分割表現可以隨著深度的增加而提高。
為了測試這一點,研究人員利用MaskCut管道來定量評估跨不同層的內部表徵的分割性能;同時應用PCA可視化來理解分割是如何隨深度加深而湧現的。
從實驗結果可以觀察到,當使用來自更深層的表徵時,分割分數提高了,與CRATE的增量最佳化設計非常一致。
相比之下,即使ViT-B/8的效能在後面的圖層中略有提高,但其分割分數明顯低於CRATE,PCA結果顯示,從CRATE深層擷取的表徵會逐漸更關注前景對象,並且能夠捕捉紋理層次的細節。
CRATE的熔化實驗
#CRATE中的注意力區塊(MSSA)和MLP塊(ISTA)與ViT中的注意力塊有所不同
為了研究每個組件對CRATE湧現分割屬性的影響,研究人員選擇了三個CRATE變體: CRATE,CRATE-MHSA,CRATE-MLP。這些變體分別代表了ViT中的注意區塊(MHSA)和MLP區塊
#研究人員在ImageNet-21k資料集上應用相同的預訓練設置,然後應用粗分割評估和遮罩分割評估來定量對比不同模型的性能。
根據實驗結果顯示,CRATE在所有任務中都明顯優於其他模型架構。值得注意的是,儘管MHSA和MSSA之間的架構差異很小,但只需簡單地將ViT中的MHSA替換為CRATE中的MSSA,就能顯著提升ViT在粗分割效能(即VOC Seg)方面的表現。這進一步證明了白盒設計的有效性
#需要進行改寫的內容是:注意頭的語意屬性的辨識
[CLS] token和影像區塊token之間的自註意力圖可以看到清晰的分段掩碼,根據直覺,每個注意力頭應該都可以捕捉到資料的部分特徵。
研究人員首先將圖像輸入到CRATE模型,然後由人來檢查、選擇四個似乎具有語義意義的注意力頭;然後在其他輸入圖像上在這些注意力頭上進行自註意力圖視覺化。
觀察可以發現,每個注意力頭都能夠捕捉到物體的不同部分,甚至是不同的語意。例如,第一列中的注意力頭能夠捕捉到不同動物的腿部,而最後一列中的注意力頭則能夠捕捉到耳朵和頭部
自從可形變零件模型(deformable part model)和膠囊網路發布以來,這種將視覺輸入解析為部分-整體層次結構的能力一直是識別架構的目標,白盒設計的CRATE模型也具有這種能力。
以上是馬毅教授新作:白盒ViT成功實現「分割湧現」,經驗深度學習時代即將結束?的詳細內容。更多資訊請關注PHP中文網其他相關文章!