基於Transformer的視覺基礎模型在各種下游任務,如分割和檢測中都展現出了非常強大的性能,並且DINO等模型經過自監督訓練後已經湧現出了語義的分割屬性。
視覺Transformer模型經過有監督分類訓練後,並沒有出現類似的湧現能力,這一點令人感到奇怪
最近,馬毅教授的團隊研究了基於Transformer架構的模型,以探索湧現分割能力是否僅僅是複雜的自監督學習機制所導致的結果,或者是否可以透過適當設計模型架構,在更通用的條件下實現相同的湧現
#程式碼連結:https://github.com/Ma-Lab-Berkeley/CRATE
請點擊以下連結查看論文:https://arxiv.org/abs/2308.16271
經過大量實驗,研究人員證明了使用白盒Transformer模型CRATE時,其設計明確地模擬並追求資料分佈中的低維結構,以最小化的監督訓練配方出現整體和部分層級的分割屬性
透過分層的細粒度分析,我們得出了一個重要結論:湧現屬性有力地證實了白盒網路的設計數學功能。基於這一結果,我們提出了一種設計白盒基礎模型的方法,該模型不僅具有高性能,而且在數學上完全可解釋
馬毅教授也表示,深度學習的研究將會逐漸從經驗設計轉向理論指導。
白盒CRATE的湧現屬性
#DINO的分割湧現能力指的是DINO模型在處理語言任務時,能夠將輸入的句子分割成較小的片段,並對每個片段進行獨立的處理。這種能力使得DINO模型能夠更好地理解複雜的句子結構和語義訊息,從而提高其在自然語言處理領域的性能
智慧系統中的表徵學習旨在將世界的高維度、多模態感官資料(圖像、語言、語音)轉換為更緊湊的形式,同時保留其基本的低維結構,實現高效的識別(例如分類)、分組(例如分割)和追蹤。
深度學習模型的訓練通常採用數據驅動的方式,透過輸入大規模數據,以自監督的方式進行學習
#在視覺基礎模型中,DINO模型展現了令人驚訝的湧現能力,即使沒有經過有監督分割訓練,ViTs也能辨識出顯式的語意分割資訊。自監督Transformer架構的DINO模型在這方面表現出色
後續有工作研究瞭如何在DINO模型中利用這種分割信息,並在下游任務中,如分割、檢測等實現了最先進的性能,也有工作證明了用DINO訓練的ViTs中的倒數第二層特徵與視覺輸入中的顯著性信息強烈相關,如區分前景、背景和物體邊界,從而提升圖像分割和其他任務的性能。
為了讓分割屬性得以凸顯,DINO需要在訓練過程中巧妙地結合自監督學習、知識蒸餾和權重平均的方法
目前還不清楚DINO中引入的每個組件是否對於分割遮罩的湧現來說必不可缺,儘管DINO也採用ViT架構作為其主幹,但在分類任務上訓練的普通有監督ViT模型中,並沒有觀察到分割湧現行為。
CRATE的湧現
#基於DINO的成功案例,研究者想要探究,複雜的自監督學習管道對於獲得類似Transformer的視覺模型中的湧現屬性是否是必要的。
研究人員認為,在Transformer模型中促進分割屬性的一種有前途的方法是,在考慮輸入資料結構的情況下設計Transformer模型架構,也代表了表徵學習經典方法與現代數據驅動的深度學習框架的結合。
與目前主流的Transformer模型對比,這種設計方法也可以叫做白盒Transformer模型。
基於馬毅教授組先前的工作,研究人員對白盒架構的CRATE模型進行了廣泛的實驗,證明了CRATE的白盒設計是自註意力圖中分割屬性湧現的原因。
需要重新表達的內容是:定性評估
研究人員使用基於[CLS] token的注意力圖方法對模型進行解釋和視覺化,發現CRATE中的查詢-鍵-值矩陣都是相同的
可以觀察到CRATE模型的自註意力圖(self-attention map)可以對應到輸入影像的語意上,模型的內部網路對每個影像都進行了清晰的語意分割,實現了類似DINO模型的效果。
普通的ViT在有監督分類任務上訓練時,並沒有展現出類似的分割屬性
根據先前關於視覺化影像學習逐塊深度特徵的研究,研究人員對CRATE和ViT模型的深度token表徵進行了主成分分析(PCA)研究
可以發現,CRATE可以在沒有分割監督訓練的情況下,依然可以捕捉到影像中物體的邊界。
而且,主要成分(principal components)也顯示了token和物體之間相似部分的特徵對齊,例如紅色通道對應馬腿
而有監督ViT模型的PCA可視化結構化程度相當低。
定量評估
#研究人員對CRATE湧現的分割屬性進行評估時,使用了現有的分割和物件偵測技術
從自註意力圖可以看到,CRATE用清晰的邊界明確地捕獲了物件層級的語義,為了定量測量分割的質量,研究人員利用自注意力圖產生分割遮罩(segmentation mask),對比其與真實遮罩之間的標準mIoU(平均交並比)。
透過實驗結果可以看出,CRATE在視覺和mIOU評分方面明顯優於ViT,這表明CRATE的內部表示對於產生分割遮罩任務更有效
物件偵測與細粒度分割
#為了進一步驗證和評估CRATE捕獲的豐富語意信息,研究人員採用了一種高效的對象檢測和分割方法MaskCut,無需人工標註即可獲得自動化評估模型,可以基於CRATE學到的token表徵從圖像中提取更細粒度的分割。
在COCO val2017上的分割結果可以看到,有CRATE的內部表徵在偵測和分割指標上都比有監督ViT,有監督ViT特徵的MaskCut在某些情況下甚至完全無法產生分割遮罩。
CRATE分割能力的白盒分析
CRATE中深度的作用
CRATE的每一層設計都遵循相同的概念目的:優化稀疏速率降低,並將token分佈轉換為緊湊和結構化的形式。 重寫後:CRATE的每個層次的設計都遵循相同的理念:優化稀疏速率的降低,並將token的分佈轉化為緊湊且結構化的形式
假設CRATE中語意分割能力的湧現類似於「表徵Z中屬於相似語意類別token的聚類」,預期CRATE的分割表現可以隨著深度的增加而提高。
為了測試這一點,研究人員利用MaskCut管道來定量評估跨不同層的內部表徵的分割性能;同時應用PCA可視化來理解分割是如何隨深度加深而湧現的。
從實驗結果可以觀察到,當使用來自更深層的表徵時,分割分數提高了,與CRATE的增量最佳化設計非常一致。
相比之下,即使ViT-B/8的效能在後面的圖層中略有提高,但其分割分數明顯低於CRATE,PCA結果顯示,從CRATE深層擷取的表徵會逐漸更關注前景對象,並且能夠捕捉紋理層次的細節。
CRATE的熔化實驗
#CRATE中的注意力區塊(MSSA)和MLP塊(ISTA)與ViT中的注意力塊有所不同
為了研究每個組件對CRATE湧現分割屬性的影響,研究人員選擇了三個CRATE變體: CRATE,CRATE-MHSA,CRATE-MLP。這些變體分別代表了ViT中的注意區塊(MHSA)和MLP區塊
#研究人員在ImageNet-21k資料集上應用相同的預訓練設置,然後應用粗分割評估和遮罩分割評估來定量對比不同模型的性能。
根據實驗結果顯示,CRATE在所有任務中都明顯優於其他模型架構。值得注意的是,儘管MHSA和MSSA之間的架構差異很小,但只需簡單地將ViT中的MHSA替換為CRATE中的MSSA,就能顯著提升ViT在粗分割效能(即VOC Seg)方面的表現。這進一步證明了白盒設計的有效性
#需要進行改寫的內容是:注意頭的語意屬性的辨識
[CLS] token和影像區塊token之間的自註意力圖可以看到清晰的分段掩碼,根據直覺,每個注意力頭應該都可以捕捉到資料的部分特徵。
研究人員首先將圖像輸入到CRATE模型,然後由人來檢查、選擇四個似乎具有語義意義的注意力頭;然後在其他輸入圖像上在這些注意力頭上進行自註意力圖視覺化。
觀察可以發現,每個注意力頭都能夠捕捉到物體的不同部分,甚至是不同的語意。例如,第一列中的注意力頭能夠捕捉到不同動物的腿部,而最後一列中的注意力頭則能夠捕捉到耳朵和頭部
自從可形變零件模型(deformable part model)和膠囊網路發布以來,這種將視覺輸入解析為部分-整體層次結構的能力一直是識別架構的目標,白盒設計的CRATE模型也具有這種能力。
以上是馬毅教授新作:白盒ViT成功實現「分割湧現」,經驗深度學習時代即將結束?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

译者 | 李睿审校 | 孙淑娟近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:https://spj.scien

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

SublimeText3 Linux新版
SublimeText3 Linux最新版