搜尋
首頁科技週邊人工智慧中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

電腦視覺的網路結構又要迎來革新了?

從卷積神經網路到帶有註意力機制的視覺Transformer,神經網路模型都是把輸入影像視為一個網格或是patch序列,但這種方式無法捕捉到變化的或複雜的物體。

例如人在觀察圖片的時候,就會很自然地將整個圖片分成多個物體,並在物體間建立空間等位置關係,也就是說整張圖片對於人腦來說其實是一張graph,物體是graph上的節點。

 

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 最近中科院軟體研究所、華為諾亞方舟實驗室、北京大學、澳門大學的研究人員共同提出了一個全新的模型架構Vision GNN (ViG),能夠從影像中抽取graph-level的特徵用於視覺任務。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

論文連結:https://arxiv.org/pdf/2206.00272.pdf

首先需要將圖像分割成若干個patch作為圖中的節點,並透過連接最近的鄰居patch來建立一個graph,然後使用ViG模型對整個圖中所有節點的資訊進行變換(transform)和交換(exchange)。

ViG 由兩個基本模組組成,Grapher模組用graph卷積來聚合和更新圖形訊息,FFN模組用兩個線性層來變換節點特徵。

在影像辨識和物體偵測任務上進行的實驗也證明了ViG架構的優越性,GNN在一般視覺任務上的開創性研究將為未來的研究提供有益的啟發和經驗。

論文作者為吳恩華教授,中國科學院軟體研究所博士生導師、澳門大學榮譽教授,1970年本科畢業於清華大學工程力學數學系,1980年博士畢業於英國曼徹斯特大學計算機科學系。主要研究領域為電腦繪圖與虛擬實境, 包括: 虛擬實境、真實感圖形生成、 基於物理的模擬與即時計算、 基於物理的建模與繪製、 影像與視訊的處理與建模、 視覺計算與機器學習。

視覺GNN

網路結構往往是提升效能最關鍵的要素,只要能保證資料量的數量和質量,把模型從CNN換到ViT,就能得到一個效能更佳的模型。

但不同的網路對輸入影像的處理方式也不同,CNN在影像上滑動窗口,引入平移不變性和局部特徵。

而ViT和多層感知機(MLP)則是將影像轉換為一個patch序列,例如把224×224的影像分成若干個16×16的patch,最後形成一個長度為196的輸入序列。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 圖神經網路則更靈活,例如在電腦視覺中,一個基本任務是辨識影像中的物件。由於物體通常不是四邊形的,可能是不規則的形狀,所以之前的網路如ResNet和ViT中常用的網格或序列結構是多餘的,處理起來不靈活。

一個物體可以被看作是由多個部分組成的,例如,一個人可以大致分為頭部、上半身、手臂和腿。

這些由關節連接的部分很自然地形成了一個圖形結構,透過分析圖,我們最後才能夠辨識出這個物體可能是個人類別。

此外,圖是一種通用的資料結構,網格和序列可以被視為圖的一個特例。將圖像視為一個圖,對於視覺感知來說更加靈活和有效。

使用圖結構需要將輸入的圖像劃分為若干個patch,並將每個patch視為一個節點,如果將每個像素視為一個節點的話就會導致圖中節點數量過多( >10K)。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 建立graph後,先透過一個圖卷積神經網路(GCN)聚合相鄰節點間的特徵,並抽取影像的表徵。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 為了讓GCN獲得更多樣性的特徵,作者將圖卷積應用multi-head操作,聚合的特徵由不同權重的head更新,最後級聯為圖像表徵。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 先前的GCN通常重複使用幾個圖卷積層來提取圖資料的聚合特徵,而深度GCN中的過度平滑現象則會降低節點特徵的獨特性,導致視覺識別的性能下降。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 為了緩解這個問題,研究人員在ViG區塊中引入了更多的特徵轉換和非線性激活函數。

首先在圖卷積的前後應用一個線性層,將節點特徵投射到同一域中,增加特徵多樣性。在圖形卷積之後插入一個非線性激活函數以避免層崩潰。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 為了進一步提升特徵轉換能力,緩解過度平滑現象,也需要在每個節點上利用前饋網路(FFN)。 FFN模組是一個簡單的多層感知機,有兩個全連接的層。

 中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 在Grapher和FFN模組中,每個全連接層或圖卷積層之後都要進行batch normalization,Grapher模組和FFN模組的堆疊構成了一個ViG塊,也是建構大網路的基本單元。

與原始的ResGCN相比,新提出的ViG可以保持特徵的多樣性,隨著加入更多的層,網路也可以學習到更強的表徵。

在電腦視覺的網路架構中,常用的Transformer模型通常有一個等向性(Isotropic)的結構(如ViT),而CNN則更傾向於使用金字塔結構(如ResNet)。

為了與其他類型的神經網路進行比較,研究人員為ViG同時建立了等向性和金字塔的兩種網路架構。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 在實驗比較階段,研究人員選擇了影像分類任務中的ImageNet ILSVRC 2012資料集,包含1000個類別,120M的訓練影像和50K的驗證影像。

目標偵測任務中,選擇了有80個目標類別的COCO 2017資料集,包含118k個訓練圖片和5000個驗證集圖片。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 在等向性的ViG架構中,其主要運算過程中可以保持特徵大小不變,易於擴展,對硬體加速友善。在將其與現有的等向性的CNN、Transformer和MLP進行比較後可以看到,ViG比其他類型的網路表現得更好。其中ViG-Ti實現了73.9%的top-1準確率,比DeiT-Ti模型高1.7%,而計算成本相似。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 金字塔結構的ViG中,隨著網路的加深逐漸縮小了特徵圖的空間大小,利用影像的尺度不變量特性,同時產生多尺度的特徵。

高效能的網路大多採用金字塔結構,如ResNet、Swin Transformer和CycleMLP。在將Pyramid ViG與這些代表性的金字塔網路進行比較後,可以看到Pyramid ViG系列可以超越或媲美最先進的金字塔網路包括CNN、MLP和Transfomer。

結果表明,圖神經網路可以很好地完成視覺任務,並有可能成為電腦視覺系統中的一個基本組成部分。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 為了更能理解ViG模型的工作流程,研究者將ViG-S中所建構的圖結構視覺化。在兩個不同深度的樣本(第1和第12塊)的圖。五角星是中心節點,具有相同顏色的節點是其鄰居。只有兩個中心節點是可視化的,因為如果繪製所有的邊會顯得很混亂。

中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?

 可以觀察到,ViG模型可以選擇與內容相關的節點作為第一階鄰居。在淺層,鄰居節點往往是根據低層次和局部特徵來選擇的,如顏色和紋理。在深層,中心節點的鄰居更具語義性,屬於同一類別。 ViG網路可以透過其內容和語意表徵逐漸將節點連結起來,幫助更好地辨識物體。

以上是中科院軟體所發表效能超越ViT的全新CV模型ViG,未來成為圖神經網路的代表?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7?Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

4個新的雙子座功能您可以錯過4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

Camunda為經紀人AI編排編寫了新的分數Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

策劃的企業AI體驗是否有價值?策劃的企業AI體驗是否有價值?Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

如何為抹布找到最佳的多語言嵌入模型?如何為抹布找到最佳的多語言嵌入模型?Apr 23, 2025 am 11:44 AM

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

麝香:奧斯汀的機器人需要每10,000英里進行干預麝香:奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

AI震驚的樞軸:從工作工具到數字治療師和生活教練AI震驚的樞軸:從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將

公司競爭AI代理的採用公司競爭AI代理的採用Apr 23, 2025 am 11:40 AM

AI代理商的興起正在改變業務格局。 與雲革命相比,預計AI代理的影響呈指數增長,有望徹底改變知識工作。 模擬人類決策的能力

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境