首頁 >科技週邊 >人工智慧 >NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

王林
王林轉載
2023-05-10 10:22:09998瀏覽

本月初,Meta推出的「分割一切」模型可謂是震撼了整個CV圈。

這幾天,一個名為「Relate-Anything-Model(RAM)」的機器學習模型橫空出世。它賦予了Segment Anything Model(SAM)識別不同視覺概念之間的各種視覺關係的能力。

據了解,該模型由南洋理工大學MMLab團隊和倫敦國王學院和同濟大學的VisCom實驗室的同學利用閒暇時間合作開發。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

#示範網址:https://huggingface.co/spaces/mmlab-ntu/ relate-anything-model

程式碼位址:https://github.com/Luodian/RelateAnything

資料集位址:https://github.com/Jingkang50/OpenPSG

#效果示範

首先,讓我們來看看「Relate-Anything-Model(RAM)」的應用程式實例吧!

例如,以下這些關於踢足球、跳舞和交朋友的RAM模型實現的圖像分析結果,就讓人印象非常深刻,很好地展示了模型出色的性能和多樣化應用的潛力。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

預備知識:全場景圖產生PSG任務

RAM模型基於ECCV'22 SenseHuman Workshop & 國際演算法算例大賽「Panoptic Sc​​ene Graph Generation」賽道冠軍方案。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

論文網址:https://arxiv.org/abs/2302.02651

#該PSG挑戰賽獎金百萬,共收到來自全球100支團隊提交的各種解決方案,其中包括了使用先進的圖像分割方法以及解決長尾問題等。此外,競賽也收到了一些創新性的方法,例如場景圖專用的資料增強技術。

經過評估,根據性能指標、解決方案的新穎性和意義等方面的考慮,小紅書團隊的GRNet脫穎而出,成為獲勝的方法。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

#競賽詳情:https://github.com/Jingkang50/OpenPSG

#在介紹解決方案之前,我們先來介紹兩個經典的PSG基準方法,其中一個是雙階段方法,另一個是單階段方法。 ##########

對於雙階段基線方法,如圖a所示,在第一階段中,使用預訓練的全景分割模型Panoptic FPN從影像中提取特徵、分割和分類預測。然後,將每個個體物件的特徵提供給經典的場景圖產生器,例如IMP,以便在第二階段進行適應PSG任務的場景圖產生。此雙階段方法允許經典的SGG方法透過最小的修改來適應PSG任務。

如圖b所示,單階段基線方法PSGTR首先使用CNN擷取影像特徵,然後使用類似DETR的transformer編碼器-解碼器來直接學習三元組表示。匈牙利匹配器用於將預測的三元組與基本真實三元組進行比較。然後,優化目標最大化匹配器計算的成本,並使用交叉熵進行標籤和分割的DICE/F-1損失計算總損失。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

RAM模型架構

在RAM模型的設計過程中,作者參考了PSG冠軍方案GRNet的雙階段結構範式。儘管PSG原文的研究中表明,單階段模型目前的表現優於雙階段模型,然而,單階段模型通常無法像雙階段模型那樣達到良好的分割表現。

經過不同模型結構的觀察推測,單階段模型在關係三元組預測上的優異表現可能是由於來自影像特徵圖的直接監督訊號有利於捕捉關係。

基於這個觀察,RAM的設計同GRNet一樣,旨在兩個模式之間找到一個權衡,透過重視雙階段範式並賦予其類似於單階段範式中獲取全域上下文的能力來實現。

具體地,首先利用Segment Anything Model(SAM)作為特徵提取器,識別和分割圖像中的物體對象,將來自SAM分割器的特定物件的中間特徵映射與其對應的分割融合,得到物件層級特徵。

隨後,將Transformer當作一種全域上下文模組,將獲得的物件層級特徵經過線性映射後輸入其中。透過Transformer編碼器中的交叉注意力機制,輸出的物件特徵從其他物件中收集了更多的全局資訊。

最後,對於Transformer輸出的每個物件層級特徵,透過self-attention機制進一步豐富上下文資訊並使各個物件物件之間完成互動。

請注意,這裡也加入了一個類別嵌入以指示物件的類別,並由此得到了成對的物件及它們之間關係的預測。

RAM關係分類

在訓練過程中,對於每個關係類別,需要執行關係二元分類任務以確定物件對之間是否存在關係。

和GRNet相似的,對關係二元分類任務還有一些特別的考量。例如, PSG資料集通常包含兩個具有多個關係的對象,例如“人看著大象”和“人餵大象”同時存在。為了解決多標籤問題,作者將關係預測從單一標籤分類問題轉換為多標籤分類問題。

此外,由於PSG資料集透過要求註釋者選擇特定和準確的謂詞(如「停在」而不是更一般的「在」)來追求精確度和相關性,可能不適合學習邊界關係(如「在」實際上與「停在」同時存在)。為了解決這個問題,RAM採用了一種自我訓練策略,使用自我蒸餾標籤進行關係分類,並使用指數移動平均值來動態更新標籤。

#

RAM的其他設計

在計算關係二元分類損失時,每個預測物件必須與其對應的基礎真實物件配對。匈牙利匹配演算法用於此目的。

然而,演算法容易出現不穩定情況,特別是在網路準確度低的早期訓練階段。這可能導致對於相同的輸入,匹配產生不同的匹配結果,導致網路優化方向不一致,使訓練變得更加困難。

在RAM中,不同於先前方案,作者藉助強大的SAM模型,可以對幾乎任何圖片進行完整且細緻的分割,因此,在在匹配預測和GT過程中, RAM自然地設計了新的GT匹配方法:使用PSG資料集來訓練模型。

對於每個訓練影像,SAM會分割多個物體,但只有少數與PSG的ground truth(GT)mask相符。作者根據它們的交集-並集(IOU)分數進行簡單的匹配,以便(幾乎)每個GT mask都被分配到一個SAM mask。之後,作者根據SAM的mask重新產生關係圖,自然地匹配上了模型的預測。

RAM模型總結

在RAM模型中,作者利用Segment Anything Model(SAM)來識別和分割圖像中的物體,並提取每個分割物體的特徵。隨後使用Transformer模組來使分割物體之間產生交互作用,從而得到新的特徵。最後將這些特徵經過類別嵌入後,透過self-attention機制輸出預測結果。

在訓練過程中,特別地,作者提出了新的GT匹配方法並基於該方法,計算預測和GT的配對關係並分類它們的相互關係。在關係分類的監督學習過程中,作者視之為多標籤分類問題並採用了一種自我訓練策略學習標籤的邊界關係。

最後,希望RAM模型能為你帶來更多的啟發與創新。如果你也想訓練會找關係的機器學習模型,可以專注在團隊的工作,並隨時提出回饋和建議。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

專案網址:https://github.com/Jingkang50/OpenPSG

#

以上是NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除