搜尋
首頁科技週邊人工智慧NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

本月初,Meta推出的「分割一切」模型可謂是震撼了整個CV圈。

這幾天,一個名為「Relate-Anything-Model(RAM)」的機器學習模型橫空出世。它賦予了Segment Anything Model(SAM)識別不同視覺概念之間的各種視覺關係的能力。

據了解,該模型由南洋理工大學MMLab團隊和倫敦國王學院和同濟大學的VisCom實驗室的同學利用閒暇時間合作開發。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

#示範網址:https://huggingface.co/spaces/mmlab-ntu/ relate-anything-model

程式碼位址:https://github.com/Luodian/RelateAnything

資料集位址:https://github.com/Jingkang50/OpenPSG

#效果示範

首先,讓我們來看看「Relate-Anything-Model(RAM)」的應用程式實例吧!

例如,以下這些關於踢足球、跳舞和交朋友的RAM模型實現的圖像分析結果,就讓人印象非常深刻,很好地展示了模型出色的性能和多樣化應用的潛力。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

預備知識:全場景圖產生PSG任務

RAM模型基於ECCV'22 SenseHuman Workshop & 國際演算法算例大賽「Panoptic Sc​​ene Graph Generation」賽道冠軍方案。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

論文網址:https://arxiv.org/abs/2302.02651

#該PSG挑戰賽獎金百萬,共收到來自全球100支團隊提交的各種解決方案,其中包括了使用先進的圖像分割方法以及解決長尾問題等。此外,競賽也收到了一些創新性的方法,例如場景圖專用的資料增強技術。

經過評估,根據性能指標、解決方案的新穎性和意義等方面的考慮,小紅書團隊的GRNet脫穎而出,成為獲勝的方法。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

#競賽詳情:https://github.com/Jingkang50/OpenPSG

#在介紹解決方案之前,我們先來介紹兩個經典的PSG基準方法,其中一個是雙階段方法,另一個是單階段方法。 ##########

對於雙階段基線方法,如圖a所示,在第一階段中,使用預訓練的全景分割模型Panoptic FPN從影像中提取特徵、分割和分類預測。然後,將每個個體物件的特徵提供給經典的場景圖產生器,例如IMP,以便在第二階段進行適應PSG任務的場景圖產生。此雙階段方法允許經典的SGG方法透過最小的修改來適應PSG任務。

如圖b所示,單階段基線方法PSGTR首先使用CNN擷取影像特徵,然後使用類似DETR的transformer編碼器-解碼器來直接學習三元組表示。匈牙利匹配器用於將預測的三元組與基本真實三元組進行比較。然後,優化目標最大化匹配器計算的成本,並使用交叉熵進行標籤和分割的DICE/F-1損失計算總損失。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

RAM模型架構

在RAM模型的設計過程中,作者參考了PSG冠軍方案GRNet的雙階段結構範式。儘管PSG原文的研究中表明,單階段模型目前的表現優於雙階段模型,然而,單階段模型通常無法像雙階段模型那樣達到良好的分割表現。

經過不同模型結構的觀察推測,單階段模型在關係三元組預測上的優異表現可能是由於來自影像特徵圖的直接監督訊號有利於捕捉關係。

基於這個觀察,RAM的設計同GRNet一樣,旨在兩個模式之間找到一個權衡,透過重視雙階段範式並賦予其類似於單階段範式中獲取全域上下文的能力來實現。

具體地,首先利用Segment Anything Model(SAM)作為特徵提取器,識別和分割圖像中的物體對象,將來自SAM分割器的特定物件的中間特徵映射與其對應的分割融合,得到物件層級特徵。

隨後,將Transformer當作一種全域上下文模組,將獲得的物件層級特徵經過線性映射後輸入其中。透過Transformer編碼器中的交叉注意力機制,輸出的物件特徵從其他物件中收集了更多的全局資訊。

最後,對於Transformer輸出的每個物件層級特徵,透過self-attention機制進一步豐富上下文資訊並使各個物件物件之間完成互動。

請注意,這裡也加入了一個類別嵌入以指示物件的類別,並由此得到了成對的物件及它們之間關係的預測。

RAM關係分類

在訓練過程中,對於每個關係類別,需要執行關係二元分類任務以確定物件對之間是否存在關係。

和GRNet相似的,對關係二元分類任務還有一些特別的考量。例如, PSG資料集通常包含兩個具有多個關係的對象,例如“人看著大象”和“人餵大象”同時存在。為了解決多標籤問題,作者將關係預測從單一標籤分類問題轉換為多標籤分類問題。

此外,由於PSG資料集透過要求註釋者選擇特定和準確的謂詞(如「停在」而不是更一般的「在」)來追求精確度和相關性,可能不適合學習邊界關係(如「在」實際上與「停在」同時存在)。為了解決這個問題,RAM採用了一種自我訓練策略,使用自我蒸餾標籤進行關係分類,並使用指數移動平均值來動態更新標籤。

#

RAM的其他設計

在計算關係二元分類損失時,每個預測物件必須與其對應的基礎真實物件配對。匈牙利匹配演算法用於此目的。

然而,演算法容易出現不穩定情況,特別是在網路準確度低的早期訓練階段。這可能導致對於相同的輸入,匹配產生不同的匹配結果,導致網路優化方向不一致,使訓練變得更加困難。

在RAM中,不同於先前方案,作者藉助強大的SAM模型,可以對幾乎任何圖片進行完整且細緻的分割,因此,在在匹配預測和GT過程中, RAM自然地設計了新的GT匹配方法:使用PSG資料集來訓練模型。

對於每個訓練影像,SAM會分割多個物體,但只有少數與PSG的ground truth(GT)mask相符。作者根據它們的交集-並集(IOU)分數進行簡單的匹配,以便(幾乎)每個GT mask都被分配到一個SAM mask。之後,作者根據SAM的mask重新產生關係圖,自然地匹配上了模型的預測。

RAM模型總結

在RAM模型中,作者利用Segment Anything Model(SAM)來識別和分割圖像中的物體,並提取每個分割物體的特徵。隨後使用Transformer模組來使分割物體之間產生交互作用,從而得到新的特徵。最後將這些特徵經過類別嵌入後,透過self-attention機制輸出預測結果。

在訓練過程中,特別地,作者提出了新的GT匹配方法並基於該方法,計算預測和GT的配對關係並分類它們的相互關係。在關係分類的監督學習過程中,作者視之為多標籤分類問題並採用了一種自我訓練策略學習標籤的邊界關係。

最後,希望RAM模型能為你帶來更多的啟發與創新。如果你也想訓練會找關係的機器學習模型,可以專注在團隊的工作,並隨時提出回饋和建議。

NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!

專案網址:https://github.com/Jingkang50/OpenPSG

#

以上是NTU提出全新RAM模型,採用Meta分割一切搞定關係,唱跳偷襲效果極佳!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境