影片場景圖產生(VidSGG)旨在識別視覺場景中的物件並推斷它們之間的視覺關係。
該任務不僅需要全面了解分散在整個場景中的每個對象,還需要深入研究它們在時序上的運動和互動。
最近,來自中山大學的研究人員在人工智慧頂尖期刊IEEE T-IP上發表了一篇論文,進行了相關任務的探索並發現:每對物體組合及其它們之間的關係在每個影像內具有空間共現相關性,並且在不同影像之間具有時間一致性/轉換相關性。
論文連結:https://arxiv.org/abs/2309.13237
基於這些先驗知識,研究人員提出了一種基於時空知識嵌入的Transformer(STKET)將先驗時空知識納入多頭交叉注意機制中,從而學習更多有代表性的視覺關係表示。
具體來說,首先以統計方式學習空間共現和時間轉換相關性;然後,設計了時空知識嵌入層對視覺表示與知識之間的交互進行充分探索,分別產生空間和時間知識嵌入的視覺關係表示;最後,作者聚合這些特徵,以預測最終的語義標籤及其視覺關係。
大量實驗表明,文中提出的框架大幅優於當前競爭演算法。目前,該論文已經被接收。
論文概述
隨著場景理解領域的快速發展,許多研究者開始嘗試利用各種框架來解決場景圖生成( Scene Graph Generation, SGG)任務,並已取得了不俗的進展。
但是,這些方法往往只考慮單張圖像的情況,忽略了時序中存在的大量的上下文信息,導致現有大部分場景圖生成演算法在無法準確地識別所給定的影片中所包含的動態視覺關係。
因此,許多研究者致力於開發視訊場景圖生成(Video Scene Graph Generation, VidSGG)演算法來解決這個問題。
目前的工作主要關注從空間和時間角度聚合物件層級視覺訊息,以學習對應的視覺關係表示。
然而,由於各類物體與交互動作的視覺外表方差大以及視頻收集所導致的視覺關係顯著的長尾分佈,單純的僅用視覺信息容易導致模型預測錯誤的視覺關係。
針對上述問題,研究者做了以下兩方面的工作:
首先,提出挖掘訓練樣本中包含的先驗時空知識用以促進視訊場景圖生成領域。其中,先驗時空知識包括:
1)空間共現相關性:某些物件類別之間的關係傾向於特定的交互作用。
2)時間一致性/轉換相關性:給定對的關係在連續影片剪輯中往往是一致的,或者很有可能轉換到另一個特定關係。
其次,提出了一個新穎的基於時空知識嵌入的Transformer(Spatial-Temporal Knowledge-Embedded Transformer, STKET)框架。
此框架將先驗時空知識納入多頭交叉注意機制中,從而學習更多代表性的視覺關係表示。根據在測試基準上得到的比較結果可以發現,研究人員所提出的STKET框架優於先前最先進的方法。
圖1:由於視覺外觀多變與視覺關係的長尾分佈,導致影片場景圖產生充滿挑戰
#基於時空知識嵌入的Transformer
時空知識表示
在推論視覺關係時,人類不僅利用視覺線索,也利用累積的先驗知識[1, 2]。受此啟發,研究人員提出直接從訓練集中提取先驗時空知識,以促進視訊場景圖生成任務。
其中,空間共現相關性具體表現為當給定物體組合後其視覺關係分佈將高度傾斜(例如,“人”與“杯子”之間的視覺關係的分佈明顯不同於“狗」與「玩具」之間的分佈)和時間轉移相關性具體表現為當給定前一時刻的視覺關係後各個視覺關係的轉換機率將大幅變化(例如,當已知前一時刻的視覺關係為「吃」時,下一時刻視覺關係轉移為「書寫」的機率大幅下降)。
如圖2所示,可以直觀地感受到給定物體組合或先前的視覺關係後,預測空間可以被大幅的縮減。
圖2:視覺關係的空間共現機率[3]與時間轉移機率
具體而言,對於第i類物體與第j類物體的組合,以及其上一時刻為第x類關係的情況,首先透過統計的方式獲得其對應的空間共現機率矩陣E^{i,j }和時間轉移機率矩陣Ex^{i,j}。
接著,將其輸入到全連接層中得到對應的特徵表示,並利用對應的目標函數確保模型所學到的知識表示包含對應的先驗時空知識。
圖3:學習空間(a)與時間(b)知識表示的過程
##知識嵌入註意力層空間知識通常包含實體之間的位置、距離和關係的資訊。另一方面,時間知識涉及動作之間的順序、持續時間和間隔。
鑑於它們獨特的屬性,單獨處理它們可以允許專門的建模更準確地捕捉固有模式。
因此,研究者設計了時空知識嵌入層,徹底探索視覺表示與時空知識之間的互動。
圖4:空間(左邊)與時間(右邊)知識嵌入層
時空聚合模組如前所述,空間知識嵌入層探索每個影像內的空間共現相關性,時間知識嵌入層探索不同影像之間的時間轉移相關性,以此充分探索了視覺表示和時空知識之間的互動。
儘管如此,這兩層忽略了長時序的上下文訊息,而這對於識別大部分動態變化的視覺關係具有幫助。
為此,研究人員進一步設計了時空聚合(STA)模組來聚合每個物件對的這些表示,以預測最終的語義標籤及其關係。它將不同幀中相同主客體對的空間和時間嵌入關係表示作為輸入。
具體來說,研究人員將相同物件對的這些表示連接起來以產生上下文表示。
然後,為了在不同幀中找到相同的主客體對,採用預測的物件標籤和IoU(即並集交集)來匹配幀中檢測到的相同主客體對。
最後,考慮到影格中的關係在不同批次中有不同的表示,選擇滑動視窗中最早出現的表示。
實驗結果為了全面評估所提出的框架的效能,研究人員除了比較現有的影片場景圖生成方法(STTran , TPI, APT)外,也選取了先進的影像場景圖產生方法(KERN, VCTREE, ReIDN, GPS-Net)進行比較。
其中,為確保對比的公平,影像場景圖產生方法透過對每個畫面影像進行識別,從而達到對所給定影片產生對應場景圖的目標。
圖5:在Action Genome資料集上以Recall為評價指標的實驗結果
圖6:在Action Genome資料集上以mean Recall為評估指標的實驗結果
#以上是中山大學的全新時空知識嵌入框架推動了視訊場景圖生成任務的最新進展,發表於 TIP '24的詳細內容。更多資訊請關注PHP中文網其他相關文章!

使用Gemma範圍探索語言模型的內部工作 了解AI語言模型的複雜性是一個重大挑戰。 Google發布的Gemma Scope是一種綜合工具包,為研究人員提供了一種強大的探索方式

解鎖業務成功:成為商業智能分析師的指南 想像一下,將原始數據轉換為驅動組織增長的可行見解。 這是商業智能(BI)分析師的力量 - 在GU中的關鍵作用

SQL的Alter表語句:動態地將列添加到數據庫 在數據管理中,SQL的適應性至關重要。 需要即時調整數據庫結構嗎? Alter表語句是您的解決方案。本指南的詳細信息添加了Colu

介紹 想像一個繁華的辦公室,兩名專業人員在一個關鍵項目中合作。 業務分析師專注於公司的目標,確定改進領域,並確保與市場趨勢保持戰略一致。 simu

Excel 數據計數與分析:COUNT 和 COUNTA 函數詳解 精確的數據計數和分析在 Excel 中至關重要,尤其是在處理大型數據集時。 Excel 提供了多種函數來實現此目的,其中 COUNT 和 COUNTA 函數是用於在不同條件下統計單元格數量的關鍵工具。雖然這兩個函數都用於計數單元格,但它們的設計目標卻針對不同的數據類型。讓我們深入了解 COUNT 和 COUNTA 函數的具體細節,突出它們獨特的特性和區別,並學習如何在數據分析中應用它們。 要點概述 理解 COUNT 和 COU

Google Chrome的AI Revolution:個性化和高效的瀏覽體驗 人工智能(AI)正在迅速改變我們的日常生活,而Google Chrome正在領導網絡瀏覽領域的負責人。 本文探討了興奮

重新構想影響:四倍的底線 長期以來,對話一直以狹義的AI影響來控制,主要集中在利潤的最低點上。但是,更全面的方法認識到BU的相互聯繫

事情正穩步發展。投資投入量子服務提供商和初創企業表明,行業了解其意義。而且,越來越多的現實用例正在出現以證明其價值超出


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境

Dreamweaver Mac版
視覺化網頁開發工具

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。