超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 20, 2024 pm 08:31 PM

產業DynRefer

為了實現高精度的區域級多模態理解，本文提出了一種動態分辨率方案來模擬人類視覺認知系統。

本文作者來自中國科學院大學LAMP實驗室，其中第一作者趙毓鐘是中國科學院大學2023級博士生，共同作者劉峰是中國科學院大學2020級直博生。他們的主要研究方向是視覺語言模型和視覺目標感知。

簡介

DynRefer 透過模擬人類視覺認知過程，顯著提升了區域級多模態辨識能力。透過引入人眼的動態解析度機制，DynRefer 能夠以單一模型同時完成區域辨識、區域屬性偵測和區域字幕產生（region-level captioning）任務，並在上述任務都取得 SOTA 效能。其中在 RefCOCOg 資料集的 region-level captioning 任務上取得了 115.7 CIDEr，顯著高於 RegionGPT，GlaMM，Osprey，Alpha-CLIP 等 CVPR 2024 的方法。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

論文標題：DynRefer: Delving into Region-level Multi-modality Tasks via Dynamic Resolution
論文連結：https://arxhttpsiv./ab ://github.com/callsys/DynRefer

動機超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

區域級多模態任務致力於將指定的圖像偏好的語言描述為符合人類偏好的語言描述為符合人類偏好的圖像。人類完成區域級多模態任務時具有一種分辨率自適應能力，即關注區域是高分辨率的，非關注區域是低分辨率的。然而，目前的區域層級多模態大語言模型往往採用固定解析度編碼的方案，即對整張影像進行編碼，然後透過 RoI Align 將區域特徵提取出來。這種做法缺乏人類視覺認知系統中的解析度自適應能力，對關注區域的編碼效率和能力較低。為了實現高精度的區域級多模態理解，我們提出了一個動態解析度方案來模擬人類視覺認知系統，如下圖所示。

^{圖 1：傳統中區域中的多模態方法（左）與 DynRefer 方法（右）的比較。}

方法

1、模擬動態解析度的影像（Multi-view construction）。 由於主流的預訓練視覺語言模型（CLIP）只能接收均勻解析度的輸入，我們透過建構多個均勻解析度的視圖來模擬一幅動態解析度影像。該影像在指代區域具有高分辨率，而在非指代區域低解析度。具體流程如圖 2 上。原始影像 x 被裁剪並調整大小為多個候選視圖。裁剪區域的計算方式為超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

，其中

。這裡的

表示參考區域的邊界框，超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

表示整個影像的尺寸，t 表示插值係數。在訓練過程中，我們從候選視圖中隨機選擇 n 個視圖，以模擬由於注視和眼球快速運動而產生的圖像。這些 n 個視圖對應於內插係數 t，即超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

。我們固定保留僅包含參考區域的視圖（即超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

）。經實驗證明此視圖有助於保留區域細節，對於所有區域多模態任務都至關重要。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

^{圖 2：DynRefer 訓練時（上）與推理（下）。}

2、隨機動態視圖嵌入（Stochastic Multi-view Embedding）。 具體流程如圖 3 所示。採樣的 n 個視圖透過凍結的 CLIP 編碼成空間特徵，然後經過 RoI-Align 模組處理，以獲取區域嵌入，即超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

。如圖 3 左側所示。由於裁剪、調整大小和 RoI-Align 引入的空間誤差，這些區域嵌入在空間上並不對齊。受 deformable convolution 操作啟發，我們提出了一個對齊模組，透過將超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

對齊到

來減少偏差，其中

超越CVPR 2024方法，DynRefer在區域級多模態辨識任務上，多項SOTA

是僅包含參考區域的視圖編碼的區域嵌入。對於每個區域嵌入超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

，首先將其與

連接，然後透過卷積層計算一個二維偏移圖。超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

的空間特徵然後根據二維偏移重新取樣。最後，對齊後的區域嵌入沿著通道維度連接並透過 linear 層進行融合。輸出進一步透過視覺重採樣模組，即 Q-former，進行壓縮，從而提取原始影像 x 的參考區域超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

的區域表示（圖 3 中的超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

）。

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

^{圖 3：DynRefer 網路結構}

透過隨機多視圖嵌入模組計算得到的區域表示

，由三個解碼器

解碼，如圖3（右）所示，分別受三個多模態任務的監督：超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

i ) 影像區域標籤生成。我們採用基於查詢的輕量級識別解碼器進行區域標籤產生。解碼器
如圖 3（右）所示。透過使用標籤作為查詢，作為鍵和值，計算預定義標記的置信度來完成標記過程。我們從真值字幕中解析出標籤，以監督識別解碼器。 ii) 區域 - 文本對比學習。類似於區域標記解碼器，解碼器

定義為基於查詢的識別解碼器。此解碼器計算字幕與區域特徵之間的相似性分數，使用 SigLIP loss 進行監督。 iii) 語言建模。我們採用預先訓練的大語言模式

將區域表示

轉換為語言描述。

^{圖 4：雙視圖（n=2）DynRefer 模型在區域層級多模態任務上的表現。在不同的內插係數 t 下,}^{。視圖一是固定的（}^{），視圖二隨機選擇或固定。}

4、在推理過程中，經過訓練的 DynRefer 模型透過動態解析度在影像上執行多模態任務。透過調整取樣的 n 個視圖的內插係數超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

，我們可以得到具有動態解析度特性的區域表示。為了評估不同動態解析度下的特性，我們訓練了一個雙視圖（n=2）的 DynRefer 模型，並在四個多模態任務上進行評估。從圖 4 中的曲線可以看出，對於沒有情境資訊的視圖（超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

），屬性偵測（Attribute detection）獲得了更好的結果。這可以解釋為這種任務通常需要詳細的區域資訊。而對於區域級字幕（Region-level captioning）和密集字幕生成（Dense captioning）任務，需要上下文豐富的視圖（超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

），以便完整理解參考區域。需要注意的是，過多上下文的視圖（超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

）會降低所有任務的效能，因為它們引入了過多與區域無關的資訊。當已知任務類型時，我們可以根據任務特性採樣適當的視圖。當任務類型未知時，我們首先建立一組在不同插值係數 t 下的候選視圖集合，超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA

。從候選集中，透過貪婪搜尋演算法採樣 n 個視圖。搜尋的目標函數定義為：

超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA 其中表示第 i 個視圖的插值係數，表示第 i 個視圖，pHASH (・) 表示感知圖像雜湊函數，表示異或操作。為了從全域視角比較視圖的訊息，我們利用 "pHASH (・)" 函數將視圖從空間域轉換到頻域，然後編碼成雜湊碼。對於超越CVPR 2024方法，DynRefer在区域级多模态识别任务上，多项SOTA 這一項，我們減少上下文豐富視圖的權重，以避免引入過多冗餘資訊。