CVPR 2024 | 擅長處理複雜場景與語言表達，清華&博世提出全新實例分割網路架構MagNet-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

CVPR 2024 | 擅長處理複雜場景與語言表達，清華&博世提出全新實例分割網路架構MagNet

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 26, 2024 pm 06:10 PM

工程指稱分割

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

指代分割 (Referring Image Segmentation，RIS) 是一项极具挑战性的多模态任务，要求算法能够同时理解精细的人类语言和视觉图像信息，并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展，但仍然面临着模态差异 (modality gap) 的问题，即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{图 1：细粒度语言 - 图像对齐能力对 RIS 的重要性示意图。红色掩码是目前最先进的 RIS 算法之一 LAVT 的预测结果，而黄色虚线框则是正确的标注。}

目前的 RIS 研究主要集中在设计新颖的损失函数或引入创新的网络架构 / 模块，以增强语言 - 图像的分布对齐。尽管取得了显著进展，但仍存在两个根本性问题，导致它们在细粒度语言 - 图像对齐（Fine-grained Visual Grounding）方面能力不足：

1. 这些方法主要依赖于句子级别的语言特征进行语言 - 图像对齐，导致它们在文字级别的语言 - 图像对齐能力较为薄弱。

2. 这些方法在训练过程中往往缺乏显式的监督信号，无法有效地教会模型进行细粒度对齐，导致它们在处理复杂的指代语言时表现不佳。

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{图 2：现有算法的缺陷}

在近期一篇 CVPR 2024 工作中，来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。通过随机掩码部分文本词汇，并让算法学习预测其真实身份，这一任务旨在显式地教会模型学习文本与视觉对象之间的细粒度对应关系。除此之外，他们还提出了一个新颖的跨模态对齐模块（Cross-modal Alignment Module）和一个新颖的跨模态对齐损失函数 (Cross-modal Alignment Loss)，来进一步全面缩小语言和图像之间的模态差距。基于这些技术，他们设计了一个全新的实例分割网络架构 Mask-grounded Network (MagNet)。

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

论文标题：Mask Grounding for Referring Image Segmentation
论文地址：https://arxiv.org/abs/2312.12198

在 RefCOCO、RefCOCO 和 G-Ref 数据集上，MagNet 大幅超越了所有之前最优的算法，在整体交并比 (oIoU) 这项核心指标上显著提升了 2.48 个百分点。可视化结果也证实，MagNet 在处理复杂场景和语言表达时具有出色的表现。

方法

MagNet 由 3 个独立互补的模块组成，分别为 Mask Grounding，Cross-modal Alignment Module 和 Cross-modal Alignment Loss。

1.Mask Grounding

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{圖3：Mask Grounding 流程圖}

如圖3 所示，在給定輸入圖像、對應的指代表達以及分割遮罩的情況下，作者隨機選取句子中的某些詞彙，並將其替換為一個特殊的可學習遮罩token。然後，訓練模型來預測這些被替換詞彙的實際身分。透過成功預測被遮罩 token 的身份，模型能夠理解文本中的哪些詞彙對應於圖像的哪些部分，從而在此過程中學習細粒度語言 - 圖像對齊能力。為了執行這項輔助任務，首先提取遮罩區域的中心座標，並將其傳遞給一個 2 層 MLP，以編碼分割遮罩的特徵。同時，使用線性層將語言特徵映射到與圖像特徵相同的維度。然後，使用提出的遮罩 token 預測器聯合處理這些特徵，並使用注意力機制模組來進行遮罩 token 預測。雖然 Mask Grounding 需要透過語言編碼器進行額外的前向傳遞來處理被遮罩的表達式，但由於語言編碼器非常小，整體計算成本幾乎可以忽略不計。

2.Cross-modal Alignment Module (CAM)

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

## 圖上中：Cross-modal Alignment Module 結構圖

##13！模態對齊模組（CAM），透過在執行語言- 影像融合之前將全局上下文先驗注入影像特徵來增強語言- 影像對齊效果。 CAM 首先使用不同視窗大小的池化操作來產生 K 個不同金字塔尺度的特徵圖。然後，每個特徵圖透過 3 層 MLP 以更好地提取全局訊息，並與另一個模態進行交叉注意力操作。接下來，所有輸出特徵透過雙線性插值上取樣到原始特徵圖尺寸，並在通道維度上拼接。隨後，使用一個 2 層 MLP 將拼接後的特徵通道數減少回原始維度。為了防止多模態訊號淹沒原始訊號，使用一個具有 Tanh 非線性的閘控單元來調製最終輸出。最後，這個門控後的特徵被加回輸入特徵中，然後傳遞給影像或語言編碼器的下一階段。在作者的實作中，CAM 被加到圖像和語言編碼器的每個階段末尾。

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

3.Cross-modal Alignment Loss (CAL)

## 中使用模態對齊損失函數(CAL)。圖五展示了此損失函數的數學公式。與先前工作不同，CAL 同時考慮了像素到像素 (Pixel-to-Pixel，P2P) 和像素到文字 (Pixel-to-Text，P2T) 之間的對齊。精確的像素到像素對齊能確保模型能分割輸出具有準確形狀和邊界的分割掩碼，而精確的像素到文字對齊能使模型能夠正確地將文字描述與其匹配的圖像區域進行合理的關聯。

實驗

#在表1 中，作者使用oIoU 指標評估MagNet，並與現有最先進的演算法做性能比較。測試數據為 RefCOCO、RefCOCO 和 G-Ref。在單一和多個 / 額外資料集的設定下，MagNet 的效能在這些資料集上全都是 SOTA。

^{表 1：实验结果}

可视化结果

CVPR 2024 | 擅长处理复杂场景和语言表达，清华&博世提出全新实例分割网络架构MagNet

^{图 6：MagNet 可视化结果}

在图 6 中，我们可以看到，MagNet 的可视化结果也非常突出，在许多困难的场景中都比对比基准 LAVT 强很多。

小结

这篇文章深入探讨了指代分割（RIS）领域的挑战和当前存在的问题，特别是在细粒度语言 - 图像对齐方面的不足。针对这些问题，清华大学和博世中央研究院的研究人员提出了一种新的方法，名为 MagNet，通过引入辅助任务 Mask Grounding、跨模态对齐模块和跨模态对齐损失函数，全面提升了语言和图像之间的对齐效果。实验证明，MagNet 在 RefCOCO、RefCOCO 和 G-Ref 数据集上均取得了显著优异的性能，超越了之前最先进的算法，表现出了强大的泛化能力。可视化结果也证实了 MagNet 在处理复杂场景和语言表达时的优越性。这一研究为指代分割领域的进一步发展提供了有益的启示，有望推动该领域取得更大的突破。

团队介绍

此论文来源于清华大学自动化系（https://www.au.tsinghua.edu.cn）和博世中央研究院（https://www.bosch.com/research/）。其中论文一作庄荣贤为清华大学在读博士生，并在博世中央研究院实习；项目负责人为邱旭冲博士，任博世中央研究院资深研发科学家；通讯作者为清华大学自动化系黄高教授。

以上是CVPR 2024 | 擅長處理複雜場景與語言表達，清華&博世提出全新實例分割網路架構MagNet的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：机器之心。如有侵權，請聯絡admin@php.cn刪除

META的新AI助手：生產力助推器還是時間下沉？May 01, 2025 am 11:18 AM

Meta攜手Nvidia、IBM和Dell等合作夥伴，拓展了Llama Stack的企業級部署整合。在安全方面，Meta推出了Llama Guard 4、LlamaFirewall和CyberSecEval 4等新工具，並啟動了Llama Defenders計劃，以增強AI安全性。此外，Meta還向10個全球機構（包括致力於改善公共服務、醫療保健和教育的初創企業）發放了總額150萬美元的Llama Impact Grants。由Llama 4驅動的全新Meta AI應用，被設想為Meta AI

80％的Zers將嫁給AI：研究May 01, 2025 am 11:17 AM

公司開創性的人類互動公司Joi AI介紹了“ AI-Iatsionship”一詞來描述這些不斷發展的關係。 Joi AI的關係治療師Jaime Bronstein澄清說，這並不是要取代人類C

AI使互聯網的機器人問題變得更糟。這家耗資20億美元的創業公司在前線May 01, 2025 am 11:16 AM

在線欺詐和機器人攻擊對企業構成了重大挑戰。零售商與機器人ho積產品，銀行戰斗帳戶接管以及社交媒體平台與模仿者鬥爭。 AI的興起加劇了這個問題，Rende

賣給機器人：將創造或破壞業務的營銷革命May 01, 2025 am 11:15 AM

AI代理人有望徹底改變營銷，並可能超過以前技術轉變的影響。這些代理代表了生成AI的重大進步，不僅是處理諸如chatgpt之類的處理信息，而且還採取了Actio

計算機視覺技術如何改變NBA季后賽主持人May 01, 2025 am 11:14 AM

人工智能對關鍵NBA遊戲4決策的影響兩場關鍵遊戲4 NBA對決展示了AI在主持儀式中改變遊戲規則的角色。首先，丹佛的尼古拉·喬基奇（Nikola Jokic）錯過了三分球，導致亞倫·戈登（Aaron Gordon）的最後一秒鐘。索尼的鷹

AI如何加速再生醫學的未來May 01, 2025 am 11:13 AM

傳統上，擴大重生醫學專業知識在全球範圍內要求廣泛的旅行，動手培訓和多年指導。現在，AI正在改變這一景觀，克服地理局限性並通過EN加速進步

Intel Foundry Direct Connect 2025的關鍵要點May 01, 2025 am 11:12 AM

英特爾正努力使其製造工藝重回領先地位，同時努力吸引無晶圓廠半導體客戶在其晶圓廠製造芯片。為此，英特爾必須在業界建立更多信任，不僅要證明其工藝的競爭力，還要證明合作夥伴能夠以熟悉且成熟的工作流程、一致且高可靠性地製造芯片。今天我聽到的一切都讓我相信英特爾正在朝著這個目標前進。新任首席執行官譚立柏的主題演講拉開了當天的序幕。譚立柏直率而簡潔。他概述了英特爾代工服務的若干挑戰，以及公司為應對這些挑戰、為英特爾代工服務的未來規劃成功路線而採取的措施。譚立柏談到了英特爾代工服務正在實施的流程，以更以客