搜尋
首頁科技週邊人工智慧CVPR 2024 | 擅長處理複雜場景與語言表達,清華&博世提出全新實例分割網路架構MagNet

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

指代分割 (Referring Image Segmentation,RIS) 是一项极具挑战性的多模态任务,要求算法能够同时理解精细的人类语言和视觉图像信息,并将图像中句子所指代的物体进行像素级别的分割。RIS 技术的突破有望在人机交互、图像编辑、自动驾驶等诸多领域带来革命性变革。它能够极大地提升人机协作的效率和体验。尽管目前最先进的 RIS 算法已经取得了显著进展,但仍然面临着模态差异 (modality gap) 的问题,即图像和文本特征的分布并未完全对齐。这一问题在处理复杂的指代语言表达和罕见语境时尤为突出。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  图 1:细粒度语言 - 图像对齐能力对 RIS 的重要性示意图。红色掩码是目前最先进的 RIS 算法之一 LAVT 的预测结果,而黄色虚线框则是正确的标注。

目前的 RIS 研究主要集中在设计新颖的损失函数或引入创新的网络架构 / 模块,以增强语言 - 图像的分布对齐。尽管取得了显著进展,但仍存在两个根本性问题,导致它们在细粒度语言 - 图像对齐(Fine-grained Visual Grounding)方面能力不足:

1. 这些方法主要依赖于句子级别的语言特征进行语言 - 图像对齐,导致它们在文字级别的语言 - 图像对齐能力较为薄弱。
2. 这些方法在训练过程中往往缺乏显式的监督信号,无法有效地教会模型进行细粒度对齐,导致它们在处理复杂的指代语言时表现不佳。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                                 图 2:现有算法的缺陷

在近期一篇 CVPR 2024 工作中,来自清华大学自动化系和博世中央研究院的联合研究团队设计了一种新的辅助任务 Mask Grounding。通过随机掩码部分文本词汇,并让算法学习预测其真实身份,这一任务旨在显式地教会模型学习文本与视觉对象之间的细粒度对应关系。除此之外,他们还提出了一个新颖的跨模态对齐模块(Cross-modal Alignment Module)和一个新颖的跨模态对齐损失函数 (Cross-modal Alignment Loss),来进一步全面缩小语言和图像之间的模态差距。基于这些技术,他们设计了一个全新的实例分割网络架构 Mask-grounded Network (MagNet)。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

  • 论文标题:Mask Grounding for Referring Image Segmentation
  • 论文地址:https://arxiv.org/abs/2312.12198

在 RefCOCO、RefCOCO 和 G-Ref 数据集上,MagNet 大幅超越了所有之前最优的算法,在整体交并比 (oIoU) 这项核心指标上显著提升了 2.48 个百分点。可视化结果也证实,MagNet 在处理复杂场景和语言表达时具有出色的表现。

方法

MagNet 由 3 个独立互补的模块组成,分别为 Mask Grounding,Cross-modal Alignment Module 和 Cross-modal Alignment Loss。

1.Mask Grounding

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

                              圖3:Mask Grounding 流程圖

如圖3 所示,在給定輸入圖像、對應的指代表達以及分割遮罩的情況下,作者隨機選取句子中的某些詞彙,並將其替換為一個特殊的可學習遮罩token。然後,訓練模型來預測這些被替換詞彙的實際身分。透過成功預測被遮罩 token 的身份,模型能夠理解文本中的哪些詞彙對應於圖像的哪些部分,從而在此過程中學習細粒度語言 - 圖像對齊能力。為了執行這項輔助任務,首先提取遮罩區域的中心座標,並將其傳遞給一個 2 層 MLP,以編碼分割遮罩的特徵。同時,使用線性層將語言特徵映射到與圖像特徵相同的維度。然後,使用提出的遮罩 token 預測器聯合處理這些特徵,並使用注意力機制模組來進行遮罩 token 預測。雖然 Mask Grounding 需要透過語言編碼器進行額外的前向傳遞來處理被遮罩的表達式,但由於語言編碼器非常小,整體計算成本幾乎可以忽略不計。

2.Cross-modal Alignment Module (CAM)

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

##                                                 圖上中:Cross-modal Alignment Module 結構圖


##13!模態對齊模組(CAM),透過在執行語言- 影像融合之前將全局上下文先驗注入影像特徵來增強語言- 影像對齊效果。 CAM 首先使用不同視窗大小的池化操作來產生 K 個不同金字塔尺度的特徵圖。然後,每個特徵圖透過 3 層 MLP 以更好地提取全局訊息,並與另一個模態進行交叉注意力操作。接下來,所有輸出特徵透過雙線性插值上取樣到原始特徵圖尺寸,並在通道維度上拼接。隨後,使用一個 2 層 MLP 將拼接後的特徵通道數減少回原始維度。為了防止多模態訊號淹沒原始訊號,使用一個具有 Tanh 非線性的閘控單元來調製最終輸出。最後,這個門控後的特徵被加回輸入特徵中,然後傳遞給影像或語言編碼器的下一階段。在作者的實作中,CAM 被加到圖像和語言編碼器的每個階段末尾。

CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet

3.Cross-modal Alignment Loss (CAL)

##                                      中使用模態對齊損失函數(CAL)。圖五展示了此損失函數的數學公式。與先前工作不同,CAL 同時考慮了像素到像素 (Pixel-to-Pixel,P2P) 和像素到文字 (Pixel-to-Text,P2T) 之間的對齊。精確的像素到像素對齊能確保模型能分割輸出具有準確形狀和邊界的分割掩碼,而精確的像素到文字對齊能使模型能夠正確地將文字描述與其匹配的圖像區域進行合理的關聯。

實驗

#在表1 中,作者使用oIoU 指標評估MagNet,並與現有最先進的演算法做性能比較。測試數據為 RefCOCO、RefCOCO 和 G-Ref。在單一和多個 / 額外資料集的設定下,MagNet 的效能在這些資料集上全都是 SOTA。

                                        表 1:实验结果

可视化结果CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
                               图 6:MagNet 可视化结果

在图 6 中,我们可以看到,MagNet 的可视化结果也非常突出,在许多困难的场景中都比对比基准 LAVT 强很多。

小结

这篇文章深入探讨了指代分割(RIS)领域的挑战和当前存在的问题,特别是在细粒度语言 - 图像对齐方面的不足。针对这些问题,清华大学和博世中央研究院的研究人员提出了一种新的方法,名为 MagNet,通过引入辅助任务 Mask Grounding、跨模态对齐模块和跨模态对齐损失函数,全面提升了语言和图像之间的对齐效果。实验证明,MagNet 在 RefCOCO、RefCOCO 和 G-Ref 数据集上均取得了显著优异的性能,超越了之前最先进的算法,表现出了强大的泛化能力。可视化结果也证实了 MagNet 在处理复杂场景和语言表达时的优越性。这一研究为指代分割领域的进一步发展提供了有益的启示,有望推动该领域取得更大的突破。

团队介绍

此论文来源于清华大学自动化系(https://www.au.tsinghua.edu.cn)和博世中央研究院(https://www.bosch.com/research/)。其中论文一作庄荣贤为清华大学在读博士生,并在博世中央研究院实习;项目负责人为邱旭冲博士,任博世中央研究院资深研发科学家;通讯作者为清华大学自动化系黄高教授。

以上是CVPR 2024 | 擅長處理複雜場景與語言表達,清華&博世提出全新實例分割網路架構MagNet的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议4090生成器:与A100平台相比,token生成速度仅低于18%,上交推理引擎赢得热议Dec 21, 2023 pm 03:25 PM

PowerInfer提高了在消费级硬件上运行AI的效率上海交大团队最新推出了超强CPU/GPULLM高速推理引擎PowerInfer。PowerInfer和llama.cpp都在相同的硬件上运行,并充分利用了RTX4090上的VRAM。这个推理引擎速度有多快?在单个NVIDIARTX4090GPU上运行LLM,PowerInfer的平均token生成速率为13.20tokens/s,峰值为29.08tokens/s,仅比顶级服务器A100GPU低18%,可适用于各种LLM。PowerInfer与

思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了思维链CoT进化成思维图GoT,比思维树更优秀的提示工程技术诞生了Sep 05, 2023 pm 05:53 PM

要让大型语言模型(LLM)充分发挥其能力,有效的prompt设计方案是必不可少的,为此甚至出现了promptengineering(提示工程)这一新兴领域。在各种prompt设计方案中,思维链(CoT)凭借其强大的推理能力吸引了许多研究者和用户的眼球,基于其改进的CoT-SC以及更进一步的思维树(ToT)也收获了大量关注。近日,苏黎世联邦理工学院、Cledar和华沙理工大学的一个研究团队提出了更进一步的想法:思维图(GoT)。让思维从链到树到图,为LLM构建推理过程的能力不断得到提升,研究者也通

复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来Sep 23, 2023 am 09:01 AM

近期,复旦大学自然语言处理团队(FudanNLP)推出LLM-basedAgents综述论文,全文长达86页,共有600余篇参考文献!作者们从AIAgent的历史出发,全面梳理了基于大型语言模型的智能代理现状,包括:LLM-basedAgent的背景、构成、应用场景、以及备受关注的代理社会。同时,作者们探讨了Agent相关的前瞻开放问题,对于相关领域的未来发展趋势具有重要价值。论文链接:https://arxiv.org/pdf/2309.07864.pdfLLM-basedAgent论文列表:

FATE 2.0发布:实现异构联邦学习系统互联FATE 2.0发布:实现异构联邦学习系统互联Jan 16, 2024 am 11:48 AM

FATE2.0全面升级,推动隐私计算联邦学习规模化应用FATE开源平台宣布发布FATE2.0版本,作为全球领先的联邦学习工业级开源框架。此次更新实现了联邦异构系统之间的互联互通,持续增强了隐私计算平台的互联互通能力。这一进展进一步推动了联邦学习与隐私计算规模化应用的发展。FATE2.0以全面互通为设计理念,采用开源方式对应用层、调度、通信、异构计算(算法)四个层面进行改造,实现了系统与系统、系统与算法、算法与算法之间异构互通的能力。FATE2.0的设计兼容了北京金融科技产业联盟的《金融业隐私计算

吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了吞吐量提升5倍,联合设计后端系统和前端语言的LLM接口来了Mar 01, 2024 pm 10:55 PM

大型语言模型(LLM)被广泛应用于需要多个链式生成调用、高级提示技术、控制流以及与外部环境交互的复杂任务。尽管如此,目前用于编程和执行这些应用程序的高效系统却存在明显的不足之处。研究人员最近提出了一种新的结构化生成语言(StructuredGenerationLanguage),称为SGLang,旨在改进与LLM的交互性。通过整合后端运行时系统和前端语言的设计,SGLang使得LLM的性能更高、更易控制。这项研究也获得了机器学习领域的知名学者、CMU助理教授陈天奇的转发。总的来说,SGLang的

大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」大模型也有小偷?为保护你的参数,上交大给大模型制作「人类可读指纹」Feb 02, 2024 pm 09:33 PM

将不同的基模型象征为不同品种的狗,其中相同的「狗形指纹」表明它们源自同一个基模型。大模型的预训练需要耗费大量的计算资源和数据,因此预训练模型的参数成为各大机构重点保护的核心竞争力和资产。然而,与传统软件知识产权保护不同,对预训练模型参数盗用的判断存在以下两个新问题:1)预训练模型的参数,尤其是千亿级别模型的参数,通常不会开源。预训练模型的输出和参数会受到后续处理步骤(如SFT、RLHF、continuepretraining等)的影响,这使得判断一个模型是否基于另一个现有模型微调得来变得困难。无

220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升220亿晶体管,IBM机器学习专用处理器NorthPole,能效25倍提升Oct 23, 2023 pm 03:13 PM

IBM再度发力。随着AI系统的飞速发展,其能源需求也在不断增加。训练新系统需要大量的数据集和处理器时间,因此能耗极高。在某些情况下,执行一些训练好的系统,智能手机就能轻松胜任。但是,执行的次数太多,能耗也会增加。幸运的是,有很多方法可以降低后者的能耗。IBM和英特尔已经试验过模仿实际神经元行为设计的处理器。IBM还测试了在相变存储器中执行神经网络计算,以避免重复访问RAM。现在,IBM又推出了另一种方法。该公司的新型NorthPole处理器综合了上述方法的一些理念,并将其与一种非常精简的计算运行

何恺明和谢赛宁团队成功跟随解构扩散模型探索,最终创造出备受赞誉的去噪自编码器何恺明和谢赛宁团队成功跟随解构扩散模型探索,最终创造出备受赞誉的去噪自编码器Jan 29, 2024 pm 02:15 PM

去噪扩散模型(DDM)是目前广泛应用于图像生成的一种方法。最近,XinleiChen、ZhuangLiu、谢赛宁和何恺明四人团队对DDM进行了解构研究。通过逐步剥离其组件,他们发现DDM的生成能力逐渐下降,但表征学习能力仍然保持一定水平。这说明DDM中的某些组件对于表征学习的作用可能并不重要。针对当前计算机视觉等领域的生成模型,去噪被认为是一种核心方法。这类方法通常被称为去噪扩散模型(DDM),通过学习一个去噪自动编码器(DAE),能够通过扩散过程有效地消除多个层级的噪声。这些方法实现了出色的图

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
2 週前By尊渡假赌尊渡假赌尊渡假赌
倉庫:如何復興隊友
1 個月前By尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island冒險:如何獲得巨型種子
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器