搜尋
首頁科技週邊人工智慧大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

多模態大模型整合了偵測分割模組後,摳圖變得更簡單了!

我們的模型可以透過自然語言描述來快速標註要尋找的物體,並提供文字解釋,讓您輕鬆完成任務。

新加坡國立大學NExT 實驗室與清華劉知遠團隊合作開發的全新多模態大模型,為我們提供了強大的支援。這個模型的背後是經過精心打造的,它能夠在解謎過程中為玩家們提供全面的幫助和指導。它結合了多種模態的訊息,為玩家們呈現出全新的解謎方法和策略。這個模型的應用將為玩家們

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

隨著GPT-4v的推出,多模態領域迎來了一系列新模型,如LLaVA、BLIP-2等等。這些模型的出現在提升了多模態任務的表現和效果方面做出了巨大貢獻。

為了進一步提升多模態大模型的區域理解能力,研究團隊發展了一個名為NExT-Chat的多模態模型。此模型具備同時進行對話與檢測、分割的能力。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

NExT-Chat的最大亮點是其多模態模型中引入了位置輸入和輸出的能力。這項特點使得NExT-Chat在互動中能夠更準確地理解和回應使用者的需求。透過位置輸入,NExT-Chat可以根據使用者所在的地理位置提供相關的資訊和建議,從而提升使用者體驗。而透過位置輸出,NExT-Chat可以將特定地理位置的相關資訊傳達給用戶,幫助他們更好

其中,位置輸入能力是指根據指定的區域回答問題,而位置輸出能力則是指定位元對話中提及的物體。這兩種能力在解謎遊戲中非常重要。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

即使是複雜的定位問題,也能迎刃而解:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

除了物體定位,NExT-Chat還可以將圖片或其中的某個部分進行描述:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果
分析完影像的內容之後,NExT-Chat可以利用得到的資訊進行推理:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

為了準確評估NExT-Chat的表現,研究團隊在多個任務資料集上進行了測試。

在多個資料集上取得SOTA

作者首先展示了NExT-Chat在指代表達式分割(RES)任務上的實驗結果。

雖然僅用了極少量的分割數據,NExT-Chat卻展現出了良好的指代分割能力,甚至打敗了一系列有監督模型(如MCN,VLT等)和用了5倍以上分割掩模標註的LISA方法。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△RES任務上NExT-Chat結果

#接著,研究團隊展示了NExT-Chat在REC任務上的實驗結果。

如下表所示,相較於相當一系列的有監督方法(如UNITER),NExT-Chat都可以取得更優的效果。

一個有趣的發現是NExT-Chat比使用了類似框訓練資料的Shikra效果要稍差一些。

作者猜測,這是由於pix2emb方法中LM loss和detection loss更難以平衡,以及Shikra更貼近現有的純文本大模型的預訓練形式導致的。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△REC任務上NExT-Chat結果

在影像幻覺任務上,如表3所示,NExT-Chat可以在Random和Popular數據集上取得最優的準確率。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△POPE資料集上NExT-Chat結果

在區域描述任務上,NExT-Chat也能取得最優的CIDEr表現,且在該指標打敗了4-shot情況下的Kosmos- 2。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△RefCOCOg資料集上NExT-Chat結果

那麼,NExT-Chat背後都採用了哪些方法呢?

提出影像編碼新方式

傳統方法的缺陷

傳統的模型主要透過pix2seq的方式進行LLM相關的位置建模。

例如Kosmos-2將圖像劃分成32x32的區塊,用每個區塊的id來代表點的座標;Shikra將物體框的座標轉化為純文字的形式從而使得LLM可以理解座標。

但使用pix2seq方法的模型輸出主要限制在框和點這樣的簡單格式,而很難泛化到其他更密集的位置表示格式,例如segmentation mask。

為了解決這個問題,本文提出了一種全新的基於embedding的位置建模方式pix2emb。

pix2emb方法

不同於pix2seq,pix2emb所有的位置資訊都透過對應的encoder和decoder進行編碼和解碼,而不是藉助LLM本身的文字預測頭。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△pix2emb方法簡單範例

#如上圖所示,位置輸入被對應的encoder編碼為位置embedding,而輸出的位置embedding則透過Box Decoder和Mask Decoder轉換為框架和遮罩。

這樣做帶來了兩個好處:

  • 模型的輸出格式可以非常方便的擴展到更多複雜形式,例如segmentation mask。
  • 模型可以非常容易的定位任務中已有的實踐方式,例如本文的detection loss採用L1 Loss和GIoU Loss (pix2seq則只能使用文本生成loss),本文的mask decoder借助了已有的SAM來做初始化。

透過將pix2seq與pix2emb結合,作者訓練了全新的NExT-Chat模型。

NExT-Chat模型

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△NExT-Chat模型架構

NExT-Chat整體採用了LLaVA架構,即透過Image Encoder來編碼圖像資訊並輸入LLM進行理解,並在此基礎上添加了對應的Box Encoder和兩種位置輸出的Decoder。

為了解決LLM不知道何時該使用語言的LM head還是位置解碼器的問題,NExT-Chat額外引入一個全新的token類型來標識位置資訊。

如果模型輸出了,則該token的embedding會被送入對應的位置解碼器進行解碼而不是語言解碼器。

此外,為了維持輸入階段和輸出階段位置資訊的一致性,NExT-Chat額外引入了一個對齊約束:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

##△位置輸入、輸出限制
如上圖所示,box和位置embedding會分別透過解碼器、編碼器或解碼器編碼器組合,並要求前後不變更。

作者發現此方法可以大幅促進位置輸入能力的收斂。

而NExT-Chat的模型訓練主要包含3個階段:

    第一階段:訓練模型
  • 基本的框輸入輸出基本能力。 NExT-Chat採用Flickr-30K,RefCOCO,VisualGenome等包含框輸入輸出的資料集進行預訓練。訓練過程中,LLM參數會被全部訓練。
  • 第二階段:
  • 調整LLM的指令遵循能力。透過一些Shikra-RD,LLaVA-instruct之類的指令微調資料使得模型可以更好的回應人類的要求,輸出更人性化的結果。
  • 第三階段:
  • 賦予NExT-Chat模型分割能力。透過以上兩階段訓練,模型已經有很好的位置建模能力了。作者進一步將此能力擴展到mask輸出。實驗發現,透過使用極少量的mask標註資料和訓練時間(大約3小時),NExT-Chat可以快速的擁有良好的分割能力。
這樣的訓練流程的好處是:偵測框資料豐富且訓練開銷更小。

NExT-Chat透過在充沛的檢測框資料訓練基本的位置建模能力,之後可以快速的擴展到難度更大且標註更稀缺的分割任務上。

以上是大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能