首頁 >科技週邊 >人工智慧 >大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

WBOY
WBOY轉載
2024-01-05 12:56:09661瀏覽

多模態大模型整合了偵測分割模組後,摳圖變得更簡單了!

我們的模型可以透過自然語言描述來快速標註要尋找的物體,並提供文字解釋,讓您輕鬆完成任務。

新加坡國立大學NExT 實驗室與清華劉知遠團隊合作開發的全新多模態大模型,為我們提供了強大的支援。這個模型的背後是經過精心打造的,它能夠在解謎過程中為玩家們提供全面的幫助和指導。它結合了多種模態的訊息,為玩家們呈現出全新的解謎方法和策略。這個模型的應用將為玩家們

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

隨著GPT-4v的推出,多模態領域迎來了一系列新模型,如LLaVA、BLIP-2等等。這些模型的出現在提升了多模態任務的表現和效果方面做出了巨大貢獻。

為了進一步提升多模態大模型的區域理解能力,研究團隊發展了一個名為NExT-Chat的多模態模型。此模型具備同時進行對話與檢測、分割的能力。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

NExT-Chat的最大亮點是其多模態模型中引入了位置輸入和輸出的能力。這項特點使得NExT-Chat在互動中能夠更準確地理解和回應使用者的需求。透過位置輸入,NExT-Chat可以根據使用者所在的地理位置提供相關的資訊和建議,從而提升使用者體驗。而透過位置輸出,NExT-Chat可以將特定地理位置的相關資訊傳達給用戶,幫助他們更好

其中,位置輸入能力是指根據指定的區域回答問題,而位置輸出能力則是指定位元對話中提及的物體。這兩種能力在解謎遊戲中非常重要。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

即使是複雜的定位問題,也能迎刃而解:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

除了物體定位,NExT-Chat還可以將圖片或其中的某個部分進行描述:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果
分析完影像的內容之後,NExT-Chat可以利用得到的資訊進行推理:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

為了準確評估NExT-Chat的表現,研究團隊在多個任務資料集上進行了測試。

在多個資料集上取得SOTA

作者首先展示了NExT-Chat在指代表達式分割(RES)任務上的實驗結果。

雖然僅用了極少量的分割數據,NExT-Chat卻展現出了良好的指代分割能力,甚至打敗了一系列有監督模型(如MCN,VLT等)和用了5倍以上分割掩模標註的LISA方法。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△RES任務上NExT-Chat結果

#接著,研究團隊展示了NExT-Chat在REC任務上的實驗結果。

如下表所示,相較於相當一系列的有監督方法(如UNITER),NExT-Chat都可以取得更優的效果。

一個有趣的發現是NExT-Chat比使用了類似框訓練資料的Shikra效果要稍差一些。

作者猜測,這是由於pix2emb方法中LM loss和detection loss更難以平衡,以及Shikra更貼近現有的純文本大模型的預訓練形式導致的。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△REC任務上NExT-Chat結果

在影像幻覺任務上,如表3所示,NExT-Chat可以在Random和Popular數據集上取得最優的準確率。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△POPE資料集上NExT-Chat結果

在區域描述任務上,NExT-Chat也能取得最優的CIDEr表現,且在該指標打敗了4-shot情況下的Kosmos- 2。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△RefCOCOg資料集上NExT-Chat結果

那麼,NExT-Chat背後都採用了哪些方法呢?

提出影像編碼新方式

傳統方法的缺陷

傳統的模型主要透過pix2seq的方式進行LLM相關的位置建模。

例如Kosmos-2將圖像劃分成32x32的區塊,用每個區塊的id來代表點的座標;Shikra將物體框的座標轉化為純文字的形式從而使得LLM可以理解座標。

但使用pix2seq方法的模型輸出主要限制在框和點這樣的簡單格式,而很難泛化到其他更密集的位置表示格式,例如segmentation mask。

為了解決這個問題,本文提出了一種全新的基於embedding的位置建模方式pix2emb。

pix2emb方法

不同於pix2seq,pix2emb所有的位置資訊都透過對應的encoder和decoder進行編碼和解碼,而不是藉助LLM本身的文字預測頭。

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△pix2emb方法簡單範例

#如上圖所示,位置輸入被對應的encoder編碼為位置embedding,而輸出的位置embedding則透過Box Decoder和Mask Decoder轉換為框架和遮罩。

這樣做帶來了兩個好處:

  • 模型的輸出格式可以非常方便的擴展到更多複雜形式,例如segmentation mask。
  • 模型可以非常容易的定位任務中已有的實踐方式,例如本文的detection loss採用L1 Loss和GIoU Loss (pix2seq則只能使用文本生成loss),本文的mask decoder借助了已有的SAM來做初始化。

透過將pix2seq與pix2emb結合,作者訓練了全新的NExT-Chat模型。

NExT-Chat模型

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

△NExT-Chat模型架構

NExT-Chat整體採用了LLaVA架構,即透過Image Encoder來編碼圖像資訊並輸入LLM進行理解,並在此基礎上添加了對應的Box Encoder和兩種位置輸出的Decoder。

為了解決LLM不知道何時該使用語言的LM head還是位置解碼器的問題,NExT-Chat額外引入一個全新的token類型來標識位置資訊。

如果模型輸出了,則該token的embedding會被送入對應的位置解碼器進行解碼而不是語言解碼器。

此外,為了維持輸入階段和輸出階段位置資訊的一致性,NExT-Chat額外引入了一個對齊約束:

大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果

##△位置輸入、輸出限制
如上圖所示,box和位置embedding會分別透過解碼器、編碼器或解碼器編碼器組合,並要求前後不變更。

作者發現此方法可以大幅促進位置輸入能力的收斂。

而NExT-Chat的模型訓練主要包含3個階段:

    第一階段:訓練模型
  • 基本的框輸入輸出基本能力。 NExT-Chat採用Flickr-30K,RefCOCO,VisualGenome等包含框輸入輸出的資料集進行預訓練。訓練過程中,LLM參數會被全部訓練。
  • 第二階段:
  • 調整LLM的指令遵循能力。透過一些Shikra-RD,LLaVA-instruct之類的指令微調資料使得模型可以更好的回應人類的要求,輸出更人性化的結果。
  • 第三階段:
  • 賦予NExT-Chat模型分割能力。透過以上兩階段訓練,模型已經有很好的位置建模能力了。作者進一步將此能力擴展到mask輸出。實驗發現,透過使用極少量的mask標註資料和訓練時間(大約3小時),NExT-Chat可以快速的擁有良好的分割能力。
這樣的訓練流程的好處是:偵測框資料豐富且訓練開銷更小。

NExT-Chat透過在充沛的檢測框資料訓練基本的位置建模能力,之後可以快速的擴展到難度更大且標註更稀缺的分割任務上。

以上是大規模模型已經可以為圖像做標註,只需簡單對話!清華&NUS的研究成果的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除