搜尋
首頁科技週邊人工智慧MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

幾個月前,來自KAUST(沙烏地阿拉伯阿卜杜拉國王科技大學)的幾位研究者提出了一個名為 MiniGPT- 4 的項目,它能提供類似GPT-4 的圖像理解與對話能力。

例如MiniGPT-4 能夠回答下圖中出現的景象:「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶,遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界中嗎? MiniGPT-4 給出的答案是這張圖片在現實世界中並不常見,並給出了原因。

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

短短幾個月過去了,近日,KAUST 團隊以及來自Meta 的研究者宣布,他們將MiniGPT-4 重磅升級到了MiniGPT-v2 版本。

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

論文網址:https://arxiv.org/pdf/2310.09478.pdf

論文首頁:https://minigpt-v2.github.io/

#Demo: https://minigpt-v2.github.io/

#具體而言,MiniGPT-v2 可以作為一個統一的介面來更好地處理各種視覺- 語言任務。同時,本文建議在訓練模型時對不同的任務使用唯一的辨識符號,這些符號有利於模型輕鬆的區分每個任務指令,並提高每個任務模型的學習效率。

為了評估 MiniGPT-v2 模型的性能,研究者對不同的視覺 - 語言任務進行了廣泛的實驗。結果表明,與先前的視覺 - 語言通用模型(例如 MiniGPT-4、InstructBLIP、 LLaVA 和 Shikra)相比,MiniGPT-v2 在各種基準上實現了 SOTA 或相當的性能。例如 MiniGPT-v2 在 VSR 基準上比 MiniGPT-4 高出 21.3%,比 InstructBLIP 高出 11.3%,比 LLaVA 高出 11.7%。

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

下面我們透過特定的範例來說明 MiniGPT-v2 辨識符號的作用。

例如,透過加上[grounding] 識別符號,模型可以很容易產生一個帶有空間位置感知的圖片描述:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

透過新增[detection] 辨識符號,模型可以直接擷取輸入文字裡面的物件並且找到它們在圖片中的空間位置:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

##框出圖中的一個物體,透過加上[identify] ,可以讓模型直接辨識出來物體的名字:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務透過加上[refer]和一個物體的描述,模型可以直接幫你找到物體對應的空間位置:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

#你也可以不加任何任務辨識符合,和圖片進行對話:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

模型的空間感知也變得更強,可以直接問模型誰出現在圖片的左面,中間和右面:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

方法介紹

#MiniGPT-v2 模型架構如下圖所示,它由三個部分組成:視覺主幹、線性投影層和大型語言模型。

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

視覺主幹:MiniGPT-v2 採用 EVA 作為主幹模型,並且在訓練期間會凍結視覺主幹。訓練模型的影像解析度為 448x448 ,並插入位置編碼以擴展更高的影像解析度。

線性投影層:本文旨在將所有的視覺 token 從凍結的視覺主幹投影到語言模型空間。然而,對於更高解析度的圖像(例如 448x448),投影所有的圖像 token 會導致非常長的序列輸入(例如 1024 個 token),顯著降低了訓練和推理效率。因此,本文簡單地將嵌入空間中相鄰的 4 個視覺 token 連接起來,並將它們一起投影到大型語言模型的同一特徵空間中的單一嵌入中,從而將視覺輸入 token 的數量減少了 4 倍。

大型語言模型:MiniGPT-v2 採用開源的 LLaMA2-chat (7B) 作為語言模型主幹。在該研究中,語言模型被視為各種視覺語言輸入的統一介面。本文直接借助 LLaMA-2 語言 token 來執行各種視覺語言任務。對於需要產生空間位置的視覺基礎任務,本文直接要求語言模型產生邊界框的文字表示以表示其空間位置。

多任務指令訓練

#本文使用任務辨識符號指令來訓練模型,分為三個階段。各階段訓練所使用的資料集如表 2 所示。

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

階段 1:預訓練。本文對弱標記資料集給出了高取樣率,以獲得更多樣化的知識。

階段 2:多任務訓練。為了提高 MiniGPT-v2 在每個任務上的效能,現階段只專注於使用細粒度資料集來訓練模型。研究者從 stage-1 中排除 GRIT-20M 和 LAION 等弱監督資料集,並根據每個任務的頻率更新資料採樣比。該策略使本文模型能夠優先考慮高品質對齊的圖像文字數據,從而在各種任務中獲得卓越的性能。

階段 3:多模態指令調優。隨後,本文專注於使用更多多模態指令資料集來微調模型,並增強其作為聊天機器人的對話能力。

最後,官方也提供了Demo 供讀者測試,例如,下圖中左邊我們上傳一張照片,然後選擇[Detection] ,接著輸入“red balloon”,模型就能辨識出圖中紅色的氣球:

MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務

#有興趣的讀者,可以查看論文首頁以了解更多內容。

以上是MiniGPT-4升級到MiniGPT-v2了,不用GPT-4照樣完成多模態任務的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
10個生成AI編碼擴展,在VS代碼中,您必須探索10個生成AI編碼擴展,在VS代碼中,您必須探索Apr 13, 2025 am 01:14 AM

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

烹飪創新:人工智能如何改變食品服務烹飪創新:人工智能如何改變食品服務Apr 12, 2025 pm 12:09 PM

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

Python名稱空間和可變範圍的綜合指南Python名稱空間和可變範圍的綜合指南Apr 12, 2025 pm 12:00 PM

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

視覺語言模型(VLMS)的綜合指南視覺語言模型(VLMS)的綜合指南Apr 12, 2025 am 11:58 AM

介紹 想像一下,穿過​​美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容聯發科技與kompanio Ultra和Dimenty 9400增強優質陣容Apr 12, 2025 am 11:52 AM

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢本週在AI:沃爾瑪在時尚趨勢之前設定了時尚趨勢Apr 12, 2025 am 11:51 AM

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

生成的AI遇到心理摩托車生成的AI遇到心理摩托車Apr 12, 2025 am 11:50 AM

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

原型:科學家將紙變成塑料原型:科學家將紙變成塑料Apr 12, 2025 am 11:49 AM

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。