MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

PHPz

Oct 17, 2023 pm 02:41 PM

ai數據

幾個月前，來自KAUST（沙烏地阿拉伯阿卜杜拉國王科技大學）的幾位研究者提出了一個名為 MiniGPT- 4 的項目，它能提供類似GPT-4 的圖像理解與對話能力。

例如MiniGPT-4 能夠回答下圖中出現的景象：「圖片描述的是生長在冰凍湖上的一株仙人掌。仙人掌周圍有巨大的冰晶，遠處還有白雪皚皚的山峰……」假如你接著詢問這種景象能夠發生在現實世界中嗎？ MiniGPT-4 給出的答案是這張圖片在現實世界中並不常見，並給出了原因。

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

短短幾個月過去了，近日，KAUST 團隊以及來自Meta 的研究者宣布，他們將MiniGPT-4 重磅升級到了MiniGPT-v2 版本。

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

論文網址：https://arxiv.org/pdf/2310.09478.pdf

論文首頁：https://minigpt-v2.github.io/

#Demo: https://minigpt-v2.github.io/

#具體而言，MiniGPT-v2 可以作為一個統一的介面來更好地處理各種視覺- 語言任務。同時，本文建議在訓練模型時對不同的任務使用唯一的辨識符號，這些符號有利於模型輕鬆的區分每個任務指令，並提高每個任務模型的學習效率。

為了評估 MiniGPT-v2 模型的性能，研究者對不同的視覺 - 語言任務進行了廣泛的實驗。結果表明，與先前的視覺 - 語言通用模型（例如 MiniGPT-4、InstructBLIP、 LLaVA 和 Shikra）相比，MiniGPT-v2 在各種基準上實現了 SOTA 或相當的性能。例如 MiniGPT-v2 在 VSR 基準上比 MiniGPT-4 高出 21.3%，比 InstructBLIP 高出 11.3%，比 LLaVA 高出 11.7%。

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

下面我們透過特定的範例來說明 MiniGPT-v2 辨識符號的作用。

例如，透過加上[grounding] 識別符號，模型可以很容易產生一個帶有空間位置感知的圖片描述：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

透過新增[detection] 辨識符號，模型可以直接擷取輸入文字裡面的物件並且找到它們在圖片中的空間位置：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

##框出圖中的一個物體，透過加上[identify] ，可以讓模型直接辨識出來物體的名字：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務透過加上[refer]和一個物體的描述，模型可以直接幫你找到物體對應的空間位置：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

#你也可以不加任何任務辨識符合，和圖片進行對話：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

模型的空間感知也變得更強，可以直接問模型誰出現在圖片的左面，中間和右面：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

方法介紹

#MiniGPT-v2 模型架構如下圖所示，它由三個部分組成：視覺主幹、線性投影層和大型語言模型。

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

視覺主幹：MiniGPT-v2 採用 EVA 作為主幹模型，並且在訓練期間會凍結視覺主幹。訓練模型的影像解析度為 448x448 ，並插入位置編碼以擴展更高的影像解析度。

線性投影層：本文旨在將所有的視覺 token 從凍結的視覺主幹投影到語言模型空間。然而，對於更高解析度的圖像（例如 448x448），投影所有的圖像 token 會導致非常長的序列輸入（例如 1024 個 token），顯著降低了訓練和推理效率。因此，本文簡單地將嵌入空間中相鄰的 4 個視覺 token 連接起來，並將它們一起投影到大型語言模型的同一特徵空間中的單一嵌入中，從而將視覺輸入 token 的數量減少了 4 倍。

大型語言模型：MiniGPT-v2 採用開源的 LLaMA2-chat (7B) 作為語言模型主幹。在該研究中，語言模型被視為各種視覺語言輸入的統一介面。本文直接借助 LLaMA-2 語言 token 來執行各種視覺語言任務。對於需要產生空間位置的視覺基礎任務，本文直接要求語言模型產生邊界框的文字表示以表示其空間位置。

多任務指令訓練

#本文使用任務辨識符號指令來訓練模型，分為三個階段。各階段訓練所使用的資料集如表 2 所示。

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

階段 1：預訓練。本文對弱標記資料集給出了高取樣率，以獲得更多樣化的知識。

階段 2：多任務訓練。為了提高 MiniGPT-v2 在每個任務上的效能，現階段只專注於使用細粒度資料集來訓練模型。研究者從 stage-1 中排除 GRIT-20M 和 LAION 等弱監督資料集，並根據每個任務的頻率更新資料採樣比。該策略使本文模型能夠優先考慮高品質對齊的圖像文字數據，從而在各種任務中獲得卓越的性能。

階段 3：多模態指令調優。隨後，本文專注於使用更多多模態指令資料集來微調模型，並增強其作為聊天機器人的對話能力。

最後，官方也提供了Demo 供讀者測試，例如，下圖中左邊我們上傳一張照片，然後選擇[Detection] ，接著輸入“red balloon”，模型就能辨識出圖中紅色的氣球：

MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務

#有興趣的讀者，可以查看論文首頁以了解更多內容。

以上是MiniGPT-4升級到MiniGPT-v2了，不用GPT-4照樣完成多模態任務的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

加固芬特的指南 - 分析VidhyaApr 28, 2025 am 09:30 AM

增強者通過教授模型根據人類反饋進行調整來震撼AI的開發。它將監督的學習基金會與基於獎勵的更新融合在一起，使其更安全，更準確，真正地幫助

讓我們跳舞：結構化運動以微調我們的人類神經網Apr 27, 2025 am 11:09 AM

科學家已經廣泛研究了人類和更簡單的神經網絡（如秀麗隱桿線蟲中的神經網絡），以了解其功能。但是，出現了一個關鍵問題：我們如何使自己的神經網絡與新穎的AI一起有效地工作

新的Google洩漏揭示了雙子AI的訂閱更改Apr 27, 2025 am 11:08 AM

Google的雙子座高級：新的訂閱層即將到來目前，訪問Gemini Advanced需要$ 19.99/月Google One AI高級計劃。但是，Android Authority報告暗示了即將發生的變化。最新的Google P中的代碼

數據分析加速度如何求解AI的隱藏瓶頸Apr 27, 2025 am 11:07 AM

儘管圍繞高級AI功能炒作，但企業AI部署中潛伏的巨大挑戰：數據處理瓶頸。首席執行官慶祝AI的進步時，工程師努力應對緩慢的查詢時間，管道超載，一個

Markitdown MCP可以將任何文檔轉換為Markdowns！Apr 27, 2025 am 09:47 AM

處理文檔不再只是在您的AI項目中打開文件，而是將混亂變成清晰度。諸如PDF，PowerPoints和Word之類的文檔以各種形狀和大小淹沒了我們的工作流程。檢索結構化

如何使用Google ADK進行建築代理？ - 分析VidhyaApr 27, 2025 am 09:42 AM

利用Google的代理開發套件（ADK）的力量創建具有現實世界功能的智能代理！該教程通過使用ADK來構建對話代理，並支持Gemini和GPT等各種語言模型。 w

在LLM上使用SLM進行有效解決問題-Analytics VidhyaApr 27, 2025 am 09:27 AM

摘要：小型語言模型 (SLM) 專為效率而設計。在資源匱乏、實時性和隱私敏感的環境中，它們比大型語言模型 (LLM) 更勝一籌。最適合專注型任務，尤其是在領域特異性、控制性和可解釋性比通用知識或創造力更重要的情況下。 SLM 並非 LLMs 的替代品，但在精度、速度和成本效益至關重要時，它們是理想之選。技術幫助我們用更少的資源取得更多成就。它一直是推動者，而非驅動者。從蒸汽機時代到互聯網泡沫時期，技術的威力在於它幫助我們解決問題的程度。人工智能 (AI) 以及最近的生成式 AI 也不例