超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

PHPz

Oct 19, 2023 am 11:13 AM

ai模型

GPT-4V來做目標偵測？網友實測：還沒準備好。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

雖然偵測到的類別沒問題，但大多數邊界框都錯放了。

沒關係，有人會出手！

那個搶跑GPT-4看圖能力幾個月的迷你GPT-4升級啦－MiniGPT-v2。

△（左邊為GPT-4V生成，右邊為MiniGPT-v2生成）

而且只是一句簡單指令：[grounding] describe this image in detail就實現的結果。

不僅如此，還輕鬆處理各類視覺任務。

圈選一個物體，提示字前面加上 [identify] 可讓模型直接辨識出物體的名字。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

當然也可以什麼都不加，直接問~

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

#MiniGPT-v2由來自MiniGPT-4的原班人馬（KAUST沙烏地阿拉伯阿卜杜拉國王科技大學）以及Meta的五位研究員共同開發。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

上次MiniGPT-4剛出來就引發巨大關注，一時間伺服器被擠爆，如今GItHub專案已超22000 顆星。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

此番升級，已經有網友開始用上了~

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

多視覺任務的通用介面

大模型作為各文本應用的通用介面，大家已經司空見慣了。受此靈感，研究團隊想要建立一個可用於多種視覺任務的統一介面，例如圖像描述、視覺問題解答等。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

「如何在單一模型的條件下，使用簡單多模態指令來高效完成各類任務？」成為團隊需要解決的難題。

簡單來說，MiniGPT-v2由三個部分組成：視覺主幹、線性層和大型語言模型。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

此模型以ViT視覺主幹為基礎，所有訓練階段都保持不變。從ViT中歸納出四個相鄰的視覺輸出標記，並透過線性圖層將它們投影到 LLaMA-2語言模型空間。

團隊建議在訓練模型為不同任務使用獨特的標識符，這樣一來大模型就能輕鬆分辨出每個任務指令，還能提高每個任務的學習效率。

訓練主要分為三個階段：預訓練－多任務訓練－多模式指令調整。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

最終，MiniGPT-v2 在許多視覺問題解答和視覺接地基準測試中，成績都優於其他視覺語言通用模型。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

最終這個模型可以完成多種視覺任務，例如目標物件描述、視覺定位、圖像說明、視覺問題解答以及從給定的輸入文字直接解析圖片對象。

超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品

有興趣的朋友，可戳下方Demo連結體驗：

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2

論文連結：https://arxiv.org/abs/2310.09478

GitHub連結：https://github.com/Vision-CAIR/MiniGPT-4

以上是超火迷你GPT-4視覺能力暴漲，GitHub兩萬星，華人團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將