GPT-4V來做目標偵測?網友實測:還沒準備好。
雖然偵測到的類別沒問題,但大多數邊界框都錯放了。
沒關係,有人會出手!
那個搶跑GPT-4看圖能力幾個月的迷你GPT-4升級啦-MiniGPT-v2。
△(左邊為GPT-4V生成,右邊為MiniGPT-v2生成)
而且只是一句簡單指令:[grounding] describe this image in detail就實現的結果。
不僅如此,還輕鬆處理各類視覺任務。
圈選一個物體,提示字前面加上 [identify] 可讓模型直接辨識出物體的名字。
當然也可以什麼都不加,直接問~
#MiniGPT-v2由來自MiniGPT-4的原班人馬(KAUST沙烏地阿拉伯阿卜杜拉國王科技大學)以及Meta的五位研究員共同開發。
上次MiniGPT-4剛出來就引發巨大關注,一時間伺服器被擠爆,如今GItHub專案已超22000 顆星。
此番升級,已經有網友開始用上了~
多視覺任務的通用介面
大模型作為各文本應用的通用介面,大家已經司空見慣了。受此靈感,研究團隊想要建立一個可用於多種視覺任務的統一介面,例如圖像描述、視覺問題解答等。
「如何在單一模型的條件下,使用簡單多模態指令來高效完成各類任務?」成為團隊需要解決的難題。
簡單來說,MiniGPT-v2由三個部分組成:視覺主幹、線性層和大型語言模型。
此模型以ViT視覺主幹為基礎,所有訓練階段都保持不變。從ViT中歸納出四個相鄰的視覺輸出標記,並透過線性圖層將它們投影到 LLaMA-2語言模型空間。
團隊建議在訓練模型為不同任務使用獨特的標識符,這樣一來大模型就能輕鬆分辨出每個任務指令,還能提高每個任務的學習效率。
訓練主要分為三個階段:預訓練-多任務訓練-多模式指令調整。
最終,MiniGPT-v2 在許多視覺問題解答和視覺接地基準測試中,成績都優於其他視覺語言通用模型。
最終這個模型可以完成多種視覺任務,例如目標物件描述、視覺定位、圖像說明、視覺問題解答以及從給定的輸入文字直接解析圖片對象。
有興趣的朋友,可戳下方Demo連結體驗:
https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2
論文連結:https://arxiv.org/abs/2310.09478
GitHub連結:https://github.com/Vision-CAIR/MiniGPT-4
以上是超火迷你GPT-4視覺能力暴漲,GitHub兩萬星,華人團隊出品的詳細內容。更多資訊請關注PHP中文網其他相關文章!

擁抱Face的OlympicCoder-7B:強大的開源代碼推理模型 開發以代碼為中心的語言模型的競賽正在加劇,擁抱面孔與強大的競爭者一起參加了比賽:OlympicCoder-7B,一種產品

你們當中有多少人希望AI可以做更多的事情,而不僅僅是回答問題?我知道我有,最近,我對它的變化感到驚訝。 AI聊天機器人不僅要聊天,還關心創建,研究

隨著智能AI開始融入企業軟件平台和應用程序的各個層面(我們必須強調的是,既有強大的核心工具,也有一些不太可靠的模擬工具),我們需要一套新的基礎設施能力來管理這些智能體。 總部位於德國柏林的流程編排公司Camunda認為,它可以幫助智能AI發揮其應有的作用,並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能,旨在幫助組織建模、部署和管理AI智能體。 從實際的軟件工程角度來看,這意味著什麼? 確定性與非確定性流程的融合 該公司表示,關鍵在於允許用戶(通常是數據科學家、軟件

參加Google Cloud Next '25,我渴望看到Google如何區分其AI產品。 有關代理空間(此處討論)和客戶體驗套件(此處討論)的最新公告很有希望,強調了商業價值

為您的檢索增強發電(RAG)系統選擇最佳的多語言嵌入模型 在當今的相互聯繫的世界中,建立有效的多語言AI系統至關重要。 強大的多語言嵌入模型對於RE至關重要

特斯拉的Austin Robotaxi發射:仔細觀察Musk的主張 埃隆·馬斯克(Elon Musk)最近宣布,特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射,最初出於安全原因部署了一支小型10-20輛汽車,並有快速擴張的計劃。 h

人工智能的應用方式可能出乎意料。最初,我們很多人可能認為它主要用於代勞創意和技術任務,例如編寫代碼和創作內容。 然而,哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作,而是支持、組織,甚至是友誼! 報告稱,人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。 另一方面,營銷任務(例如撰寫博客、創建社交媒體帖子或廣告文案)在流行用途列表中的排名要低得多。 這是為什麼呢?讓我們看看研究結果及其對我們人類如何繼續將


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

MantisBT
Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版
中文版,非常好用

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),