GPT-4 的識圖能力什麼時候能上線呢?這個問題目前依然沒有答案。
但研究社群等不及了,紛紛自己上手 DIY,其中最熱門的是名為 MiniGPT-4 的計畫。 MiniGPT-4 展示了許多類似於 GPT-4 的能力,例如產生詳細的圖像描述並從手寫草稿創建網站。此外,作者還觀察到 MiniGPT-4 的其他新興能力,包括根據給定的圖像創作故事和詩歌,提供解決圖像中顯示的問題的解決方案,根據食品照片教導使用者如何烹飪等。該專案上線 3 天就拿到了近一萬的 Star 量。
今天要介紹的計畫-LLaVA(Large Language and Vision Assistant)與之類似,是個由威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學研究者共同發表的多模態大模型。
- 論文連結:https://arxiv.org/pdf/2304.08485.pdf
- #專案連結:https://llava-vl.github.io/
#該模型顯示出了一些接近多模態GPT-4 的圖文理解能力:相對於GPT-4 獲得了85.1% 的相對得分。當在科學問答(Science QA)上進行微調時,LLaVA 和 GPT-4 的協同作用實現了 92.53% 準確率的新 SoTA。
以下是機器之心的試用結果(更多結果請見文末):
#論文概覽
人類透過視覺和語言等多種管道與世界交互,因為不同的管道在代表和傳達某些概念時都有各自獨特的優勢,多通道的方式有利於更好地理解世界。人工智慧的核心願望之一是發展一個通用的助手,能夠有效地遵循多模態指令,例如視覺或語言的指令,滿足人類的意圖,在真實環境中完成各種任務。
為此,社群興起了開發基於語言增強的視覺模型的風潮。這類模型在開放世界視覺理解方面具有強大的能力,如分類、偵測、分割和圖文,以及視覺生成和視覺編輯能力。每個任務都由一個大型視覺模型獨立解決,在模型設計中隱含地考慮了任務的需求。此外,語言僅用於描述圖像內容。雖然這使得語言在將視覺訊號映射到語言語義(人類溝通的常見管道)方面發揮了重要作用,但它導致模型通常具有固定的介面,在互動性和對使用者指令的適應性上存在限制。
另一方面,大型語言模型(LLM)已經表明,語言可以發揮更廣泛的作用:作為通用智慧助理的通用互動介面。在通用介面中,各種任務指令可以用語言明確表示,並引導端對端訓練的神經網路助理切換模式來完成任務。例如,ChatGPT 和 GPT-4 最近的成功證明了 LLM 在遵循人類指令完成任務方面的能量,並掀起了開發開源 LLM 的熱潮。其中,LLaMA 是一種與 GPT-3 效能相近的開源 LLM。 Alpaca、Vicuna、GPT-4-LLM 利用各種機器產生的高品質指令追蹤樣本來提高 LLM 的對齊能力,與專有 LLM 相比,展現了令人印象深刻的性能。但遺憾的是,這些模型的輸入僅為文字。
在本文中,研究者提出了視覺 instruction-tuning 方法,首次嘗試將 instruction-tuning 擴展到多模態空間,為建構通用視覺助理鋪平了道路。
具體來說,本文做出了以下貢獻:
- #多模態指令資料。當下關鍵的挑戰之一是缺乏視覺與語言組成的指令資料。本文提出了一個資料重組方式,使用 ChatGPT/GPT-4 將圖像 - 文字對轉換為適當的指令格式;
- 大型多模態模型。研究者透過連接 CLIP 的開源視覺編碼器和語言解碼器 LLaMA,開發了一個大型多模態模型(LMM)— LLaVA,並在生成的視覺 - 語言指令資料上進行端到端微調。實證研究驗證了將產生的資料用於 LMM 進行 instruction-tuning 的有效性,並為建立遵循視覺 agent 的通用指令提供了較為實用的技巧。使用 GPT-4,本文在 Science QA 這個多模態推理資料集上實現了最先進的效能。
- 開源。研究者向公眾發布了以下資產:產生的多模式指令資料、用於資料生成和模型訓練的程式碼庫、模型檢查點和視覺化聊天演示。
LLaVA 架構
本文的主要目標是有效利用預先訓練的 LLM 和視覺模型的功能。網路架構如圖 1 所示。本文選擇 LLaMA 模型作為 LLM fφ(・),因為它的有效性已經在幾個開源的純語言 instruction-tuning 工作中得到了證明。
對於輸入影像X_v,本文使用預先訓練的CLIP 視覺編碼器ViT-L/14 進行處理,得到視覺特徵Z_v=g ( X_v)。實驗中使用的是最後一個 Transformer 層之前和之後的網格特徵。本文使用一個簡單的線性圖層來將影像特徵連接到單字嵌入空間。具體而言,應用可訓練投影矩陣W 將Z_v 轉換為語言嵌入標記H_q,H_q 具有與語言模型中的單字嵌入空間相同的維度:
之後,得到一系列視覺標記H_v。這種簡單投影方案具有輕量、成本低等特點,能夠快速迭代以資料為中心的實驗。也可以考慮連接影像和語言特徵的更複雜(但昂貴)的方案,例如Flamingo 中的門控交叉注意力機制和BLIP-2 中的Q-former,或提供物件層級特徵的其他視覺編碼器,如SAM。
實驗結果
多模態聊天機器人
#研究者開發了一個聊天機器人範例產品,以展示LLaVA 的影像理解和對話能力。為了進一步研究 LLaVA 如何處理視覺輸入,展現其處理指令的能力,研究者首先使用 GPT-4 原始論文中的範例,如表 4 和表 5 所示。使用的 prompt 需要貼合影像內容。為了進行比較,本文引用了其論文中多模態模型 GPT-4 的 prompt 和結果。
令人驚訝的是,儘管LLaVA 是用一個小的多模態指令資料集(約80K 的不重複影像)訓練的,但它在上述這兩個範例上展示了與多模態模型GPT-4 非常相似的推理結果。請注意,這兩張圖像都不在 LLaVA 的資料集範圍內,LLaVA 能夠理解場景並按照問題說明進行回答。相較之下,BLIP-2 和 OpenFlamingo 專注於描述影像,而不是按照使用者指示以適當的方式回答。更多示例如圖 3、圖 4 和圖 5 所示。
#量化評估結果如表 3。
ScienceQA
#ScienceQA 包含21k 個多模態多選問題,涉及3 個主題、26 個主題、127 個類別和379 種技能,具有豐富的領域多樣性。基準資料集分為訓練、驗證和測試部分,分別有 12726、4241 和 4241 個樣本。本文比較了兩種具代表性的方法,包括GPT-3.5 模型(text-davinci-002)和沒有思考鏈(CoT)版本的GPT-3.5 模型,LLaMA-Adapter,以及多模態思考鏈(MM- CoT)[57],這是該資料集上目前的SoTA 方法,結果如表6 所示。
試用回饋
在論文給出的視覺化使用頁面上,機器之心也嘗試輸入了一些圖片和指令。首先是問答裡常見的數人任務。測試表明,數人的時候較小的目標會被忽略,重疊的人也有識別誤差,性別也有識別誤差。
接著,我們嘗試了一些生成任務,例如為圖片起名字,或根據圖片講一個故事。模型輸出的結果還是偏向圖片內容理解,生成方面的能力仍有待加強。
在這張照片中,即便人體有重疊也依然能準確地辨識出人數。從圖片描述和理解能力的角度來看,本文的工作還是有亮點,存在著二創的空間。
以上是熔岩羊駝LLaVA來了:像GPT-4一樣可以看圖聊天,無需邀請碼,在線可玩的詳細內容。更多資訊請關注PHP中文網其他相關文章!

嘿,編碼忍者!您當天計劃哪些與編碼有關的任務?在您進一步研究此博客之前,我希望您考慮所有與編碼相關的困境,這是將其列出的。 完畢? - 讓&#8217

AI增強食物準備 在新生的使用中,AI系統越來越多地用於食品製備中。 AI驅動的機器人在廚房中用於自動化食物準備任務,例如翻轉漢堡,製作披薩或組裝SA

介紹 了解Python函數中變量的名稱空間,範圍和行為對於有效編寫和避免運行時錯誤或異常至關重要。在本文中,我們將研究各種ASP

介紹 想像一下,穿過美術館,周圍是生動的繪畫和雕塑。現在,如果您可以向每一部分提出一個問題並獲得有意義的答案,該怎麼辦?您可能會問:“您在講什麼故事?

繼續使用產品節奏,本月,Mediatek發表了一系列公告,包括新的Kompanio Ultra和Dimenty 9400。這些產品填補了Mediatek業務中更傳統的部分,其中包括智能手機的芯片

#1 Google推出了Agent2Agent 故事:現在是星期一早上。作為AI驅動的招聘人員,您更聰明,而不是更努力。您在手機上登錄公司的儀表板。它告訴您三個關鍵角色已被採購,審查和計劃的FO

我猜你一定是。 我們似乎都知道,心理障礙由各種chat不休,這些chat不休,這些chat不休,混合了各種心理術語,並且常常是難以理解的或完全荒謬的。您需要做的一切才能噴出fo

根據本週發表的一項新研究,只有在2022年製造的塑料中,只有9.5%的塑料是由回收材料製成的。同時,塑料在垃圾填埋場和生態系統中繼續堆積。 但是有幫助。一支恩金團隊


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版
SublimeText3 Linux最新版

Dreamweaver Mac版
視覺化網頁開發工具