威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 30, 2023 pm 10:49 PM

微軟模型

視覺指令微調火了。

這篇論文名為Visual Instruction Tuning，由威斯康辛大學麥迪遜分校，微軟研究院和哥倫比亞大學共同製作。

作者包括Haotian Liu，Chunyuan Li，Qingyang Wu和Yong Jae Lee。

威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4

同時，研究人員也在GitHub上開源了他們的程式碼、模型和資料集。論文也發佈在了Arxiv。

講解

那麼LLaVA的功能究竟是什麼呢？如果一頭栽進論文，不熟悉的朋友可能會有些陌生。

我們先看看LLaVA自己怎麼說。

威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4

以上回答產生自LLaVA的Chatbot，我輸入的問題是，LLaVA的功能是什麼，使用者該如何利用它？

回答如下：

LLaVA是一個大語言和視覺助手，在UW Madison WAIV實驗室所經歷的訓練。 LLaVA被設計出來的目的，就是幫助使用者處理各類任務，方法則是藉助自然語言理解的能力和視覺內容分析的能力。

LLaVA的主要功能包括：

#· 以文本為基礎的任務：LLaVA可以處理並分析文本，允許使用者問問題，LLaVA可以和使用者交談，或是完成使用者輸入的任務，比如說提煉文件概要，情感分析，實體辨識等等。

· 以影像為基礎的任務：LLaVA可以分析影像，描述影像，進行物件辨識，分析理解場景。

用戶如果想更好地應用LLaVA，可以直接和LLaVA交談，就像和人類之間對話一樣。盡可能多的提供細節，LLaVA就會產生出一個更完善的答案。

同時應該記住，說到底LLaVA是機器學習模型，是AI工具。只要是工具，就有其限制。 LLaVA不一定每次都能完美回答使用者輸入的問題。

當然，LLaVA也不斷在學習和完善，其功能也會越來越強大。

總的來說，從LLaVA的回答可以看出，在Chatbot這方面，和GPT的功能差不了太多。但是LLaVA可以處理一些有關圖像的任務。

表現出彩

研究人員在Arxiv的論文中詳細介紹了LLaVA的技術細節。

要知道使用機器產生的指令跟隨資料對大型語言模型（LLMs）進行指令微調，提高了新任務的零點能力，但這個想法在多模態領域的探索較少。

在論文中，研究人員首次嘗試使用僅有語言的GPT-4來產生多模態語言圖像的指令跟隨資料。

透過對這種產生的資料進行指令調整，研究人員引入了LLaVA：這是一個大型語言和視覺助手，是一個端到端的訓練有素的大型多模態模型，它連接了一個視覺編碼器和LLM，用於通用的視覺和語言理解。

威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4

早期實驗表明，LLaVA展示了令人印象深刻的多模態聊天能力，有時在未見過的圖像/指令上都能輸出多模態GPT-4的表現，在合成的多模態指令跟隨資料集上與GPT-4相比，獲得了85.1%的相對分數。

當Science雜誌進行微調時，LLaVA和GPT-4的協同作用達到了92.53%的新的最先進的準確性。

研究人員公開了GPT-4產生的視覺指令調整的資料、模型和程式庫。

多模態模型

首先釐清定義。

大型多模態模型指的是基於機器學習技術的模型，能夠處理和分析多種輸入類型，如文字和圖像。

這些模型設計用於處理更廣泛的任務，並且能夠理解不同形式的資料。透過將文字和圖像作為輸入，這些模型可以提高理解和編解釋的能力，從而產生更準確和相關的答案。

人類透過視覺和語言等多種管道與世界互動，因為每個單獨的管道在代表和傳達某些世界概念方面都有獨特的優勢，從而有利於更好地理解世界。

而人工智慧的核心願望之一是開發一個通用的助手，能夠有效地遵循多模態的視覺和語言指令，與人類的意圖一致，完成各種真實世界的任務。

因此，開發者社群見證了對開發語言增強的基礎視覺模型的新興趣，在開放世界的視覺理解方面具有強大的能力，如分類、檢測、分割、描述，以及視覺生成和編輯。

在這些功能中，每個任務都由單一的大型視覺模型獨立解決，在模型設計中隱含考慮了任務指令。

此外，語言只用來描述圖像內容。雖然這允許語言在將視覺信號映射到語言語義方面發揮重要作用——這是人類交流的常見管道。但這會導致模型通常具有固定的介面，互動性和對使用者指令的適應性有限。

而大型語言模型（LLM）表明，語言可以發揮更廣泛的作用：通用助手的通用介面，各種任務指令可以明確地用語言表示，並引導端到端訓練有素的神經助手切換到感興趣的任務來解決它。

例如，最近ChatGPT和GPT-4的成功，證明了這種LLM在遵循人類指令方面的能力，並激發了人們對開發開源LLM的巨大興趣。

LLaMA就是一個開源的LLM，其效能與GPT-3相當。正在進行的工作利用各種機器生成的高品質指令跟隨樣本來提高LLM的對齊能力，與專有LLM相比，報告了令人印象深刻的性能。重要的是，這一行的工作是純文字的。

在本文中，研究人員提出了視覺指令調整，這是將指令調整擴展到多模態空間的首次嘗試，它為建立一個通用的視覺助手鋪平了道路。具體來說，論文的主要內容包括：

多模態的指令跟隨資料。一個關鍵的挑戰是缺乏視覺語言指令-跟隨資料。我們提出了一個資料改革的觀點和管道，使用ChatGPT/GPT-4將圖像-文字對轉換為適當的指令-跟隨格式。

大型多模態模型。研究人員開發了一個大型多模態模型（LMM），透過連接CLIP的開放集視覺編碼器和語言解碼器LaMA，並在生成的教學視覺——語言資料上對它們進行端到端的微調。實證研究驗證了使用產生的資料進行LMM指令調諧的有效性，並為建立一個通用的指令跟隨的視覺代理提出了實用的建議。透過GPT 4，研究小組在Science QA多模態推理資料集上取得了最先進的性能。

開源。研究小組向公眾發出了以下內容：產生的多模態指令資料、用於資料生成和模型訓練的程式碼庫、模型檢查點，以及一個視覺聊天演示。

成果展示

威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4

可以看到，LLaVA能處理各類問題，且產生的回答既全面又富有邏輯。

LLaVA表現出一些接近GPT-4水平的多模態能力，在視覺聊天方面，GPT-4相對評分85%。

而在推理問答方面，LLaVA甚至達到了新SoTA——92.53%，擊敗多模態思維鏈。

以上是威大哥大等聯合發文！最新多模態大模型LLaVA問世，水平直逼GPT-4的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

擁抱面部是否7B型號奧林匹克賽車擊敗克勞德3.7？Apr 23, 2025 am 11:49 AM

擁抱Face的OlympicCoder-7B：強大的開源代碼推理模型開發以代碼為中心的語言模型的競賽正在加劇，擁抱面孔與強大的競爭者一起參加了比賽：OlympicCoder-7B，一種產品

4個新的雙子座功能您可以錯過Apr 23, 2025 am 11:48 AM

你們當中有多少人希望AI可以做更多的事情，而不僅僅是回答問題？我知道我有，最近，我對它的變化感到驚訝。 AI聊天機器人不僅要聊天，還關心創建，研究

Camunda為經紀人AI編排編寫了新的分數Apr 23, 2025 am 11:46 AM

隨著智能AI開始融入企業軟件平台和應用程序的各個層面（我們必須強調的是，既有強大的核心工具，也有一些不太可靠的模擬工具），我們需要一套新的基礎設施能力來管理這些智能體。總部位於德國柏林的流程編排公司Camunda認為，它可以幫助智能AI發揮其應有的作用，並與新的數字工作場所中的準確業務目標和規則保持一致。該公司目前提供智能編排功能，旨在幫助組織建模、部署和管理AI智能體。從實際的軟件工程角度來看，這意味著什麼？確定性與非確定性流程的融合該公司表示，關鍵在於允許用戶（通常是數據科學家、軟件

策劃的企業AI體驗是否有價值？Apr 23, 2025 am 11:45 AM

參加Google Cloud Next '25，我渴望看到Google如何區分其AI產品。有關代理空間（此處討論）和客戶體驗套件（此處討論）的最新公告很有希望，強調了商業價值

如何為抹布找到最佳的多語言嵌入模型？Apr 23, 2025 am 11:44 AM

為您的檢索增強發電（RAG）系統選擇最佳的多語言嵌入模型在當今的相互聯繫的世界中，建立有效的多語言AI系統至關重要。強大的多語言嵌入模型對於RE至關重要

麝香：奧斯汀的機器人需要每10,000英里進行干預Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi發射：仔細觀察Musk的主張埃隆·馬斯克（Elon Musk）最近宣布，特斯拉即將在德克薩斯州奧斯汀推出的Robotaxi發射，最初出於安全原因部署了一支小型10-20輛汽車，並有快速擴張的計劃。 h

AI震驚的樞軸：從工作工具到數字治療師和生活教練Apr 23, 2025 am 11:41 AM

人工智能的應用方式可能出乎意料。最初，我們很多人可能認為它主要用於代勞創意和技術任務，例如編寫代碼和創作內容。然而，哈佛商業評論最近報導的一項調查表明情況並非如此。大多數用戶尋求人工智能的並非是代勞工作，而是支持、組織，甚至是友誼！報告稱，人工智能應用案例的首位是治療和陪伴。這表明其全天候可用性以及提供匿名、誠實建議和反饋的能力非常有價值。另一方面，營銷任務（例如撰寫博客、創建社交媒體帖子或廣告文案）在流行用途列表中的排名要低得多。這是為什麼呢？讓我們看看研究結果及其對我們人類如何繼續將