搜尋
首頁科技週邊人工智慧清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革

目前,GPT-4 Vision在語言理解和視覺處理方面顯示出了令人驚嘆的能力。

然而,對於那些希望在不影響效能的情況下尋求成本效益替代方案的人來說,開源方案是一個具有無限潛力的選擇。

Youssef Hosni是一位國外開發者,他為我們提供了三種可訪問性絕對保障的開源替代方案來取代GPT-4V。

三種開源視覺語言模型LLaVa、CogAgent和BakLLaVA在視覺處理領域擁有巨大潛力,值得我們深入了解。這些模型的研究和開發,可以為我們提供更有效率、精準的視覺處理解決方案。透過運用這些模型,我們可以提升影像辨識、目標偵測和影像生成等任務的準確性和效率,為視覺處理領域的研究和應用帶

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

#LLaVa

LLaVA是一個多模態大模型,由威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究人員合作開發。最初的版本發佈於4月。

它將視覺編碼器和Vicuna(用於通用視覺和語言理解)結合在一起,展現了非常出色的聊天能力。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

10月份,升級的LLaVA-1.5在效能上已經接近多模態GPT-4,並在Science QA資料集上取得了最先進的結果(SOTA)。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

13B模型的訓練,只需要8個A100就可以在1天內完成。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

可以看到,LLaVA能處理各類問題,且產生的回答既全面又富有邏輯。

LLaVA表現出一些接近GPT-4水平的多模態能力,在視覺聊天方面,GPT-4相對評分85%。

而在推理問答方面,LLaVA甚至達到了新SoTA——92.53%,擊敗多模態思維鏈。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

在視覺推理上,它的表現十分搶眼。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

問題問題:「如果有事實性錯誤,請指出來。如果沒有,請告訴我,沙漠中正在發生什麼?」

LLaVA還無法完全回答正確。

升級後的LLaVA-1.5給了完美答案:「圖中根本沒有沙漠,有的是棕櫚樹海灘、城市天際線和一大片水域。」

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革

另外,LLaVA-1.5還可以從圖中提取訊息,按照要求的格式進行回答,例如以JSON格式輸出。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

給LLaVA-1.5一張滿是水果蔬菜的圖片,它也能像GPT-4V一樣,把圖片轉換到JSON。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

下面這張圖是什麼意思?

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

這是根據諾蘭《全面啟動》繪製的簡化草圖,為了提高難度,角色名字被改成了假名。

LLaVA-1.5驚艷回答:「這是一張關於電影《全面啟動》的圖。它顯示了夢境世界中的不同層次,每一層次用一條線表示。圖寫在一張紙上,紙放在一個檯面上。」

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

#一張食物圖直接發給LLaVA-1.5,它火速就給你產生一份食譜。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

而且,LLaVA-1.5不用「越獄」就可以辨識出驗證碼。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

它還能被偵測出,圖中是哪一種硬幣。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

特別令人印象深刻的是,LLaVA-1.5還能告訴你圖中的汪星人是什麼品種。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

有網友用Bing生成了一張在陽光明媚的夏季海灘上穿著冬季外套的男人的圖片,並請LLaVA 1.5指出圖中有哪些問題。它的慧眼十分犀利——

這是一張經過處理或PS的照片,照片中一名男子穿著夾克,站在海灘上。男子敞開外套,陽光照在他身上。這張圖片的問題在於,它並非真實的海灘場景。該男子其實並沒有站在沙灘上,陽光也沒有照在他身上。這張圖是p出來的,營造出了一種海灘場景的假象,但它並沒有真實地再現這個場景。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

OCR識別,LLaVA的效能也很強大。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

#CogAgent

CogAgent是在CogVLM基礎上改進的開源視覺語言模型,來自清華的研究者。

CogAgent-18B有110億個視覺參數,和70億個語言參數。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

論文網址:https://arxiv.org/pdf/2312.08914.pdf

#

在9個經典的跨模態基準(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B實現了最先進的通用效能。

在AITW和Mind2Web等圖形使用者介面操作資料集上,它大大超過了現有模型。

除了CogVLM已有的所有功能(視覺化多輪對話、視覺化接地)外,CogAgent.NET還提供了更多的功能:

1.支援更高解析度的視覺輸入和對話答案。支援1120x1120的超高解析度影像輸入。

2.具備可視化代理的能力,能夠在任何圖形使用者介面截圖上返回任何給定任務的計劃、下⼀步行動和帶有坐標的具體操作。

3.增強了與圖形使用者介面相關的問題解答功能,使其能夠處理與網頁、PC應用程式、行動應用程式等任何圖形使用者介面截圖相關的問題。

4.透過改進預培訓和微調,增強了OCR相關任務的能力。

圖形使用者介面代理程式(GUI Agent)

利用CogAgent,它可以幫我們一步一步找到CVPR23的最佳論文。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

可以幫我們把手機顯示調成明亮模式。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

這則推文有多少轉評贊,為什麼如此受歡迎,CogAgent都能分析出來,甚至連回覆一個“Brilliant” ,它都能操作。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

從弗羅裡達大學到好萊塢,怎麼選擇最快的路線?如果從早上8點出發,該如何評估需要花多久時間? CogAgent都可以回答。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

可以設定特定的主題,讓CogAgent寄到指定的郵件信箱。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

想聽一首,CogAgent可以一步一步列出步驟。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

CogAgent能精準地描述出《原神》中的畫面,也能引導你如何走到傳送點。

清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革圖片

BakLLaVA

#BakLLaVA1是使用LLaVA 1.5架構增強的Mistral 7B基礎模型。

在第⼀個版本中,Mistral 7B基礎模型在多個基準測試中優於Llama 2 13B。

在他們的repo中,就可以運行BakLLaVA-1了。頁面還在不斷更新中,以方便微調和推理。 (https://github.com/SkunkworksAI/BakLLaVA)

BakLLaVA-1是完全開源的,但在某些資料上進行了訓練,其中包括LLaVA的語料庫,因此不允許商用。

BakLLaVA 2採用了更大的資料集和更新的架構,超越了目前的LLaVa方法。 BakLLaVA擺脫了BakLLaVA-1的限制,可以商用。

參考資料:

https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5

以上是清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
一個提示可以繞過每個主要LLM的保障措施一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型(LLM)的關鍵脆弱性。 他們的發現揭示了一種普遍的旁路技術,稱為“政策木偶”,能夠規避幾乎所有主要LLMS

5個錯誤,大多數企業今年將犯有可持續性5個錯誤,大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。 這種轉變會影響產品開發,製造過程,客戶關係,合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響H20芯片禁令震撼中國人工智能公司,但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級,從而揭示了中國對外國半導體技術的依賴。 2024年,中國進口了價值3850億美元的半導體

如果Openai購買Chrome,AI可能會統治瀏覽器戰爭如果Openai購買Chrome,AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離,引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器,擁有65%的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長,但仍在放緩。 這個成熟階段提出了挑戰,包括生態系統破碎,成本上升,測量問題和整合複雜性。 但是,人工智能

'AI是我們,比我們更多''AI是我們,比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中,一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心,這是沉浸式展覽中的六個裝置之一,&qu&qu

Google Cloud在下一個2025年對基礎架構變得更加認真Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025:關注基礎架構,連通性和AI Google Cloud的下一個2025會議展示了許多進步,太多了,無法在此處詳細介紹。 有關特定公告的深入分析,請參閱我的文章

IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。IR的秘密支持者透露,Arcana的550萬美元的AI電影管道說話,Arcana的AI Meme,Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中:一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。 讓我們潛入頭條新聞。 AI生成的內容的增長影響:技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

mPDF

mPDF

mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中