目前,GPT-4 Vision在語言理解和視覺處理方面顯示出了令人驚嘆的能力。
然而,對於那些希望在不影響效能的情況下尋求成本效益替代方案的人來說,開源方案是一個具有無限潛力的選擇。
Youssef Hosni是一位國外開發者,他為我們提供了三種可訪問性絕對保障的開源替代方案來取代GPT-4V。
三種開源視覺語言模型LLaVa、CogAgent和BakLLaVA在視覺處理領域擁有巨大潛力,值得我們深入了解。這些模型的研究和開發,可以為我們提供更有效率、精準的視覺處理解決方案。透過運用這些模型,我們可以提升影像辨識、目標偵測和影像生成等任務的準確性和效率,為視覺處理領域的研究和應用帶
圖片
LLaVA是一個多模態大模型,由威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究人員合作開發。最初的版本發佈於4月。
它將視覺編碼器和Vicuna(用於通用視覺和語言理解)結合在一起,展現了非常出色的聊天能力。
圖片
10月份,升級的LLaVA-1.5在效能上已經接近多模態GPT-4,並在Science QA資料集上取得了最先進的結果(SOTA)。
圖片
13B模型的訓練,只需要8個A100就可以在1天內完成。
圖片
可以看到,LLaVA能處理各類問題,且產生的回答既全面又富有邏輯。
LLaVA表現出一些接近GPT-4水平的多模態能力,在視覺聊天方面,GPT-4相對評分85%。
而在推理問答方面,LLaVA甚至達到了新SoTA——92.53%,擊敗多模態思維鏈。
圖片
在視覺推理上,它的表現十分搶眼。
圖片
圖片
問題問題:「如果有事實性錯誤,請指出來。如果沒有,請告訴我,沙漠中正在發生什麼?」
LLaVA還無法完全回答正確。
升級後的LLaVA-1.5給了完美答案:「圖中根本沒有沙漠,有的是棕櫚樹海灘、城市天際線和一大片水域。」
圖
另外,LLaVA-1.5還可以從圖中提取訊息,按照要求的格式進行回答,例如以JSON格式輸出。
圖片
給LLaVA-1.5一張滿是水果蔬菜的圖片,它也能像GPT-4V一樣,把圖片轉換到JSON。
圖片
下面這張圖是什麼意思?
圖片
這是根據諾蘭《全面啟動》繪製的簡化草圖,為了提高難度,角色名字被改成了假名。
LLaVA-1.5驚艷回答:「這是一張關於電影《全面啟動》的圖。它顯示了夢境世界中的不同層次,每一層次用一條線表示。圖寫在一張紙上,紙放在一個檯面上。」
圖片
#一張食物圖直接發給LLaVA-1.5,它火速就給你產生一份食譜。
圖片
而且,LLaVA-1.5不用「越獄」就可以辨識出驗證碼。
圖片
它還能被偵測出,圖中是哪一種硬幣。
圖片
特別令人印象深刻的是,LLaVA-1.5還能告訴你圖中的汪星人是什麼品種。
圖片
有網友用Bing生成了一張在陽光明媚的夏季海灘上穿著冬季外套的男人的圖片,並請LLaVA 1.5指出圖中有哪些問題。它的慧眼十分犀利——
這是一張經過處理或PS的照片,照片中一名男子穿著夾克,站在海灘上。男子敞開外套,陽光照在他身上。這張圖片的問題在於,它並非真實的海灘場景。該男子其實並沒有站在沙灘上,陽光也沒有照在他身上。這張圖是p出來的,營造出了一種海灘場景的假象,但它並沒有真實地再現這個場景。
圖片
OCR識別,LLaVA的效能也很強大。
圖片
圖片
圖片
CogAgent是在CogVLM基礎上改進的開源視覺語言模型,來自清華的研究者。
CogAgent-18B有110億個視覺參數,和70億個語言參數。
圖片
論文網址:https://arxiv.org/pdf/2312.08914.pdf
#在9個經典的跨模態基準(包括VQAv2、OK-VQ、TextVQA、ST-VQA、ChartQA、infoVQA、DocVQA、MM-Vet和POPE)上,CogAgent-18B實現了最先進的通用效能。
在AITW和Mind2Web等圖形使用者介面操作資料集上,它大大超過了現有模型。
除了CogVLM已有的所有功能(視覺化多輪對話、視覺化接地)外,CogAgent.NET還提供了更多的功能:
1.支援更高解析度的視覺輸入和對話答案。支援1120x1120的超高解析度影像輸入。
2.具備可視化代理的能力,能夠在任何圖形使用者介面截圖上返回任何給定任務的計劃、下⼀步行動和帶有坐標的具體操作。
3.增強了與圖形使用者介面相關的問題解答功能,使其能夠處理與網頁、PC應用程式、行動應用程式等任何圖形使用者介面截圖相關的問題。
4.透過改進預培訓和微調,增強了OCR相關任務的能力。
利用CogAgent,它可以幫我們一步一步找到CVPR23的最佳論文。
圖片
可以幫我們把手機顯示調成明亮模式。
圖片
這則推文有多少轉評贊,為什麼如此受歡迎,CogAgent都能分析出來,甚至連回覆一個“Brilliant” ,它都能操作。
圖片
從弗羅裡達大學到好萊塢,怎麼選擇最快的路線?如果從早上8點出發,該如何評估需要花多久時間? CogAgent都可以回答。
圖片
可以設定特定的主題,讓CogAgent寄到指定的郵件信箱。
圖片
想聽一首
圖片
CogAgent能精準地描述出《原神》中的畫面,也能引導你如何走到傳送點。
圖片
#BakLLaVA1是使用LLaVA 1.5架構增強的Mistral 7B基礎模型。
在第⼀個版本中,Mistral 7B基礎模型在多個基準測試中優於Llama 2 13B。
在他們的repo中,就可以運行BakLLaVA-1了。頁面還在不斷更新中,以方便微調和推理。 (https://github.com/SkunkworksAI/BakLLaVA)
BakLLaVA-1是完全開源的,但在某些資料上進行了訓練,其中包括LLaVA的語料庫,因此不允許商用。
BakLLaVA 2採用了更大的資料集和更新的架構,超越了目前的LLaVa方法。 BakLLaVA擺脫了BakLLaVA-1的限制,可以商用。
參考資料:
https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5
以上是清華浙大主導開源視覺模型爆炸, GPT-4V與LLaVA、CogAgent等平台帶來革命性變革的詳細內容。更多資訊請關注PHP中文網其他相關文章!