首頁  >  文章  >  科技週邊  >  開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

WBOY
WBOY轉載
2024-01-29 09:15:26968瀏覽

一款名為Vary-toy的「年輕人的第一個多模態大模型」來了!

模型大小不到2B,消費級顯示卡可訓練,GTX1080ti 8G的老顯示卡輕鬆運作。

想將一份文件圖片轉換成Markdown格式?以往需要文字辨識、版面偵測與排序、公式表格處理、文字清洗等多個步驟。

現在只需一句話指令:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

無論中英文,圖片中的大段文字都能分分鐘擷取出來:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

對一張圖做物件偵測,還是能給出具體座標的那種:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

##這篇研究由來自曠視、國科大、華中大的研究者共同提出。

據介紹,Vary-toy雖小,但幾乎涵蓋了目前LVLM

(大型視覺語言模型)主流研究中的所有能力:文檔OCR識別(Document OCR )、視覺定位(Visual Grounding)、圖像描述(Image Caption)、視覺問答(VQA)

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

現在,Vary-toy程式碼和模型都已開源,並有線上demo可試玩。

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

網友一邊表示感興趣,一邊關注點在於

舊·GTX1080,心情belike:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

「縮小版」Vary

其實,早在去年12月Vary團隊就發布了Vary的首項研究成果「Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models」。

研究人員指出CLIP視覺詞表在密集感知能力上的不足,並用一種簡單有效的擴充詞表方案給出了一種全新的OCR範式。

Vary發布後廣受關注,目前Github

1.2k star,但也有不少人因為資源受限運作不了。

考慮到目前開源得很好且性能出色的「小」VLM比較少,於是該團隊又新發布了號稱是「年輕人的第一個多模大模型」的Vary-toy。

與Vary相比,Vary-toy除了小之外,也訓練了

更強的視覺詞表,新的詞表不再將模型局限於文檔級OCR,而是給出了一個更通用和全面的視覺詞表,其不僅能做文檔級OCR,還能做通用視覺目標檢測。

那這究竟是如何做到的呢?

Vary-toy的模型結構和訓練流程如下圖所示,總的來說,訓練共分兩個階段。

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

首先在第一階段,使用Vary-tiny 結構,預先訓練出一個相比原版Vary更好的視覺詞表,新的視覺詞表解決了原Vary只用它來做文檔級OCR的網路容量浪費問題、以及沒有充分利用到SAM預訓練優勢的問題。

然後在第二階段中,將第一階段中訓好的視覺詞表merge到最終結構進行multi-task training/SFT。

眾所周知,一個好的資料匹配對於產生一個能力全面的VLM是至關重要的。

因此在預訓練階段,Vary-toy使用了5種任務類型的資料建構對話,資料配比和範例prompt如下圖所示:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

而在SFT階段,只使用了LLaVA-80K資料。更多的技術細節,可以查看Vary-toy的技術報告。

實驗測試結果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四個基準測試的得分如下:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

Vary-toy在DocVQA可以達到65.6%的ANLS,在ChartQA上達到59.1%的準確率,RefCOCO88.1%的準確率:

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

#MMVet上可以達到29%準確率,無論是從基準測試評分還是可視化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一較高下。

開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti

專案連結:
[1]https://arxiv.org/abs/2401.12503

[3] https://varytoy.github.io/

以上是開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除