一款名為Vary-toy的「年輕人的第一個多模態大模型」來了!
模型大小不到2B,消費級顯示卡可訓練,GTX1080ti 8G的老顯示卡輕鬆運作。
想將一份文件圖片轉換成Markdown格式?以往需要文字辨識、版面偵測與排序、公式表格處理、文字清洗等多個步驟。
現在只需一句話指令:
無論中英文,圖片中的大段文字都能分分鐘擷取出來:
對一張圖做物件偵測,還是能給出具體座標的那種:
(大型視覺語言模型)主流研究中的所有能力:文檔OCR識別(Document OCR )、視覺定位(Visual Grounding)、圖像描述(Image Caption)、視覺問答(VQA)。
舊·GTX1080,心情belike:
1.2k star,但也有不少人因為資源受限運作不了。
考慮到目前開源得很好且性能出色的「小」VLM比較少,於是該團隊又新發布了號稱是「年輕人的第一個多模大模型」的Vary-toy。 與Vary相比,Vary-toy除了小之外,也訓練了更強的視覺詞表,新的詞表不再將模型局限於文檔級OCR,而是給出了一個更通用和全面的視覺詞表,其不僅能做文檔級OCR,還能做通用視覺目標檢測。
那這究竟是如何做到的呢? Vary-toy的模型結構和訓練流程如下圖所示,總的來說,訓練共分兩個階段。Vary-toy在DocVQA可以達到65.6%的ANLS,在ChartQA上達到59.1%的準確率,RefCOCO88.1%的準確率:
#MMVet上可以達到29%準確率,無論是從基準測試評分還是可視化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一較高下。
專案連結:
[1]https://arxiv.org/abs/2401.12503
[3] https://varytoy.github.io/
以上是開源線上的年輕人首選多模態大模型:輕鬆運行1080Ti的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境