搜尋
首頁硬體教學硬體測評輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便

一個可以自動分析 PDF、網頁、海報、Excel 圖表內容的大模型,對於打工人來說簡直不要太方便。

上海 AI Lab,香港中文大學等研究機構提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現實。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

相比於其他多模態大模型不超過1500x1500 的分辨率限制,該工作將多模態大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長寬比和336 像素~4K 動態分辨率變化。

發布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

輕鬆拿捏4K 影像理解

先來看效果~

研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個模型在MMBench 上的表現最高。

要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現在一個相當複雜的雷達圖中。面對這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的訊息,正確回答問題。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

面對更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個部分,並準確說明了每個部分包含的文字訊息內容。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

隨後,研究人員也在16 個多模態大模式評測指標上全面測試了IXC2-4KHD 的能力,其中5 項評測(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。

僅使用7B 參數量,IXC2-4KHD 在其中10 項評測取得了媲美甚至超越GPT4V 和Gemini Pro 的結果,展現了不局限於高分辨率圖像理解,而是對各種任務和場景的泛用能力。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△僅 7B 參數量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實現 4K 動態解析度?

為了實現4K 動態解析度的目標,IXC2-4KHD 包含了三個主要設計:

(1)動態解析度訓練:

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

△4K 解析度影像處理策略

在IXC2-4KHD 的框架中,輸入影像在保持長寬比的情況下,隨機放大到介於輸入面積和最大面積(不超過55x336x336,等價於3840 x1617 解析度)的一個中間尺寸。

隨後,將影像自動切塊成多個 336x336 的區域,分別抽取視覺特徵。這種動態解析度的訓練策略可以讓模型適應任意解析度的視覺輸入,同時也彌補了高解析度訓練資料不足的問題。

實驗表明,隨著動態解析度上限的增加,模型在高解析度影像理解任務(InfographicVQA、DocVQA、TextVQA)上實現了穩定的效能提升,並且在4K 解析度仍然未達到上界,展現了更高解析度進一步擴展的潛力。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(2)加入切塊佈局資訊:

為了讓模型能夠適應變化豐富的動態分辨率,研究人員發現需要將切塊佈局資訊作為額外的輸入。為了實現這個目的,研究人員採取了一個簡單的策略:一個特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實驗表明,添加切塊佈局信息,對於變化幅度比較小的動態分辨率訓練(HD9 代表切塊區域個數不超過9)影響不大,而對於動態4K 分辨率訓練則可以帶來顯著的性能提升。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

(3)推理階段擴展解析度

研究人員也發現,使用動態解析度的模型,可以在推理階段透過增加最大切塊上限直接擴展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個)的訓練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的效能提升。

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

IXC2-4KHD 將多模態大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個數來支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更有效率的策略在未來實現更高解析度的支援。

論文連結:

https://arxiv.org/pdf/2404.06512.pdf

專案連結:

##https://github.com /InternLM/InternLM-XComposer

— 完—

投稿請寄電子郵件到:

ai@qbitai.com

##標題註明,告訴我們:

你是誰,從哪裡來,投稿內容

附上論文/ 專案主頁鏈接,以及聯絡方式哦

我們會(盡量)及時回覆你

 轻松拿捏 4K 高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便 點這裡追蹤我,記得標星哦~

一鍵三連「分享」、「按讚」和「在看」

科技前沿進展日日相見~

#

以上是輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:ZAKER。如有侵權,請聯絡admin@php.cn刪除
MWC 新品前瞻:榮耀全面接入 DeepSeek '一句話的事”落地榮耀 AI PCMWC 新品前瞻:榮耀全面接入 DeepSeek '一句話的事”落地榮耀 AI PCMar 12, 2025 pm 02:12 PM

榮耀MagicBookPro14驚艷發布,引領AIPC新時代!在MWC開幕前夕,榮耀搶先在國內發布了全新MagicBookPro14筆記本,並同步推出AIPC2.0戰略,以AI技術全面革新筆記本電腦體驗。榮耀AIPC2.0戰略涵蓋AI內核驅動的智能硬件、AI智能體賦能的人機交互以及AI服務流轉的跨端生態。榮耀手機廣受好評的“一句話的事”AI交互體驗也將在MagicBookPro14上實現,用戶只需語音指令即可完成操作。搭載全新HONORTurboX技術,MagicBo

显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了显著超越 SFT,o1/DeepSeek-R1 背后秘诀也能用于多模态大模型了Mar 12, 2025 pm 01:03 PM

上海交大、上海AILab和港中文大学的研究人员推出Visual-RFT(视觉强化微调)开源项目,该项目仅需少量数据即可显著提升视觉语言大模型(LVLM)性能。Visual-RFT巧妙地将DeepSeek-R1的基于规则奖励的强化学习方法与OpenAI的强化微调(RFT)范式相结合,成功地将这一方法从文本领域扩展到视觉领域。通过为视觉细分类、目标检测等任务设计相应的规则奖励,Visual-RFT克服了DeepSeek-R1方法仅限于文本、数学推理等领域的局限性,为LVLM训练提供了新的途径。Vis

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用