一個可以自動分析 PDF、網頁、海報、Excel 圖表內容的大模型,對於打工人來說簡直不要太方便。
上海 AI Lab,香港中文大學等研究機構提出的 InternLM-XComposer2-4KHD(簡寫為 IXC2-4KHD)模型讓這成為了現實。
相比於其他多模態大模型不超過1500x1500 的分辨率限制,該工作將多模態大模型的最大輸入圖像提升到超過4K (3840 x1600)分辨率,並支援任意長寬比和336 像素~4K 動態分辨率變化。
發布三天,模型就登頂 Hugging Face 視覺問答模型熱度排行榜第一。
輕鬆拿捏4K 影像理解
先來看效果~
研究人員輸入論文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首頁截圖(解析度為2550x3300),並詢問論文哪個模型在MMBench 上的表現最高。
要注意的是,該資訊在輸入截圖的正文文字部分並未提及,僅出現在一個相當複雜的雷達圖中。面對這麼刁鑽的問題,IXC2-4KHD 成功理解了雷達圖中的訊息,正確回答問題。
面對更極端解析度的影像輸入(816 x 5133),IXC2-4KHD 輕鬆理解影像包括7 個部分,並準確說明了每個部分包含的文字訊息內容。
隨後,研究人員也在16 個多模態大模式評測指標上全面測試了IXC2-4KHD 的能力,其中5 項評測(DocVQA、ChartQA、InfographicVQA 、TextVQA、OCRBench)著重模型的高解析度影像理解能力。
僅使用7B 參數量,IXC2-4KHD 在其中10 項評測取得了媲美甚至超越GPT4V 和Gemini Pro 的結果,展現了不局限於高分辨率圖像理解,而是對各種任務和場景的泛用能力。
△僅 7B 參數量的 IXC2-4KHD 效能媲美 GPT-4V 和 Gemini-Pro 如何實現 4K 動態解析度?
為了實現4K 動態解析度的目標,IXC2-4KHD 包含了三個主要設計:
(1)動態解析度訓練:
△4K 解析度影像處理策略
在IXC2-4KHD 的框架中,輸入影像在保持長寬比的情況下,隨機放大到介於輸入面積和最大面積(不超過55x336x336,等價於3840 x1617 解析度)的一個中間尺寸。
隨後,將影像自動切塊成多個 336x336 的區域,分別抽取視覺特徵。這種動態解析度的訓練策略可以讓模型適應任意解析度的視覺輸入,同時也彌補了高解析度訓練資料不足的問題。
實驗表明,隨著動態解析度上限的增加,模型在高解析度影像理解任務(InfographicVQA、DocVQA、TextVQA)上實現了穩定的效能提升,並且在4K 解析度仍然未達到上界,展現了更高解析度進一步擴展的潛力。
(2)加入切塊佈局資訊:
為了讓模型能夠適應變化豐富的動態分辨率,研究人員發現需要將切塊佈局資訊作為額外的輸入。為了實現這個目的,研究人員採取了一個簡單的策略:一個特殊的『換行』(’ n ’)令牌被插入到每一行的切塊之後,用於告知模型切塊的佈局。實驗表明,添加切塊佈局信息,對於變化幅度比較小的動態分辨率訓練(HD9 代表切塊區域個數不超過9)影響不大,而對於動態4K 分辨率訓練則可以帶來顯著的性能提升。
(3)推理階段擴展解析度
研究人員也發現,使用動態解析度的模型,可以在推理階段透過增加最大切塊上限直接擴展分辨率,並帶來額外的性能增益。例如將 HD9(最多 9 個)的訓練模型直接使用 HD16 進行測試,可以在 InfographicVQA 上觀察到高達 8% 的效能提升。
IXC2-4KHD 將多模態大模型支援的分辨率提升到了4K 的水平,研究人員表示目前這種透過增加切塊個數來支持更大圖像輸入的策略遇到了計算代價和顯存的瓶頸,因此他們計劃提出更有效率的策略在未來實現更高解析度的支援。
論文連結:
https://arxiv.org/pdf/2404.06512.pdf
專案連結:
##https://github.com /InternLM/InternLM-XComposer— 完—投稿請寄電子郵件到:ai@qbitai.com##標題註明,告訴我們:
你是誰,從哪裡來,投稿內容
附上論文/ 專案主頁鏈接,以及聯絡方式哦
我們會(盡量)及時回覆你
點這裡追蹤我,記得標星哦~
一鍵三連「分享」、「按讚」和「在看」
科技前沿進展日日相見~
#以上是輕鬆拿捏 4K 高畫質影像理解!這個多模態大模型自動分析網頁海報內容,打工人簡直不要太方便的詳細內容。更多資訊請關注PHP中文網其他相關文章!