突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

Dec 04, 2023 pm 02:14 PM

數據訓練

现在甚至有了大型的多模态高分辨率文档！

这项技术不仅能够准确识别图像中的信息，还能够根据用户需求调用自身的知识库来回答问题

比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

这个模型是由字节跳动和中国科学技术大学合作研究的，于2023年11月24日上传至arXiv

在此研究中，作者团队提出DocPedia，一个统一的高分辨率多模态文档大模型DocPedia。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

在此研究中，作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。

DocPedia分辨率可达2560×2560，而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336，无法解析高分辨率的文档图像。

那么，这款模型究竟表现如何，又使用了怎样的优化方式呢？

各项测评成绩显著提升

在这篇论文中，作者展示了DocPedia高分辨图文理解的示例。可以观察到DocPedia有能力理解指令内容，并从高分辨率的文档图像和自然场景图像中准确地提取相关的图文信息

比如这组图中，DocPedia轻松从图片中挖掘出了车牌号、电脑配置等文本信息，甚至手写文字也能准确判断。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

结合图像中的文本信息，DocPedia还可以利用大模型推理能力，根据上下文分析问题。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

DocPedia在读取完图片信息后，还会根据其丰富的世界知识库，回答图像中未展示的扩展内容

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

下表定量对比了现有的一些多模态大模型和DocPedia的关键信息抽取（KIE）和视觉问答（VQA）能力。

通过提升分辨率和采用有效的训练方法，我们可以看到DocPedia在各项测试基准上都取得了显著的提升

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

那么，DocPedia是如何实现这样的效果的呢呢？

从频域出发解决分辨率问题

DocPedia的训练分为两个阶段：预训练和微调。为了训练DocPedia，作者团队收集了包含各类文档的大量图文数据，并构建指令微调数据集。

在预训练阶段，大型语言模型将被冻结，而只优化视觉编码器的部分，以使其输出的token表征空间与大型语言模型保持一致

在这个阶段，作者团队提出主要训练DocPedia的感知能力，包括对文字和自然场景的感知

预训练任务包括文字检测、文字识别、端到端OCR、段落阅读、全文阅读，以及图像文字说明。

在微调阶段，大型语言模型解除冻结，进行端到端整体优化

作者团队提出了感知-理解联合训练策略：在原有的低阶感知任务基础上，增加了文档理解和场景图像两种高阶的偏语义理解任务

这样一种感知-理解联合训练策略，进一步提高了DocPedia的性能。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

在分辨率问题的策略上，与现有方法不同，DocPedia从频域的角度出发去解决。

在处理高分辨率文档图像时，DocPedia会首先提取其DCT系数矩阵。这个矩阵可以在不损失原图像的图文信息的情况下，将其空间分辨率下采样8倍

经过这一步骤后，我们会使用级联的频域适配器（Frequency Adapter）将输入信号传递给视觉编码器（Vision Encoder），以进行更深层次的分辨率压缩和特征提取

透過此方法，一張2560×2560的圖像，其圖文資訊可以用1600個token表示。

此方法相較於直接將原始影像輸入到視覺編碼器（如Swin Transformer）中，token數量減少4倍。

最後，這些token與指令轉換而來的token進行序列維度拼接，輸入到大模型進行回答。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

消融實驗的結果顯示，提高解析度和進行感知-理解聯合微調是提升DocPedia性能的兩個重要因素

下圖對比了DocPedia對於一張論文影像以及同一個指令，在不同輸入尺度下的回答。可以看到，當且僅當解析度提升至2560×2560時，DocPedia回答正確。

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

下圖則是對比了DocPedia對於同一張場景文字圖像以及同一個指令，在不同微調策略下模型的回答。

透過這個例子可以看出，經過感知-理解聯合微調的模型，能夠準確地進行文字辨識與語意問答

突破解析度極限：位元組聯合中科大揭示多模態文檔大模型

請點擊以下連結查看論文：https://arxiv.org/abs/2311.11810

以上是突破解析度極限：位元組聯合中科大揭示多模態文檔大模型的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

一個提示可以繞過每個主要LLM的保障措施

一個提示可以繞過每個主要LLM的保障措施Apr 25, 2025 am 11:16 AM

隱藏者的開創性研究暴露了領先的大語言模型（LLM）的關鍵脆弱性。他們的發現揭示了一種普遍的旁路技術，稱為“政策木偶”，能夠規避幾乎所有主要LLMS

5個錯誤，大多數企業今年將犯有可持續性

5個錯誤，大多數企業今年將犯有可持續性Apr 25, 2025 am 11:15 AM

對環境責任和減少廢物的推動正在從根本上改變企業的運作方式。這種轉變會影響產品開發，製造過程，客戶關係，合作夥伴選擇以及採用新的

H20芯片禁令震撼中國人工智能公司，但長期以來一直在為影響

H20芯片禁令震撼中國人工智能公司，但長期以來一直在為影響Apr 25, 2025 am 11:12 AM

最近對先進AI硬件的限制突出了AI優勢的地緣政治競爭不斷升級，從而揭示了中國對外國半導體技術的依賴。 2024年，中國進口了價值3850億美元的半導體

如果Openai購買Chrome，AI可能會統治瀏覽器戰爭

如果Openai購買Chrome，AI可能會統治瀏覽器戰爭Apr 25, 2025 am 11:11 AM

從Google的Chrome剝奪了潛在的剝離，引發了科技行業中的激烈辯論。 OpenAI收購領先的瀏覽器，擁有65％的全球市場份額的前景提出了有關TH的未來的重大疑問

AI如何解決零售媒體的痛苦

AI如何解決零售媒體的痛苦Apr 25, 2025 am 11:10 AM

儘管總體廣告增長超過了零售媒體的增長，但仍在放緩。這個成熟階段提出了挑戰，包括生態系統破碎，成本上升，測量問題和整合複雜性。但是，人工智能

'AI是我們，比我們更多'

'AI是我們，比我們更多'Apr 25, 2025 am 11:09 AM

在一系列閃爍和惰性屏幕中，一個古老的無線電裂縫帶有靜態的裂紋。這堆易於破壞穩定的電子產品構成了“電子廢物之地”的核心，這是沉浸式展覽中的六個裝置之一，＆qu＆qu

Google Cloud在下一個2025年對基礎架構變得更加認真

Google Cloud在下一個2025年對基礎架構變得更加認真Apr 25, 2025 am 11:08 AM

Google Cloud的下一個2025：關注基礎架構，連通性和AI Google Cloud的下一個2025會議展示了許多進步，太多了，無法在此處詳細介紹。有關特定公告的深入分析，請參閱我的文章

IR的秘密支持者透露，Arcana的550萬美元的AI電影管道說話，Arcana的AI Meme，Ai Meme的550萬美元。

IR的秘密支持者透露，Arcana的550萬美元的AI電影管道說話，Arcana的AI Meme，Ai Meme的550萬美元。Apr 25, 2025 am 11:07 AM

本週在AI和XR中：一波AI驅動的創造力正在通過從音樂發電到電影製作的媒體和娛樂中席捲。讓我們潛入頭條新聞。 AI生成的內容的增長影響：技術顧問Shelly Palme

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱門文章

刺客信條陰影：貝殼謎語解決方案

4 週前ByDDD

Windows 11 KB5054979中的新功能以及如何解決更新問題

3 週前ByDDD

在哪裡可以找到原子中的起重機控制鑰匙卡

4 週前ByDDD

<🎜>：死鐵路 - 如何完成所有挑戰

1 個月前ByDDD

Atomfall指南：項目位置，任務指南和技巧

1 個月前ByDDD

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

熱門話題

gmail信箱登陸入口在哪裡

7704

15

1640

14

1393

52

1287

25

1231

29