突破分辨率极限：字节联合中科大揭示多模态文档大模型

突破分辨率极限：字节联合中科大揭示多模态文档大模型

Dec 04, 2023 pm 02:14 PM

数据训练

现在甚至有了大型的多模态高分辨率文档！

这项技术不仅能够准确识别图像中的信息，还能够根据用户需求调用自身的知识库来回答问题

比如，看到图中马里奥的界面，直接就回答出了这是任天堂公司的作品。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

这个模型是由字节跳动和中国科学技术大学合作研究的，于2023年11月24日上传至arXiv

在此研究中，作者团队提出DocPedia，一个统一的高分辨率多模态文档大模型DocPedia。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

在此研究中，作者用一种新的方式解决了现有模型不能解析高分辨文档图像的短板。

DocPedia分辨率可达2560×2560，而目前业内先进多模态大模型如LLaVA、MiniGPT-4等处理图像分辨率上限为336×336，无法解析高分辨率的文档图像。

那么，这款模型究竟表现如何，又使用了怎样的优化方式呢？

各项测评成绩显着提升

在这篇论文中，作者展示了DocPedia高分辨图文理解的示例。可以观察到DocPedia有能力理解指令内容，并从高分辨率的文档图像和自然场景图像中准确地提取相关的图文信息

比如这组图中，DocPedia轻松从图片中挖掘出了车牌号、电脑配置等文本信息，甚至手写文字也能准确判断。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

结合图像中的文本信息，DocPedia还可以利用大模型推理能力，根据上下文分析问题。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

DocPedia在读取完图片信息后，还会根据其丰富的世界知识库，回答图像中未展示的扩展内容

突破分辨率极限：字节联合中科大揭示多模态文档大模型

下表定量对比了现有的一些多模态大模型和DocPedia的关键信息抽取（KIE）和视觉问答（VQA）能力。

通过提升分辨率和采用有效的训练方法，我们可以看到DocPedia在各项测试基准上都取得了显着的提升

突破分辨率极限：字节联合中科大揭示多模态文档大模型

那么，DocPedia是如何实现这样的效果的呢呢？

从频域出发解决分辨率问题

DocPedia的训练分为两个阶段：预训练和微调。为了训练DocPedia，作者团队收集了包含各类文档的大量图文数据，并构建指令微调数据集。

在预训练阶段，大型语言模型将被冻结，而只优化视觉编码器的部分，以使其输出的token表征空间与大型语言模型保持一致

在这个阶段，作者团队提出主要训练DocPedia的感知能力，包括对文字和自然场景的感知

预训练任务包括文字检测、文字识别、端到端OCR、段落阅读、全文阅读，以及图像文字说明。

在微调阶段，大型语言模型解除冻结，进行端到端整体优化

作者团队提出了感知-理解联合训练策略：在原有的低阶感知任务基础上，增加了文档理解和场景图像两种高阶的偏语义理解任务

这样一种感知-理解联合训练策略，进一步提高了DocPedia的性能。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

在分辨率问题的策略上，与现有方法不同，DocPedia从频域的角度出发去解决。

在处理高分辨率文档图像时，DocPedia会首先提取其DCT系数矩阵。这个矩阵可以在不损失原图像的图文信息的情况下，将其空间分辨率下采样8倍

经过这一步骤后，我们会使用级联的频域适配器（Frequency Adapter）将输入信号传递给视觉编码器（Vision Encoder），以进行更深层次的分辨率压缩和特征提取

通过此方法，一张2560×2560的图像，其图文信息可以用1600个token表示。

该方法相较于直接将原始图像输入到视觉编码器（如Swin Transformer）中，token数量减少4倍。

最后，这些token与指令转换而来的token进行序列维度拼接，输入到大模型进行回答。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

消融实验的结果显示，提高分辨率和进行感知-理解联合微调是提升DocPedia性能的两个重要因素

下图对比了DocPedia对于一张论文图像以及同一个指令，在不同输入尺度下的回答。可以看到，当且仅当分辨率提升至2560×2560时，DocPedia回答正确。

突破分辨率极限：字节联合中科大揭示多模态文档大模型

下图则对比了DocPedia对于同一张场景文字图像以及同一个指令，在不同微调策略下模型的回答。

通过这个例子可以看出，经过感知-理解联合微调的模型，能够准确地进行文字识别和语义问答

突破分辨率极限：字节联合中科大揭示多模态文档大模型

请点击以下链接查看论文：https://arxiv.org/abs/2311.11810

以上是突破分辨率极限：字节联合中科大揭示多模态文档大模型的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

微软工作趋势指数2025显示工作场所容量应变

微软工作趋势指数2025显示工作场所容量应变Apr 24, 2025 am 11:19 AM

由于AI的快速整合而加剧了工作场所的迅速危机危机，要求战略转变以外的增量调整。 WTI的调查结果强调了这一点：68％的员工在工作量上挣扎，导致BUR

AI可以理解吗？中国房间的论点说不，但是对吗？

AI可以理解吗？中国房间的论点说不，但是对吗？Apr 24, 2025 am 11:18 AM

约翰·塞尔（John Searle）的中国房间论点：对AI理解的挑战 Searle的思想实验直接质疑人工智能是否可以真正理解语言或具有真正意识。想象一个人，对下巴一无所知

中国的'智能” AI助手回应微软召回的隐私缺陷

中国的'智能” AI助手回应微软召回的隐私缺陷Apr 24, 2025 am 11:17 AM

与西方同行相比，中国的科技巨头在AI开发方面的课程不同。他们不专注于技术基准和API集成，而是优先考虑“屏幕感知” AI助手 - AI T

Docker将熟悉的容器工作流程带到AI型号和MCP工具

Docker将熟悉的容器工作流程带到AI型号和MCP工具Apr 24, 2025 am 11:16 AM

MCP：赋能AI系统访问外部工具模型上下文协议（MCP）让AI应用能够通过标准化接口与外部工具和数据源交互。由Anthropic开发并得到主要AI提供商的支持，MCP允许语言模型和智能体发现可用工具并使用合适的参数调用它们。然而，实施MCP服务器存在一些挑战，包括环境冲突、安全漏洞以及跨平台行为不一致。 Forbes文章《Anthropic的模型上下文协议是AI智能体发展的一大步》作者：Janakiram MSVDocker通过容器化解决了这些问题。基于Docker Hub基础设施构建的Doc

使用6种AI街头智能策略来建立一家十亿美元的创业

使用6种AI街头智能策略来建立一家十亿美元的创业Apr 24, 2025 am 11:15 AM

有远见的企业家采用的六种策略，他们利用尖端技术和精明的商业敏锐度来创造高利润的可扩展公司，同时保持控制权。本指南是针对有抱负的企业家的，旨在建立一个

Google照片更新解锁了您所有图片的惊人Ultra HDR

Google照片更新解锁了您所有图片的惊人Ultra HDRApr 24, 2025 am 11:14 AM

Google Photos的新型Ultra HDR工具：改变图像增强的游戏规则 Google Photos推出了一个功能强大的Ultra HDR转换工具，将标准照片转换为充满活力的高动态范围图像。这种增强功能受益于摄影师

Descope建立AI代理集成的身份验证框架

Descope建立AI代理集成的身份验证框架Apr 24, 2025 am 11:13 AM

技术架构解决了新兴的身份验证挑战代理身份集线器解决了许多组织仅在开始AI代理实施后发现的问题，即传统身份验证方法不是为机器设计的

Google Cloud Next 2025以及现代工作的未来

Google Cloud Next 2025以及现代工作的未来Apr 24, 2025 am 11:12 AM

（注意：Google是我公司的咨询客户，Moor Insights＆Strateging。） AI：从实验到企业基金会 Google Cloud Next 2025展示了AI从实验功能到企业技术的核心组成部分的演变，

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸！

热门文章

刺客信条阴影：贝壳谜语解决方案

3 周前ByDDD

Windows 11 KB5054979中的新功能以及如何解决更新问题

2 周前ByDDD

在哪里可以找到原子中的起重机控制钥匙卡

3 周前ByDDD

<🎜>：死铁路 - 如何完成所有挑战

4 周前ByDDD

Atomfall指南：项目位置，任务指南和技巧

1 个月前ByDDD

热工具

VSCode Windows 64位下载

VSCode Windows 64位下载

微软推出的免费、功能强大的一款IDE编辑器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

功能强大的PHP集成开发环境

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具，用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

mPDF

mPDF

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），

热门话题

gmail邮箱登陆入口在哪里

7681

15

1639

14

1393

52

1286

25

1229

29