闷烧:高精度文档转换的轻巧视觉语言模型
数字文档提出了一个重大挑战:将其丰富的结构准确地转换为机器可读格式。现有的解决方案,无论是复杂的管道还是大型模型,通常都会损害效率的准确性。 Smoldocling提供了一种开创性的替代方案 - 一种非常紧凑的256m参数视觉语言模型,可提供精确的快速端到端文档转换。
目录:
- 文档转换障碍
- 引入闷热:一种新颖的方法
- 了解医生:通用标记语言
- 深度潜水:培训数据和模型架构
- 绩效比较:闷闷不乐与其他型号
- 代码示例和输出可视化
- 结论和未来发展
文档转换障碍
将各种文档布局(从业务报告到学术论文)转换为结构化数据仍然是一项复杂的任务。主要挑战包括:
- 布局可变性:文档具有各种样式和格式。
- 不透明格式: PDF之类的格式优先打印,阻碍语义解析。
- 资源密集型:传统方法需要大量的计算资源和复杂的调整。
引入闷热:一种新颖的方法
闷闷不乐通过统一的端到端方法来应对这些挑战:
- 完整的页面处理:它同时处理整个文档页面,从而消除了对多个专用模型的需求。
- 紧凑的设计,强大的结果:其2.56亿参数达到的性能可与模型相当多倍。
- 多功能多模式功能:它无缝处理各种文档元素:代码,表,方程,图表等。
闷烧的核心是其创新的标记语言,Doctags,一种通用标准捕获内容,结构和空间环境。
了解医生:通用标记语言
Doctags重新定义文档元素表示:
- 结构化词汇:使用XML风格的标签(灵感来自OTSL),它清楚地区分了文本,图像,表格,代码等。
- 空间上下文:精确的边界框坐标保留布局信息。
- 统一表示:完整页面或各个元素的一致格式增强了学习和概括。
主要医生包括: <img src="/static/imghwm/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174537247742337.jpg?x-oss-process=image/resize,p_40" class="lazy" alt="闷闷不乐的文档可以更有效地解析文件吗?">
绩效比较:闷闷不乐与其他型号
闷闷不乐在文本识别和文档格式中显着优于较大的模型:
方法 | 型号大小 | 编辑距离↓ | F1得分↑ | 精度↑ | 回想↑ | bleu↑ | 流星↑ |
---|---|---|---|---|---|---|---|
QWEN2.5 VL | 7b | 0.56 | 0.72 | 0.80 | 0.70 | 0.46 | 0.57 |
得到 | 580m | 0.61 | 0.69 | 0.71 | 0.73 | 0.48 | 0.59 |
牛轧糖(基础) | 350m | 0.62 | 0.66 | 0.72 | 0.67 | 0.44 | 0.54 |
闷闷不乐(我们) | 256m | 0.48 | 0.80 | 0.89 | 0.79 | 0.58 | 0.67 |
闷闷不乐在专业任务中也表现出色,在代码清单和方程式识别中获得了高的F1分数和精度。
代码示例和输出可视化
[由于长度约束,此处省略了代码示例和可视化。原始输入提供了这些部分。]
结论和未来发展
闷烧的表明,较小的模型可以在文档转换中实现最新的性能。其高效的建筑,创新的医生格式和全面的培训策略建立了新的基准。在收据上表现出强烈的性能和其他文档的可接受结果,但由于其记忆效率的设计而存在局限性。未来的工作将集中于改善元素本地化和多模式理解。数据集的公开发布将有助于进一步的研究和协作。
以上是闷闷不乐的文档可以更有效地解析文件吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将


热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

SublimeText3 英文版
推荐:为Win版本,支持代码提示!

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

mPDF
mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

禅工作室 13.0.1
功能强大的PHP集成开发环境