搜索
首页科技周边人工智能闷闷不乐的文档可以更有效地解析文件吗?

闷烧:高精度文档转换的轻巧视觉语言模型

数字文档提出了一个重大挑战:将其丰富的结构准确地转换为机器可读格式。现有的解决方案,无论是复杂的管道还是大型模型,通常都会损害效率的准确性。 Smoldocling提供了一种开创性的替代方案 - 一种非常紧凑的256m参数视觉语言模型,可提供精确的快速端到端文档转换。

目录:

  • 文档转换障碍
  • 引入闷热:一种新颖的方法
  • 了解医生:通用标记语言
  • 深度潜水:培训数据和模型架构
  • 绩效比较:闷闷不乐与其他型号
  • 代码示例和输出可视化
  • 结论和未来发展

文档转换障碍

将各种文档布局(从业务报告到学术论文)转换为结构化数据仍然是一项复杂的任务。主要挑战包括:

  • 布局可变性:文档具有各种样式和格式。
  • 不透明格式: PDF之类的格式优先打印,阻碍语义解析。
  • 资源密集型:传统方法需要大量的计算资源和复杂的调整。

引入闷热:一种新颖的方法

闷闷不乐通过统一的端到端方法来应对这些挑战:

  • 完整的页面处理:它同时处理整个文档页面,从而消除了对多个专用模型的需求。
  • 紧凑的设计,强大的结果:其2.56亿参数达到的性能可与模型相当多倍。
  • 多功能多模式功能:它无缝处理各种文档元素:代码,表,方程,图表等。

闷烧的核心是其创新的标记语言,Doctags,一种通用标准捕获内容,结构和空间环境。

了解医生:通用标记语言

Doctags重新定义文档元素表示:

  • 结构化词汇:使用XML风格的标签(灵感来自OTSL),它清楚地区分了文本,图像,表格,代码等。
  • 空间上下文:精确的边界框坐标保留布局信息。
  • 统一表示:完整页面或各个元素的一致格式增强了学习和概括。

闷闷不乐的文档可以更有效地解析文件吗?

主要医生包括: <img src="/static/imghwm/default1.png" data-src="https://img.php.cn/upload/article/000/000/000/174537247742337.jpg?x-oss-process=image/resize,p_40" class="lazy" alt="闷闷不乐的文档可以更有效地解析文件吗?">

绩效比较:闷闷不乐与其他型号

闷闷不乐在文本识别和文档格式中显着优于较大的模型:

方法 型号大小 编辑距离↓ F1得分↑ 精度↑ 回想↑ bleu↑ 流星↑
QWEN2.5 VL 7b 0.56 0.72 0.80 0.70 0.46 0.57
得到 580m 0.61 0.69 0.71 0.73 0.48 0.59
牛轧糖(基础) 350m 0.62 0.66 0.72 0.67 0.44 0.54
闷闷不乐(我们) 256m 0.48 0.80 0.89 0.79 0.58 0.67

闷闷不乐在专业任务中也表现出色,在代码清单和方程式识别中获得了高的F1分数和精度。

代码示例和输出可视化

[由于长度约束,此处省略了代码示例和可视化。原始输入提供了这些部分。]

结论和未来发展

闷烧的表明,较小的模型可以在文档转换中实现最新的性能。其高效的建筑,创新的医生格式和全面的培训策略建立了新的基准。在收据上表现出强烈的性能和其他文档的可接受结果,但由于其记忆效率的设计而存在局限性。未来的工作将集中于改善元素本地化和多模式理解。数据集的公开发布将有助于进一步的研究和协作。

以上是闷闷不乐的文档可以更有效地解析文件吗?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7?拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7?Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B:强大的开源代码推理模型 开发以代码为中心的语言模型的竞赛正在加剧,拥抱面孔与强大的竞争者一起参加了比赛:OlympicCoder-7B,一种产品

4个新的双子座功能您可以错过4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情,而不仅仅是回答问题?我知道我有,最近,我对它的变化感到惊讶。 AI聊天机器人不仅要聊天,还关心创建,研究

Camunda为经纪人AI编排编写了新的分数Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面(我们必须强调的是,既有强大的核心工具,也有一些不太可靠的模拟工具),我们需要一套新的基础设施能力来管理这些智能体。 总部位于德国柏林的流程编排公司Camunda认为,它可以帮助智能AI发挥其应有的作用,并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能,旨在帮助组织建模、部署和管理AI智能体。 从实际的软件工程角度来看,这意味着什么? 确定性与非确定性流程的融合 该公司表示,关键在于允许用户(通常是数据科学家、软件

策划的企业AI体验是否有价值?策划的企业AI体验是否有价值?Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25,我渴望看到Google如何区分其AI产品。 有关代理空间(此处讨论)和客户体验套件(此处讨论)的最新公告很有希望,强调了商业价值

如何为抹布找到最佳的多语言嵌入模型?如何为抹布找到最佳的多语言嵌入模型?Apr 23, 2025 am 11:44 AM

为您的检索增强发电(RAG)系统选择最佳的多语言嵌入模型 在当今的相互联系的世界中,建立有效的多语言AI系统至关重要。 强大的多语言嵌入模型对于RE至关重要

麝香:奥斯汀的机器人需要每10,000英里进行干预麝香:奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射:仔细观察Musk的主张 埃隆·马斯克(Elon Musk)最近宣布,特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射,最初出于安全原因部署了一支小型10-20辆汽车,并有快速扩张的计划。 h

AI震惊的枢轴:从工作工具到数字治疗师和生活教练AI震惊的枢轴:从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初,我们很多人可能认为它主要用于代劳创意和技术任务,例如编写代码和创作内容。 然而,哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作,而是支持、组织,甚至是友谊! 报告称,人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。 另一方面,营销任务(例如撰写博客、创建社交媒体帖子或广告文案)在流行用途列表中的排名要低得多。 这是为什么呢?让我们看看研究结果及其对我们人类如何继续将

公司竞争AI代理的采用公司竞争AI代理的采用Apr 23, 2025 am 11:40 AM

AI代理商的兴起正在改变业务格局。 与云革命相比,预计AI代理的影响呈指数增长,有望彻底改变知识工作。 模拟人类决策的能力

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

SublimeText3 英文版

SublimeText3 英文版

推荐:为Win版本,支持代码提示!

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

mPDF

mPDF

mPDF是一个PHP库,可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件,并处理不同的语言。与原始脚本如HTML2FPDF相比,它的速度较慢,并且在使用Unicode字体时生成的文件较大,但支持CSS样式等,并进行了大量增强。支持几乎所有语言,包括RTL(阿拉伯语和希伯来语)和CJK(中日韩)。支持嵌套的块级元素(如P、DIV),

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境