当GPT-4学会看图文，一场生产力革命已势不可挡-人工智能-PHP中文网

首页

科技周边

人工智能

当GPT-4学会看图文，一场生产力革命已势不可挡

青灯夜游

Mar 31, 2023 pm 10:38 PM

技术图像

来自学界和业界的多位研究者围绕「图文智能处理技术与多场景应用技术」展开了深入探讨，

「太卷了！」

在经历了 GPT-4 和微软 Microsoft 365 Copilot 的连续轰炸后，相信很多人都有这样的感想。

与 GPT-3.5 相比，GPT-4 在很多方面都实现了大幅提升，比如在模拟律师考试中，它从原来的倒数 10% 进化到了正数 10%。当然，普通人对于这些专业考试可能没什么概念。但如果给你看一张图，你就明白它的提升有多么恐怖了：

图源：清华大学计算机系教授唐杰微博。链接：https://m.weibo.cn/detail/4880331053992765

这是一道物理题，GPT-4 被要求根据图文逐步解题，这是 GPT-3.5（此处指升级之前的 ChatGPT 所依赖的模型）所不具备的能力。一方面，GPT-3.5 只被训练用来理解文字，题中的图它是看不懂的。另一方面，GPT-3.5 的解题能力也很薄弱，鸡兔同笼都能把它难倒。但这一次，两个问题似乎都被解决得非常漂亮。

当所有人都以为这就是王炸的时候，微软又放出了一个重磅炸弹：GPT-4 这些能力已经被整合到一个名为 Microsoft 365 Copilot 的新应用中。凭借强大的图文处理能力，Microsoft 365 Copilot 不仅可以帮你写各种文档，还能轻松地将文档转换成 PPT、将 Excel 数据自动总结成图表……

从技术亮相到产品落地，OpenAI 和微软只给了大众两天的反应时间。似乎在一夜之间，一场新的生产力革命已经到来。

由于变革来得太快，学界和业界都或多或少地处于一种迷茫和「FOMO（fear of missing out，怕错过）」的状态。当前，所有人都想知道一个答案：在这场浪潮中，我们能做些什么？有哪些机会可以抓住？而从微软发布的 demo 中，我们可以找到一个清晰的突破口：图文智能处理。

在现实场景中，各行各业的很多工作都和图文处理有关系，比如把非结构化数据整理成图表、根据图表写报告、从海量的图文信息中抽取出有用信息等等。也正因如此，这场革命的影响可能远比很多人想象得还要深远。OpenAI 和沃顿商学院最近发布的一篇重磅论文对这种影响做了预测：约 80% 的美国劳动力至少有 10% 的工作任务可能会受到 GPT 引入的影响，而约 19% 的工人可能会看到至少 50% 的任务受到影响。可以预见，这里面很大一部分工作是涉及图文智能的。

在这样一个切入点上，哪些研究工作或工程努力是值得探索的呢？在近期中国图象图形学学会（CSIG）主办，合合信息、CSIG 文档图像分析与识别专业委员会联合承办的 CSIG 企业行活动中，来自学界和业界的多位研究者围绕「 图文智能处理技术与多场景应用技术」展开了深入探讨，或许能给关注图文智能处理领域的研究者、从业者提供一些启发。

处理图文，从做好底层视觉开始

前面提到，GPT-4 的图文处理能力是非常令人震撼的。除了上面那个物理题，OpenAI 的技术报告里还举了其他例子，比如让 GPT-4 读论文图：

不过，要想让这样的技术广泛落地，可能还有很多基础工作要做，底层视觉便是其中之一。

底层视觉的特征非常明显：输入是图像，输出也是图像。图像预处理、滤波、恢复和增强等都属于这一范畴。

「底层视觉的理论和方法在众多领域都有着广泛的应用，如手机、医疗图像分析、安防监控等。重视图像、视频内容质量的企业、机构不能不关注底层视觉方向的研究。如果底层视觉没做好，很多 high-level 视觉系统（如检测、识别、理解）无法真正落地。」合合信息图像算法研发总监郭丰俊在 CSIG 企业行活动分享中表示。

这句话要怎么理解？我们可以看一些例子：

和 OpenAI、微软 demo 中所展示的理想情况不同，现实世界的图文总是以充满挑战的形式存在，比如存在形变、阴影、摩尔纹，这会加大后续识别、理解等工作的难度。郭丰俊团队的目标就是在初始阶段把这些问题解决好。

为此，他们将这项任务分成了几个模块，包括感兴趣区域（RoI）的提取、形变矫正、图像恢复（如去除阴影、摩尔纹）、质量增强（如增强锐化、清晰度）等。

这些技术组合起来可以打造一些非常有意思的应用。经过多年的摸索，这些模块已经实现了相当不错的效果，相关技术已被应用于公司旗下的智能文字识别产品「扫描全能王」里。

从字到表，再到篇章，一步步读懂图文

图像处理好之后，接下来的工作就是识别上面的图文内容。这也是一个非常细致的工作，甚至可能以「字」为单位。

在很多现实场景中，字不一定会以规范的印刷体的形式出现，这就给字的识别带来了挑战。

以教育场景为例。假设你是一位老师，你肯定想让 AI 直接帮你把学生作业全部批改好，同时把学生对各部分知识的掌握情况汇总一下，最好还能把错题、错别字及改正建议给出来。中国科学技术大学语音及语言信息处理国家工程实验室副教授杜俊就在做这方面的工作。

具体来说，他们创建了一套基于部首的汉字识别、生成与评测系统，因为与整字建模相比，部首的组合要少得多。其中，识别与生成是联合优化的，这有点像学生学习时识字与写字互相强化的过程。评测的工作以往大多聚焦在语法层面，而杜俊的团队设计了一种可以直接从图像中找出错别字并详细说明错误之处的方法。这种方法在智能阅卷等场景中将非常有用。

文字之外，表格的识别与处理其实也是一大难点，因为你不仅要识别里面的内容，还要理清这些内容之间的结构关系，而且有些表可能连线框都没有。为此，杜俊团队设计了一种「先分割，后合并」的方法，即先把表格图像拆分成一系列基础网格，然后再通过合并的方式做进一步纠正。

杜俊团队「先分割，后合并」的表格识别方法。

当然，所有这些工作最后都会在篇章级别的文档结构化和理解方面发挥作用。在现实环境中，模型所面临的文档大多不止一页（比如一篇论文）。在这一方向，杜俊团队的工作聚焦于跨页文档要素分类、跨页文档结构恢复等。不过，这些方法在多版式的场景下还存在局限性。

大模型、多模态、世界模型…… 未来路在何方？

聊到篇章级别的图文处理与理解，其实我们离 GPT-4 就不远了。「多模态的 GPT-4 出来后，我们也在想能不能在这些方面做些事情」，杜俊在活动现场说到。相信很多图文处理领域的研究者或从业者都有此想法。

一直以来，GPT 系列模型的目标都是努力提高通用性，最终实现通用人工智能（AGI）。此次 GPT-4 所展现出的强大的图文理解能力是这种通用能力的重要组成部分。要想做出一个拥有类似能力的模型，OpenAI 给出了一些借鉴，也留下了不少谜团和未解决的问题。

首先，GPT-4 的成功表明，大模型 + 多模态的做法是可行的。但大模型要研究哪些问题，多模态的夸张算力需求如何解决都是摆在研究者眼前的挑战。

对于第一个问题，复旦大学计算机学院教授邱锡鹏给出了一些值得参考的方向。根据 OpenAI 之前透露的一些信息，我们知道 ChatGPT 离不开几项关键技术，包括情景学习（in-context learning）、思维链（chain of thought）和指令学习（learn from instructions）等。邱锡鹏在分享中指出，这几个方向都还有很多待探讨的问题，比如这些能力从哪里来、如何继续提高、如何利用它们去改造已有的学习范式等。此外，他还分享了对话式大型语言模型构建时应该考虑的能力以及将这些模型与现实世界对齐可以考虑的研究方向。

对于第二个问题，厦门大学南强特聘教授纪荣嵘贡献了一个重要思路。他认为，语言和视觉存在着天然的联系，二者的联合学习已经是大势所趋。但面对这波浪潮，任何一个高校或实验室的力量都显得微不足道。所以他现在从自己就职的厦大开始，尝试说服研究人员将算力整合起来，形成一个网络去做多模态大模型。其实，在前段时间的一个活动上，专注于 AI for Science 的鄂维南院士也发表了类似看法，希望各界「敢于在原始创新方向上集中资源」。

不过，GPT-4 所走的路就一定会通向通用人工智能吗？对此，有些研究者是存疑的，图灵奖得主 Yann LeCun 便是其中之一。他认为，当前的这些大模型对于数据、算力的需求大得惊人，但学习效率却很低（比如自动驾驶汽车）。因此，他创立了一套名为「世界模型」（即世界如何运作的内部模型）的理论，认为学习世界模型（可以理解为为真实世界跑个模拟）可能是实现 AGI 的关键。在活动现场，上海交通大学教授杨小康分享了他们在这个方向上的工作。具体来说，他的团队着眼于视觉直觉的世界模型（因为视觉直觉信息量大），试图把视觉、直觉以及对时间、空间的感知建模好。最后，他还强调了数学、物理、信息认知与计算机学科交叉对这类研究的重要性。

「毛毛虫从食物中提取营养，然后变成蝴蝶。人们已经提取了数十亿条理解的线索，GPT-4 是人类的蝴蝶。」在 GPT-4 发布的第二天，深度学习之父 Geoffrey Hinton 发了这样一条推文。

目前，还没有人能够断定这只蝴蝶将掀起多大的飓风。但可以肯定的是，这还不是一只完美的蝴蝶，整个 AGI 世界的拼图也尚未完成。每位研究者、从业者都还有机会。

以上是当GPT-4学会看图文，一场生产力革命已势不可挡的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51cto。如有侵权，请联系admin@php.cn删除

拥抱面部是否7B型号奥林匹克赛车击败克劳德3.7？Apr 23, 2025 am 11:49 AM

拥抱Face的OlympicCoder-7B：强大的开源代码推理模型开发以代码为中心的语言模型的竞赛正在加剧，拥抱面孔与强大的竞争者一起参加了比赛：OlympicCoder-7B，一种产品

4个新的双子座功能您可以错过Apr 23, 2025 am 11:48 AM

你们当中有多少人希望AI可以做更多的事情，而不仅仅是回答问题？我知道我有，最近，我对它的变化感到惊讶。 AI聊天机器人不仅要聊天，还关心创建，研究

Camunda为经纪人AI编排编写了新的分数Apr 23, 2025 am 11:46 AM

随着智能AI开始融入企业软件平台和应用程序的各个层面（我们必须强调的是，既有强大的核心工具，也有一些不太可靠的模拟工具），我们需要一套新的基础设施能力来管理这些智能体。总部位于德国柏林的流程编排公司Camunda认为，它可以帮助智能AI发挥其应有的作用，并与新的数字工作场所中的准确业务目标和规则保持一致。该公司目前提供智能编排功能，旨在帮助组织建模、部署和管理AI智能体。从实际的软件工程角度来看，这意味着什么？确定性与非确定性流程的融合该公司表示，关键在于允许用户（通常是数据科学家、软件

策划的企业AI体验是否有价值？Apr 23, 2025 am 11:45 AM

参加Google Cloud Next '25，我渴望看到Google如何区分其AI产品。有关代理空间（此处讨论）和客户体验套件（此处讨论）的最新公告很有希望，强调了商业价值

如何为抹布找到最佳的多语言嵌入模型？Apr 23, 2025 am 11:44 AM

为您的检索增强发电（RAG）系统选择最佳的多语言嵌入模型在当今的相互联系的世界中，建立有效的多语言AI系统至关重要。强大的多语言嵌入模型对于RE至关重要

麝香：奥斯汀的机器人需要每10,000英里进行干预Apr 23, 2025 am 11:42 AM

特斯拉的Austin Robotaxi发射：仔细观察Musk的主张埃隆·马斯克（Elon Musk）最近宣布，特斯拉即将在德克萨斯州奥斯汀推出的Robotaxi发射，最初出于安全原因部署了一支小型10-20辆汽车，并有快速扩张的计划。 h

AI震惊的枢轴：从工作工具到数字治疗师和生活教练Apr 23, 2025 am 11:41 AM

人工智能的应用方式可能出乎意料。最初，我们很多人可能认为它主要用于代劳创意和技术任务，例如编写代码和创作内容。然而，哈佛商业评论最近报道的一项调查表明情况并非如此。大多数用户寻求人工智能的并非是代劳工作，而是支持、组织，甚至是友谊！报告称，人工智能应用案例的首位是治疗和陪伴。这表明其全天候可用性以及提供匿名、诚实建议和反馈的能力非常有价值。另一方面，营销任务（例如撰写博客、创建社交媒体帖子或广告文案）在流行用途列表中的排名要低得多。这是为什么呢？让我们看看研究结果及其对我们人类如何继续将