搜索
首页科技周边人工智能LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

在计算机科学领域,图形结构由节点(代表实体)和边(表示实体之间的关系)构成。

图无处不在。

互联网可以被视为一个庞大的网络,搜索引擎利用图形化的方式来组织和展示信息。

LLMs主要在常规文本上训练,因此将图转化为LLMs可理解的文本是一项具有挑战性的任务,因为图结构与文本有着根本的不同。

在ICLR 2024上,一支来自谷歌的团队探索了如何将图形数据转换为适合LLMs理解的形式。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

论文地址:https://openreview.net/pdf?id=IuXR1CCrSi

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

使用两种不同的方法将图形编码为文本,并将文本和问题反馈给LLM的过程

他们还开发了一个名为GraphQA的基准,用于探究解决不同图推理问题的方法,并展示了如何以一种有利于LLM解决图形相关问题的方式来表达这些问题。

使用正确的方法,使得LLMs在图形任务上最高得以提升60%的性能。

GraphOA:一场对LLMs的「考试」

首先,谷歌团队设计了GraphQA基准测试,它可以被看作是一门考试,旨在评估LLM针对特定于图形问题的能力。

GraphOA通过使用多种类型的图表,确保广度和连接数量的多样性,以寻找LLMs在处理图形时可能存在的偏差情况,并使整个过程更接近LLMs在实际应用中可能遇到的情况。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

使用GraphIQA对LLMs进行推理的框架

虽然任务很简单,比如检查边是否存在、计算节点或者边的数量等等,但这些任务都需要LLMs理解节点和边之间的关系,对于更复杂的图形推理至关重要。

同时,团队还探索了如何将图转换为LLMs可以处理的文本,比如解决了如下两个关键问题:

节点编码:我们如何表示单个节点?节点可以包括简单整数、常用名称(人名、字符)和字母。

边缘编码:我们如何描述节点之间的关系?方法可以包括括号符号、短语(如「是朋友」)和符号表示(如箭头)。

最终,研究人员通过系统地结合各种节点和边的编码方式,产生了像下图中展示的那些函数。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

图形编码函数的例子

LLMs表现怎么样呢?

研究团队在GraphOA上进行了三个关键实验:

  1. 测试LLMs处理图形任务的能力
  2. 测试LLMs的大小对性能的影响
  3. 测试不同图形形状对性能的影响

在第一个实验中,LLMs表现平平,在大多数基本任务上,LLMs的表现并不比随机猜测好多少。

但编码方式显著影响结果,如下图所示,在大多数情况下,「incident」编码在大多数任务中表现出色。选择合适的编码函数可以极大的提高任务的准确度。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

基于不同任务准确度的各种图编码器函数的比较

在第二个测试中,研究人员在不同大小的模型上测试了相同的图形任务。

就结论而言,在图形推理任务中,规模更大的模型表现更好,

然而有趣的是,在「边存在性」任务(确定图中两个节点是否相连)中,规模并不像其他任务那么重要。

即使是最大的LLM在循环检查问题上(确定图中是否存在循环)也无法始终击败简单的基线解决方案。这表明LLMs在某些图任务上仍有改进的空间。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

模型容量对PaLM 2-XXS、XS、S和L的图推理任务的影响

在第三个测试中,对于图形结构是否会影响LMMs解决问题的能力,研究人员通过GraphOA生成不同结构的图形进行分析。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

GraphQA不同图形生成器生成的图形示例。ER、BA、SBM和SFN分别是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

结果得出,图的结构对LLMs的性能有很大影响。

例如,在一个询问循环是否存在的任务中,LLMs在紧密相连的图形中表现出色(这里循环很常见),但在路径图中表现不佳(循环从不发生)。

但同时提供一些混合样本有助于LLMs适应,比如在循环检测任务中,研究人员在提示中添加了一些包含循环和一些不包含循环的示例作为少样本学习的例子,通过这种方式提高了LLMs的性能。

LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」

在不同的图任务上比较不同的图生成器。主要观察结果是,图结构对LLM的性能有显著影响。ER、BA、SBM和SFN分别指的是Erdős-Rényi、Barabási-Albert、随机块模型和无标度网络。

这仅仅是让LLMs理解图的开始

在论文中,谷歌团队初步探索了如何将图形最佳地表示为文本,以便LLMs能理解他们。

在正确编码技术的帮助下,显著提高了LLMs在图形问题上的准确性(从大约5%到超过60%的改进)。

同时也确定了三个主要的影响因子,分别为图形转换为文本的编码方式、不同图形的任务类型、以及图形的疏密结构。

这仅仅是让LLMs理解图的开始。在新基准测试GraphQA的帮助下,期待进一步研究,探索LLMs的更多可能性。

以上是LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」的详细内容。更多信息请关注PHP中文网其他相关文章!

声明
本文转载于:51CTO.COM。如有侵权,请联系admin@php.cn删除
大多数使用的10个功率BI图 - 分析Vidhya大多数使用的10个功率BI图 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI图来利用数据可视化的功能 在当今数据驱动的世界中,有效地将复杂信息传达给非技术观众至关重要。 数据可视化桥接此差距,转换原始数据i

AI的专家系统AI的专家系统Apr 16, 2025 pm 12:00 PM

专家系统:深入研究AI的决策能力 想象一下,从医疗诊断到财务计划,都可以访问任何事情的专家建议。 这就是人工智能专家系统的力量。 这些系统模仿Pro

三个最好的氛围编码器分解了这项代码中的AI革命三个最好的氛围编码器分解了这项代码中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明显,这种情况正在迅速发生。各种公司都在谈论AI目前撰写的代码的比例,并且这些代码的比例正在迅速地增加。已经有很多工作流离失所

跑道AI的Gen-4:AI蒙太奇如何超越荒谬跑道AI的Gen-4:AI蒙太奇如何超越荒谬Apr 16, 2025 am 11:45 AM

从数字营销到社交媒体的所有创意领域,电影业都站在技术十字路口。随着人工智能开始重塑视觉讲故事的各个方面并改变娱乐的景观

如何注册5天ISRO AI免费课程? - 分析Vidhya如何注册5天ISRO AI免费课程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免费AI/ML在线课程:通向地理空间技术创新的门户 印度太空研究组织(ISRO)通过其印度遥感研究所(IIR)为学生和专业人士提供了绝佳的机会

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:综合指南 规划大规模活动需要有效的工作量分布。 当传统方法失败时,本地搜索算法提供了强大的解决方案。 本文探讨了爬山和模拟

OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑OpenAI以GPT-4.1的重点转移,将编码和成本效率优先考虑Apr 16, 2025 am 11:37 AM

该版本包括三种不同的型号,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,标志着向大语言模型景观内的特定任务优化迈进。这些模型并未立即替换诸如

提示:chatgpt生成假护照提示:chatgpt生成假护照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia周一表示,它将开始制造AI超级计算机(可以处理大量数据并运行复杂算法的机器),完全是在美国首次在美国境内。这一消息是在特朗普总统SI之后发布的

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

VSCode Windows 64位 下载

VSCode Windows 64位 下载

微软推出的免费、功能强大的一款IDE编辑器

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一个PHP/MySQL的Web应用程序,非常容易受到攻击。它的主要目标是成为安全专业人员在合法环境中测试自己的技能和工具的辅助工具,帮助Web开发人员更好地理解保护Web应用程序的过程,并帮助教师/学生在课堂环境中教授/学习Web应用程序安全。DVWA的目标是通过简单直接的界面练习一些最常见的Web漏洞,难度各不相同。请注意,该软件中

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

螳螂BT

螳螂BT

Mantis是一个易于部署的基于Web的缺陷跟踪工具,用于帮助产品缺陷跟踪。它需要PHP、MySQL和一个Web服务器。请查看我们的演示和托管服务。