'大海捞针”out！'数星星”成测长文本能力更精准方法，来自鹅厂

'大海捞针”out！'数星星”成测长文本能力更精准方法，来自鹅厂

Apr 02, 2024 am 11:55 AM

测试开源

大模型长文本能力测试，又有新方法了！

腾讯MLPD实验室，用全新开源的“数星星”方法替代了传统的“大海捞针”测试。

相比之下，新方法更注重对模型处理长依赖关系能力的考察，对模型的评估更加全面精准。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

利用这种方法，研究人员对GPT-4和国内知名的Kimi Chat进行了“数星星”测试。

结果，在不同的实验条件下，两款模型各有胜负，但都体现出了很强的长文本能力。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

△横轴系以2为底的对数坐标

那么，“数星星”究竟是怎样的一种测试呢？

比“大海捞针”更加精准

首先，研究人员选择了一段长文本做为上下文，测试过程中长度逐渐递增，最大为128k。

然后，根据不同的测试难度需求，整段文本会被划分成N段，并向其中插入M个包含“星星”的句子。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

实验过程中，研究人员选择了《红楼梦》作为上下文文本，向其中加入了“小企鹅数了x颗星星”这样的句子，每个句子中的x都各不相同。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

然后，模型会被要求找到所有这样的句子，并以JSON格式输出其中所有的数字，且只输出数字。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

得到模型的输出之后，研究人员会将这些数字和Ground Truth进行对比，最终计算出模型输出的正确率。

相比于之前的“大海捞针”测试，这种“数星星”的方法更能体现出模型处理长依赖关系能力。

简而言之，“大海捞针”中插入多个“针”就是插入多个线索，然后让大模型找到并串联推理多个线索，并获得最终答案。

但实际的“大海捞多针”测试中，模型并不需要找到所有“针”才能答对问题，甚至有时只需要找到最后一根就可以了。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

但“数星星”则不同——因为每句话中“星星”的数量都不一样，模型必须把所有星星都找到才能把问题答对。

所以，虽然看似简单，但至少在多“针”任务上，“数星星”对模型长文本能力有着更为精准的体现。

那么，有哪些大模型最先接受了“数星星”测试呢？

GPT-4与Kimi难分高下

参加这场测试的大模型分别是GPT-4和国内以长文本能力而知名的大模型Kimi。

在“星星”数量和文本粒度均为32时，GPT-4的准确率达到了96.8%，Kimi则有86.4%。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

但当“星星”增加到64颗时，Kimi则以93.1%的准确率超过了准确率为89.7%的GPT-4.

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

减少到16时，也是Kimi的表现略胜于GPT-4。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

而划分的颗粒度也会对模型的表现造成一些影响，在“星星”同样出现32次时，颗粒度从32变为16，GPT-4的成绩有所上升，而Kimi则有所下降。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

需要注意的是，在以上的测试中，“星星”的数量是依次递增的，但研究人员很快发现，这种情况下大模型很喜欢“偷懒”——

当模型发现星星数量是递增的的时候，即使区间内的数字是随机生成，也会引起大模型的敏感度增加。

例如：模型对3、9、10、24、1145、114514这样的递增序列会比24、10、3、1145、9、114514更加敏感

所以，研究人员又特意将数字的顺序进行了打乱，重新进行了一次测试。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

结果在打乱之后，GPT-4和Kimi的表现都出现了明显下降，不过准确率仍在60%以上，两者相差8.6个百分点。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

One More Thing

这个方法的准确性可能还需要时间检验，但不得不说名字起得真的很有一手。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

△英文系同名歌曲Counting Stars歌词

网友也不禁感叹，现在关于大模型的研究，真的是越来越魔幻了。

大海捞针”out！数星星”成测长文本能力更精准方法，来自鹅厂

但魔幻的背后，也体现出人们对于大模型长语境处理能力和性能的了解还不够充分。

就在前些天，先后有多家大模型厂商宣布推出能够处理超长文本的模型（虽然不全是基于上下文窗口实现），最高可达上千万，但实际表现还是未知数。

而Counting Stars的出现，或许正好有助于我们了解这些模型的真实表现。

那么，你还想看看哪些模型的测试成绩呢？

论文地址：https://arxiv.org/abs/2403.11802
GitHub：https://github.com/nick7nlp/Counting-Stars

以上是'大海捞针”out！'数星星”成测长文本能力更精准方法，来自鹅厂的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文转载于：51CTO.COM。如有侵权，请联系admin@php.cn删除

外推指南

外推指南Apr 15, 2025 am 11:38 AM

介绍假设有一个农民每天在几周内观察农作物的进展。他研究了增长率，并开始思考他的植物在几周内可以生长的高度。从Th

软AI的兴起及其对当今企业的意义

软AI的兴起及其对当今企业的意义Apr 15, 2025 am 11:36 AM

软AI（被定义为AI系统，旨在使用近似推理，模式识别和灵活的决策执行特定的狭窄任务 - 试图通过拥抱歧义来模仿类似人类的思维。但是这对业务意味着什么

为AI前沿的不断发展的安全框架

为AI前沿的不断发展的安全框架Apr 15, 2025 am 11:34 AM

答案很明确 - 只是云计算需要向云本地安全工具转变，AI需要专门为AI独特需求而设计的新型安全解决方案。云计算和安全课程的兴起在

生成AI的3种方法放大了企业家：当心平均值！

生成AI的3种方法放大了企业家：当心平均值！Apr 15, 2025 am 11:33 AM

企业家，并使用AI和Generative AI来改善其业务。同时，重要的是要记住生成的AI，就像所有技术一样，都是一个放大器 - 使得伟大和平庸，更糟。严格的2024研究O

Andrew Ng的新简短课程

Andrew Ng的新简短课程Apr 15, 2025 am 11:32 AM

解锁嵌入模型的力量：深入研究安德鲁·NG的新课程想象一个未来，机器可以完全准确地理解和回答您的问题。这不是科幻小说；多亏了AI的进步，它已成为R

大语言模型（LLM）中的幻觉是不可避免的吗？

大语言模型（LLM）中的幻觉是不可避免的吗？Apr 15, 2025 am 11:31 AM

大型语言模型（LLM）和不可避免的幻觉问题您可能使用了诸如Chatgpt，Claude和Gemini之类的AI模型。这些都是大型语言模型（LLM）的示例，在大规模文本数据集上训练的功能强大的AI系统

60％的问题 - AI搜索如何消耗您的流量

60％的问题 - AI搜索如何消耗您的流量Apr 15, 2025 am 11:28 AM

最近的研究表明，根据行业和搜索类型，AI概述可能导致有机交通下降15-64％。这种根本性的变化导致营销人员重新考虑其在数字可见性方面的整个策略。新的

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心

麻省理工学院媒体实验室将人类蓬勃发展成为AI R＆D的核心Apr 15, 2025 am 11:26 AM

埃隆大学（Elon University）想象的数字未来中心的最新报告对近300名全球技术专家进行了调查。由此产生的报告“ 2035年成为人类”，得出的结论是，大多数人担心AI系统加深的采用

See all articles

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么（黄色晶体）

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳图形设置

4 周前By尊渡假赌尊渡假赌尊渡假赌

刺客信条阴影：贝壳谜语解决方案

2 周前ByDDD

R.E.P.O.如果您听不到任何人，如何修复音频

4 周前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.聊天命令以及如何使用它们

4 周前By尊渡假赌尊渡假赌尊渡假赌

热工具

mPDF

mPDF

mPDF是一个PHP库，可以从UTF-8编码的HTML生成PDF文件。原作者Ian Back编写mPDF以从他的网站上“即时”输出PDF文件，并处理不同的语言。与原始脚本如HTML2FPDF相比，它的速度较慢，并且在使用Unicode字体时生成的文件较大，但支持CSS样式等，并进行了大量增强。支持几乎所有语言，包括RTL（阿拉伯语和希伯来语）和CJK（中日韩）。支持嵌套的块级元素（如P、DIV），

Atom编辑器mac版下载

Atom编辑器mac版下载

最流行的的开源编辑器

EditPlus 中文破解版

EditPlus 中文破解版

体积小，语法高亮，不支持代码提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新（2018.2.1 ）专业的PHP集成开发工具

WebStorm Mac版

WebStorm Mac版

好用的JavaScript开发工具

热门话题

gmail邮箱登陆入口在哪里

7518

15

1378

52

steam的账户名称是什么格式

81

11

win11激活密钥永久

53

19

NYT连接提示和答案

21

68