「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

Apr 02, 2024 am 11:55 AM

測試開源

大模型長文字能力測試，又有新方法了！

騰訊MLPD實驗室，以全新開源的「數星星」#方法取代了傳統的「大海撈針」測試。

相較之下，新方法更著重於對模型處理長依賴關係能力的考察，對模型的評估更全面精準。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

利用這種方法，研究人員對GPT-4和國內知名的Kimi Chat進行了「數星星」測試。

結果，在不同的實驗條件下，兩款模型各有勝負，但都體現出了很強的長文本能力。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

△橫軸係以2為底的對數座標

那麼，「數星星」究竟是怎樣的一種測試呢？

比「大海撈針」更精準

首先，研究人員選擇了一段長篇文字做為上下文，測試過程中長度逐漸遞增，最大為128k。

然後，根據不同的測試難度需求，整段文字會被分割成N段，並向其中插入M個包含「星星」的句子#。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

實驗過程中，研究人員選擇了《紅樓夢》作為上下文文本，向其中加入了「小企鵝數了x顆星星」這樣的句子，每個句子中的x都各不相同。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

然後，模型會被要求找到所有這樣的句子，並以JSON格式輸出其中所有的數字#，且只輸出數字。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

得到模型的輸出之後，研究者會將這些數字和Ground Truth進行對比，最後計算出模型輸出的正確率。

比起先前的「大海撈針」測試，這種「數星星」的方法更能體現出模型處理長依賴關係能力。

簡而言之，「大海撈針」中插入多個「針」就是插入多個線索，然後讓大模型找到並串聯推理多個線索，並獲得最終答案。

但實際的「大海撈多針」測試中，模型並不需要找到所有「針」才能答對問題，甚至有時只需要找到最後一根就可以了。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

但「數星星」則不同——因為每句話中「星星」的數量都不一樣，#模型必須把所有星星都找到才能把問題答對。

所以，雖然看似簡單，但至少在多「針」任務上，「數星星」對模型長文字能力有著更為精準的體現。

那麼，有哪些大模型最先接受了「數星星」測試呢？

GPT-4與Kimi難分高下

參加這場測試的大模型分別是GPT-4和國內以長文本能力而知名的大模型Kimi。

在「星星」數量和文字粒度均為32時，GPT-4的準確率達到了96.8%，Kimi則有86.4%。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

但當「星星」增加到64顆時，Kimi則以93.1%的準確率超過了準確率為89.7%的GPT-4.

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

減少到16時，也是Kimi的表現略勝GPT-4。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

而分割的顆粒度也會對模型的表現造成一些影響，在「星星」同樣出現32次時，顆粒度從32變為16，GPT-4的成績有所上升，而Kimi則有所下降。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

要注意的是，在以上的測試中，「星星」的數量是依次遞增的，但研究人員很快就發現，這種情況下大模型很喜歡「偷懶」－

當模型發現星星數量是遞增的時候，即使區間內的數字是隨機生成，也會造成大模型的敏感度增加。

例如：模型對3、9、10、24、1145、114514這樣的遞增序列會比24、10、3、1145、9、114514更敏感

所以，研究人員又特意將數字的順序進行了打亂，重新進行了一次測試。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

結果在打亂之後，GPT-4和Kimi的表現都出現了明顯下降，不過準確率仍在60%以上，兩者相差8.6個百分點。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

One More Thing

這個方法的準確度可能還需要時間檢驗，但不得不說名字起得真的很有一手。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

△英文系同名歌曲Counting Stars歌詞

網友也不禁感嘆，現在關於大模型的研究，真的是越來越魔幻了。

「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠

但魔幻的背後，也體現出人們對於大模型長語境處理能力和效能的了解還不夠充分。

就在前幾天，先後有多家大模型廠商宣布推出能夠處理超長文本的模型（雖然不全是基於上下文窗口實現），最高可達上千萬，但實際表現還是未知數。

而Counting Stars的出現，或許剛好有助於我們了解這些模型的真實表現。

那麼，你還想看看哪些模型的測驗成績呢？

論文網址：https://arxiv.org/abs/2403.11802
GitHub：https://github.com/nick7nlp/Counting-Stars

#

以上是「大海撈針」out！「數星星」成測長文本能力更精準方法，來自鵝廠的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

及時工程中的思想圖是什麼

及時工程中的思想圖是什麼Apr 13, 2025 am 11:53 AM

介紹在迅速的工程中，“思想圖”是指使用圖理論來構建和指導AI的推理過程的新方法。與通常涉及線性S的傳統方法不同

優化您的組織與Genai代理商的電子郵件營銷

優化您的組織與Genai代理商的電子郵件營銷Apr 13, 2025 am 11:44 AM

介紹恭喜！您經營一家成功的業務。通過您的網頁，社交媒體活動，網絡研討會，會議，免費資源和其他來源，您每天收集5000個電子郵件ID。下一個明顯的步驟是

Apache Pinot實時應用程序性能監視

Apache Pinot實時應用程序性能監視Apr 13, 2025 am 11:40 AM

介紹在當今快節奏的軟件開發環境中，確保最佳應用程序性能至關重要。監視實時指標，例如響應時間，錯誤率和資源利用率可以幫助MAIN

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番

Chatgpt擊中了10億用戶？ Openai首席執行官說：'短短幾週內翻了一番Apr 13, 2025 am 11:23 AM

“您有幾個用戶？”他扮演。阿爾特曼回答說：“我認為我們上次說的是每週5億個活躍者，而且它正在迅速增長。” “你告訴我，就像在短短幾週內翻了一番，”安德森繼續說道。 “我說那個私人

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析Vidhya

pixtral -12b：Mistral AI＆＃039;第一個多模型模型 - 分析VidhyaApr 13, 2025 am 11:20 AM

介紹 Mistral發布了其第一個多模式模型，即Pixtral-12b-2409。該模型建立在Mistral的120億參數Nemo 12B之上。是什麼設置了該模型？現在可以拍攝圖像和Tex

生成AI應用的代理框架 - 分析Vidhya

生成AI應用的代理框架 - 分析VidhyaApr 13, 2025 am 11:13 AM

想像一下，擁有一個由AI驅動的助手，不僅可以響應您的查詢，還可以自主收集信息，執行任務甚至處理多種類型的數據（TEXT，圖像和代碼）。聽起來有未來派？在這個a

生成AI在金融部門的應用

生成AI在金融部門的應用Apr 13, 2025 am 11:12 AM

介紹金融業是任何國家發展的基石，因為它通過促進有效的交易和信貸可用性來推動經濟增長。交易的便利和信貸

在線學習和被動攻擊算法指南

在線學習和被動攻擊算法指南Apr 13, 2025 am 11:09 AM

介紹數據是從社交媒體，金融交易和電子商務平台等來源的前所未有的速度生成的。處理這種連續的信息流是一個挑戰，但它提供了

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

3 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

3 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

3 週前By尊渡假赌尊渡假赌尊渡假赌

WWE 2K25：如何解鎖Myrise中的所有內容

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境

VSCode Windows 64位元下載

VSCode Windows 64位元下載

微軟推出的免費、功能強大的一款IDE編輯器

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

熱門話題

gmail信箱登陸入口在哪裡

7489

15

1377

52

steam的賬戶名稱是什麼格式

77

11

win11激活密鑰永久

52

19

NYT連接提示和答案

19

41