LLMS中的複雜推理：為什麼較小的模型掙扎？

LLMS中的複雜推理：為什麼較小的模型掙扎？

尊渡假赌尊渡假赌尊渡假赌

Mar 20, 2025 am 10:51 AM

這篇研究論文“並非所有LLM推理者都是平等的”，探討了複雜的推理任務中大型語言模型（LLM）的局限性，尤其是那些需要多步解決問題的人。儘管LLM在具有挑戰性的數學問題方面表現出色，但面對互連的問題時，它們的性能會大大降低，其中解決一個問題的解決方案將為下一個問題提供信息，這是一個稱為“組成推理”的概念。

這項由MILA，Google DeepMind和Microsoft Research的研究人員進行的研究揭示了較小，更具成本效益的LLM的弱點。這些模型雖然精通更簡單的任務，但仍在解決鏈接問題所需的“第二跳推理”。這不是由於數據洩漏之類的問題；相反，它源於無法維護上下文並在邏輯上連接問題部分。教學調整是一種常見的性能增強技術，為較小的型號提供了不一致的好處，有時會導致過度擬合。

LLMS中的複雜推理：為什麼較小的模型掙扎？

關鍵發現：

解決組成問題時，較小的LLMS表現出顯著的“推理差距”。
在解決互連問題時，性能會急劇下降。
指令調整在較小的模型中會導致不一致的改進。
這種推理限制限制了在現實世界應用中較小的LLM的可靠性。
即使是專業的數學模型，也都在構圖推理方面努力。
需要更有效的培訓方法來增強多步推理能力。

本文使用構圖級數學（GSM）測試來說明這一差距。該測試涉及兩個鏈接的問題，其中第一個（Q1）的答案變成了第二個（Q2）的變量（x）。結果表明，大多數模型在組成任務上的表現要比其在單個問題上的表現所預測的要差得多。諸如GPT-4O之類的較大，更強大的模型表現出了卓越的推理能力，而較小的，具有成本效益的模型，甚至是專門從事數學的模型，但表現出大幅下降。

LLMS中的複雜推理：為什麼較小的模型掙扎？

比較開源和封閉源LLM的圖表突出了此推理差距。較小，成本效益的模型始終顯示出更大的負面推理差距，表明與較大模型相比，在組成任務上的性能較差。例如，GPT-4O顯示出最小的間隙，而其他類似Phi 3-Mini-4K-IT的差距則顯示出顯著的缺點。

LLMS中的複雜推理：為什麼較小的模型掙扎？

進一步的分析表明，推理差距不僅是由於基準洩漏。這些問題源於過度擬合到基準，不相關的環境分散注意力以及在子任務之間未能有效傳輸信息。

LLMS中的複雜推理：為什麼較小的模型掙扎？

LLMS中的複雜推理：為什麼較小的模型掙扎？

LLMS中的複雜推理：為什麼較小的模型掙扎？

研究得出的結論是，提高組成推理需要創新的培訓方法。儘管教學調整和數學專業化等技術提供了一些好處，但它們不足以彌合推理差距。探索替代方法（例如基於代碼的推理）可能是必要的，以增強LLM處理複雜的多步推理任務的能力。該研究強調需要改進的培訓技術，以使較小，更具成本效益的LLM可靠地執行複雜的推理任務。

以上是LLMS中的複雜推理：為什麼較小的模型掙扎？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python的隊列 - 分析Vidhya

Python的隊列 - 分析VidhyaApr 16, 2025 am 10:32 AM

介紹在超市隊列中設想自己，耐心地等待輪到您為自己喜歡的藝術家購買音樂會門票。這個有序的過程，個人加入一條線並首先以（FIFO）的方式進行前進，是PREC

AV字節：人工智能行業轉移和技術突破 - 分析Vidhya

AV字節：人工智能行業轉移和技術突破 - 分析VidhyaApr 16, 2025 am 10:29 AM

本週在AI中：重大收購，模型進步和道德考慮因素該AV字節版涵蓋了過去一周的重大AI突破。從Google對角色的戰略收購到BITNET B1.58的發布

探索Movinets：有效的移動視頻識別

探索Movinets：有效的移動視頻識別Apr 16, 2025 am 10:25 AM

介紹讓我們通過“ Movinets unleashed”深入研究移動視頻識別的迷人世界！該博客將為您探索Movinets如何在移動設備上轉換視頻分析

熊貓vs Polars

熊貓vs PolarsApr 16, 2025 am 10:24 AM

介紹想像一下，您在數據項目中深處膝蓋，與大量數據集搏鬥，並儘快尋找模式。您可以觸及自己的數據操縱工具，但是如果存在更好的選擇，該怎麼辦？輸入方面，一個相對較開的

IT業務分析師的角色

IT業務分析師的角色Apr 16, 2025 am 10:19 AM

介紹在啟動創新軟件的邊緣設想了一個動態的IT公司。儘管興奮很高，但仍出現了一個關鍵的挑戰：彌合技術開發商與業務利益相關者之間的差距。這是IT業務分析師

Python的階乘計劃

Python的階乘計劃Apr 16, 2025 am 10:13 AM

介紹想像一下，準備具有特定所需風味的菜餚；正確的步驟序列至關重要。同樣，在數學和編程中，計算數字的階乘需要精確的乘法序列

數據編排的氣流替代方案-Analytics Vidhya

數據編排的氣流替代方案-Analytics VidhyaApr 16, 2025 am 09:55 AM

介紹 Apache氣流是數據編排中的關鍵組成部分，並以其處理複雜的工作流程和自動化數據管道的能力而聞名。許多組織因其靈活性而選擇了它

您如何註冊NVIDIA AI峰會2024？

您如何註冊NVIDIA AI峰會2024？Apr 16, 2025 am 09:49 AM

NVIDIA AI峰會2024：深入研究印度的AI革命在2024年Datahack Summit之後，印度為10月23日25日在孟買的Jio世界會議中心舉行的NVIDIA AI Summit 2024做好準備。這個關鍵事件舞會

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼（黃色晶體）

4 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.最佳圖形設置

4 週前By尊渡假赌尊渡假赌尊渡假赌

刺客信條陰影：貝殼謎語解決方案

2 週前ByDDD

R.E.P.O.如果您聽不到任何人，如何修復音頻

4 週前By尊渡假赌尊渡假赌尊渡假赌

R.E.P.O.聊天命令以及如何使用它們

4 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

PhpStorm Mac 版本

PhpStorm Mac 版本

最新（2018.2.1 ）專業的PHP整合開發工具

SublimeText3 英文版

SublimeText3 英文版

推薦：為Win版本，支援程式碼提示！

DVWA

DVWA

Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序，非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具，幫助Web開發人員更好地理解保護網路應用程式的過程，並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞，難度各不相同。請注意，該軟體中

mPDF

mPDF

mPDF是一個PHP庫，可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件，並處理不同的語言。與原始腳本如HTML2FPDF相比，它的速度較慢，並且在使用Unicode字體時產生的檔案較大，但支援CSS樣式等，並進行了大量增強。支援幾乎所有語言，包括RTL（阿拉伯語和希伯來語）和CJK（中日韓）。支援嵌套的區塊級元素（如P、DIV），

熱門話題

gmail信箱登陸入口在哪裡

7521

15

1378

52

steam的賬戶名稱是什麼格式

81

11

win11激活密鑰永久

54

19

NYT連接提示和答案

21

70