這篇研究論文“並非所有LLM推理者都是平等的”,探討了複雜的推理任務中大型語言模型(LLM)的局限性,尤其是那些需要多步解決問題的人。儘管LLM在具有挑戰性的數學問題方面表現出色,但面對互連的問題時,它們的性能會大大降低,其中解決一個問題的解決方案將為下一個問題提供信息,這是一個稱為“組成推理”的概念。
這項由MILA,Google DeepMind和Microsoft Research的研究人員進行的研究揭示了較小,更具成本效益的LLM的弱點。這些模型雖然精通更簡單的任務,但仍在解決鏈接問題所需的“第二跳推理”。這不是由於數據洩漏之類的問題;相反,它源於無法維護上下文並在邏輯上連接問題部分。教學調整是一種常見的性能增強技術,為較小的型號提供了不一致的好處,有時會導致過度擬合。
關鍵發現:
- 解決組成問題時,較小的LLMS表現出顯著的“推理差距”。
- 在解決互連問題時,性能會急劇下降。
- 指令調整在較小的模型中會導致不一致的改進。
- 這種推理限制限制了在現實世界應用中較小的LLM的可靠性。
- 即使是專業的數學模型,也都在構圖推理方面努力。
- 需要更有效的培訓方法來增強多步推理能力。
本文使用構圖級數學(GSM)測試來說明這一差距。該測試涉及兩個鏈接的問題,其中第一個(Q1)的答案變成了第二個(Q2)的變量(x)。結果表明,大多數模型在組成任務上的表現要比其在單個問題上的表現所預測的要差得多。諸如GPT-4O之類的較大,更強大的模型表現出了卓越的推理能力,而較小的,具有成本效益的模型,甚至是專門從事數學的模型,但表現出大幅下降。
比較開源和封閉源LLM的圖表突出了此推理差距。較小,成本效益的模型始終顯示出更大的負面推理差距,表明與較大模型相比,在組成任務上的性能較差。例如,GPT-4O顯示出最小的間隙,而其他類似Phi 3-Mini-4K-IT的差距則顯示出顯著的缺點。
進一步的分析表明,推理差距不僅是由於基準洩漏。這些問題源於過度擬合到基準,不相關的環境分散注意力以及在子任務之間未能有效傳輸信息。
研究得出的結論是,提高組成推理需要創新的培訓方法。儘管教學調整和數學專業化等技術提供了一些好處,但它們不足以彌合推理差距。探索替代方法(例如基於代碼的推理)可能是必要的,以增強LLM處理複雜的多步推理任務的能力。該研究強調需要改進的培訓技術,以使較小,更具成本效益的LLM可靠地執行複雜的推理任務。
以上是LLMS中的複雜推理:為什麼較小的模型掙扎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

介紹 在超市隊列中設想自己,耐心地等待輪到您為自己喜歡的藝術家購買音樂會門票。 這個有序的過程,個人加入一條線並首先以(FIFO)的方式進行前進,是PREC

本週在AI中:重大收購,模型進步和道德考慮因素 該AV字節版涵蓋了過去一周的重大AI突破。 從Google對角色的戰略收購到BITNET B1.58的發布

介紹 讓我們通過“ Movinets unleashed”深入研究移動視頻識別的迷人世界!該博客將為您探索Movinets如何在移動設備上轉換視頻分析

介紹 想像一下,您在數據項目中深處膝蓋,與大量數據集搏鬥,並儘快尋找模式。您可以觸及自己的數據操縱工具,但是如果存在更好的選擇,該怎麼辦? 輸入方面,一個相對較開的

介紹 在啟動創新軟件的邊緣設想了一個動態的IT公司。 儘管興奮很高,但仍出現了一個關鍵的挑戰:彌合技術開發商與業務利益相關者之間的差距。這是IT業務分析師

介紹 Apache氣流是數據編排中的關鍵組成部分,並以其處理複雜的工作流程和自動化數據管道的能力而聞名。許多組織因其靈活性而選擇了它

NVIDIA AI峰會2024:深入研究印度的AI革命 在2024年Datahack Summit之後,印度為10月23日25日在孟買的Jio世界會議中心舉行的NVIDIA AI Summit 2024做好準備。 這個關鍵事件舞會


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

Dreamweaver Mac版
視覺化網頁開發工具

PhpStorm Mac 版本
最新(2018.2.1 )專業的PHP整合開發工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!

DVWA
Damn Vulnerable Web App (DVWA) 是一個PHP/MySQL的Web應用程序,非常容易受到攻擊。它的主要目標是成為安全專業人員在合法環境中測試自己的技能和工具的輔助工具,幫助Web開發人員更好地理解保護網路應用程式的過程,並幫助教師/學生在課堂環境中教授/學習Web應用程式安全性。 DVWA的目標是透過簡單直接的介面練習一些最常見的Web漏洞,難度各不相同。請注意,該軟體中

mPDF
mPDF是一個PHP庫,可以從UTF-8編碼的HTML產生PDF檔案。原作者Ian Back編寫mPDF以從他的網站上「即時」輸出PDF文件,並處理不同的語言。與原始腳本如HTML2FPDF相比,它的速度較慢,並且在使用Unicode字體時產生的檔案較大,但支援CSS樣式等,並進行了大量增強。支援幾乎所有語言,包括RTL(阿拉伯語和希伯來語)和CJK(中日韓)。支援嵌套的區塊級元素(如P、DIV),