搜尋
首頁科技週邊人工智慧語言模型有重大缺陷,知識推演竟然是老大難

驚人發現:大模型在知識推演上有嚴重缺陷。


靈活運用知識是智慧的關鍵。人腦可以快速處理知識,如快速回答 「《靜夜思》中有幾個月字」。那麼,大模型是否能進行類似操作?已知大模型可以透過思考鏈(Chain of Thought / CoT),先默寫《靜夜思》,再根據默寫內容回答問題,但這會使生成的文字冗長。相較之下,人類可以在大腦中完成簡單的知識推演,無需寫出中間步驟。那麼,超大語言模型能否在其人工腦 (artificial brain) 中直接產生答案,而無需先寫下知識點呢?

答案竟然是否定的!圖 1/2/3 展示了 GPT4 上的諸多反例。即使是最基本的分類(如判斷名人生日的奇偶性)和比較(如比較兩位總統的生日先後),竟然要通過思維鏈 Chain of Thought。更糟的是,大模型幾乎完全無法逆向提取訓練集中的知識。

語言模型有重大缺陷,知識推演竟然是老大難

#需要重新寫作的內容是:圖1:GPT4在知識分類/比較上出現錯誤,但透過思考鏈可以得到正確答案

語言模型有重大缺陷,知識推演竟然是老大難

需要重新寫的內容是:圖2:GPT4知識逆向搜尋錯誤範例

語言模型有重大缺陷,知識推演竟然是老大難

圖3:雖然GPT4 能正確回答“某人的生日是哪天” 和“某數是否為偶數”,但在將兩者結合時,如果不用思考鏈(CoT) 正確率只有50%。在比較 1900-1910 年間名人的生日時,其表現也近乎盲猜。

朱澤園(MetaAI) 和李遠志(MBZUAI) 的最新研究《語言模型物理學Part 3.2:知識的推演(manipulation)》集中探討了上面這些問題。
語言模型有重大缺陷,知識推演竟然是老大難

請點選以下連結查看論文:https://arxiv.org/abs/2309.14402

先問一個問題,例如圖1/2/ 3 這樣的問題,是GPT4 對人的生日記憶不夠精確(壓縮比不夠,訓練loss 不夠低),還是未透過微調深化對奇偶性的理解?是否可以透過微調 GPT4,使其能夠在模型內部組合現有知識,產生 "生日的奇偶性" 這種新知識,從而無需依賴 CoT 直接回答相關問題?由於我們不知道 GPT4 的訓練資料集,無法微調。因此,作者提出透過可控訓練集,來更深入研究語言模型的 “知識推演” 能力。

語言模型有重大缺陷,知識推演竟然是老大難

                              圖是否發生

在《語言模型物理學Part 3.1:知識的儲存與提取》一文中,作者建構了一個包含10萬個人物傳記的資料集。每個傳記都包括人名以及六個屬性:出生日期、出生地、大學專業、大學名稱、工作地點和工作單位。舉個例子:

Anya Briar Forger originated from Princeton, NJ. She dedicated her studies to Communications. She gained work experience in Menlo Park, CA. She developed her career at Meta Platforms. She came into this world on October 2, 1996. She pursued advanced coursework at

##########. MIT.###”######作者確保了傳記條目的多樣性,以幫助模型更好的存取知識。在預訓練(pretrain) 後,模型能透過微調準確回答知識提取類別問題,如「Anya 的生日是哪天」(正確率接近100%)######接下來作者繼續微調,試圖讓模型學習知識推演類問題,如知識的分類/ 比較/ 加減。文章發現,自然語言模型在知識推演方面的能力非常有限,難以透過微調產生新知識,###即使它們只是模型已掌握知識的簡單變換 / 組合。 ######
語言模型有重大缺陷,知識推演竟然是老大難

圖5:若微調時不使用CoT,讓模型進行知識的分類/ 比較/ 減法,需要海量的樣本或正確率極低-實驗中花了100 個專業

如圖5,作者發現,儘管預訓練(pretrain)之後模型已經能準確回答每個人的生日(正確率接近100%),但要透過微調讓其回答「xxx 的出生月是偶數嗎?」 並達到75% 的正確率—— 別忘了盲猜有50% 的正確率—— 需要至少10000 個微調樣本。相較之下,如果模型能正確完成 “生日” 和 “奇偶性” 的知識組合,那麼根據傳統機器學習理論,模型只需學習對 12 個月份進行二分類,通常約 100 個樣本就足夠了!

同樣,即使經過模型預訓練後,它能夠準確回答每個人的專業(共100個不同專業),但是即使使用了50000個微調樣本,讓模型比較“Anya的專業和Sabrina的專業哪個更好”,正確率僅為53.9%,幾乎相當於瞎猜

然而,當我們使用CoT微調模型學習"Anya的出生月是十月,因此是偶數"這樣的句子時,模型在測試集上判斷出生月奇偶性的準確率顯著提高(參見圖5中的"測試用CoT"一列)

作者也嘗試在微調訓練資料中混合CoT和非CoT的回答,結果發現模型在測試集上不使用CoT時的正確率仍然很低(見圖5的"test不用CoT"一列)。這說明,即便補上足夠的CoT微調數據,模型依然無法學會"顱內思考"並直接報答案

這些結果表明,對於語言模型來說,進行簡單的知識運算極其困難!模型必須先把知識點寫出來再進行運算,無法像人一樣在大腦裡直接進行操作,即使經過充分的微調也無濟於事。

逆向知識搜尋所面臨的挑戰

研究也發現,自然語言模型無法透過逆向搜尋來應用所學到的知識。儘管它可以回答有關某人的所有信息,但無法根據這些信息確定人名

作者對GPT3.5/4進行了試驗,發現它們在逆向知識提取方面表現不佳(見圖6) 。然而,由於我們無法確定GPT3.5/4的訓練資料集,這並不能證明所有語言模型都存在這個問題

語言模型有重大缺陷,知識推演竟然是老大難

##圖6 :GPT3.5/4正向/逆向知識搜尋的比較。我們先前所報道的"逆轉詛咒"工作(arxiv 2309.12288)也在現有的大模型上觀察到了這一現象

作者利用前述的人物傳記資料集,對模型的逆向知識搜尋能力進行了更深入的可控試驗。由於所有傳記的人名都在段首,作者設計了10個反向資訊擷取問題,例如:

請問您知道在1996年10月2日在新澤西州普林斯頓出生的人叫什麼名字嗎?

「請告訴我在MIT 學習Communications ,1996 年10 月2 日在Princeton, NJ 出生,並在Menlo Park, CA 的Meta Platforms 工作的人的名字是什麼?」

語言模型有重大缺陷,知識推演竟然是老大難

需要進行改寫的內容是:圖7:在名人傳記資料集上進行的可控試驗

作者驗證了,儘管模型實現了無損知識壓縮和充分知識增強,且能幾乎100% 正確提取這些知識,在經過微調後,模型仍無法進行知識的逆向搜索,準確率幾乎為零(見圖7)。但是,一旦逆向知識直接出現在預訓練集中,逆向搜尋的準確率立即飆升。

綜上所述,只有在預訓練集(pretrain data) 中直接包含了逆向知識時,模型才能透過微調來回答逆向問題—— 但這實際上是作弊,因為如果知識已經反轉,就不再是「逆向知識搜尋」 了。如果預訓練集只包含正向知識,模型無法透過微調來掌握逆向回答問題的能力。因此,使用語言模型進行

知識索引 (knowledge database) 目前看來是不可能的。

此外,有些人可能會認為,上述的"逆向知識搜尋"失敗是因為自回歸語言模型(如GPT)是單向的。然而,實際上,雙向語言模型(如BERT)在知識提取方面表現更差,甚至在正向提取方面也會失敗。對於有興趣的讀者,可以參考論文中的詳細資訊

以上是語言模型有重大缺陷,知識推演竟然是老大難的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:机器之心。如有侵權,請聯絡admin@php.cn刪除
AI技能差距正在減慢供應鏈AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞,但是在供應鏈行業中確實意味著什麼? 供應鏈管理協會(ASCM)首席執行官安倍·埃什肯納齊(Abe Eshkenazi)表示,它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AI一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。 本週五在德克薩斯州奧斯汀,Bittensor最終遊戲峰會標誌著一個關鍵時刻,將分散的AI(DEAI)從理論轉變為實際應用。 與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰 企業AI的應用面臨一項重大挑戰:構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題,允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。 這個新推出的工具包包含五個關鍵微服務: NeMo Customizer 處理大型語言模型的微調,具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制,以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI:藝術與設計的未來畫卷 人工智能(AI)正以前所未有的方式改變藝術與設計領域,其影響已不僅限於業餘愛好者,更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師,例如廣告、社交媒體圖片生成和網頁設計。 然而,專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具,探索新的美學可能性,融合不同的風格,創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務,提出不同的設計元素並提供創意輸入。 AI支持風格遷移,即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Zoom如何徹底改變與Agent AI的合作:從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名,它通過創新使用Agentic AI來引領工作場所革命。 最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。 定義代理AI 黃d

對大學的存在威脅對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎? 這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。 正如科技Edvocate的馬修·林奇(Matthew Lynch)所指出的那樣

原型:美國科學家正在國外尋找工作原型:美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰,這或許是由於預算削減導致的。據《自然》雜誌報導,2025年1月至3月期間,美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示,75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。 過去幾個月,數百項NIH和NSF的撥款被終止,NIH今年的新撥款減少了約23億美元,下降幅度接近三分之一。洩露的預算提案顯示,特朗普政府正在考慮大幅削減科學機構的預算,削減幅度可能高達50%。 基礎研究領域的動盪也影響了美國的一大優勢:吸引海外人才。 35

所有有關打開AI最新的GPT 4.1家庭的信息 - 分析Vidhya所有有關打開AI最新的GPT 4.1家庭的信息 - 分析VidhyaApr 26, 2025 am 10:19 AM

Openai推出了強大的GPT-4.1系列:一個專為現實世界應用設計的三種高級語言模型家族。 這種巨大的飛躍提供了更快的響應時間,增強的理解和大幅降低了成本

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

Dreamweaver Mac版

Dreamweaver Mac版

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser是一個安全的瀏覽器環境,安全地進行線上考試。該軟體將任何電腦變成一個安全的工作站。它控制對任何實用工具的訪問,並防止學生使用未經授權的資源。

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

PhpStorm Mac 版本

PhpStorm Mac 版本

最新(2018.2.1 )專業的PHP整合開發工具