吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

王林

Sep 15, 2023 am 11:29 AM

ai訓練

2021年，華盛頓大學語言學家Emily M. Bender發表了一篇論文，認為大型語言模型不過是「隨機鸚鵡」（stochastic parrots）而已，它們並不理解真實世界，只是統計某字詞出現的機率，然後像鸚鵡一樣隨機產生看起來合理的字句。

由於神經網路的不可解釋性，學術界也搞不清楚語言模型到底是不是隨機鸚鵡，各方觀點差異分歧極大。

由於缺乏廣泛認可的測試，模型是否能「理解世界」也成為了哲學問題而非科學問題。

最近，來自哈佛大學、麻省理工學院的研究人員共同發表了一項新研究Othello-GPT，在簡單的棋盤遊戲中驗證了內部表徵的有效性，他們認為語言模型的內部確實建立了一個世界模型，而不只是單純的記憶或統計，不過其能力來源還不清楚。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

論文連結：https://arxiv.org/pdf/2210.13382.pdf

實驗過程非常簡單，在沒有任何奧賽羅規則先驗知識的情況下，研究人員發現模型能夠以非常高的準確率預測出合法的移動操作，捕捉棋盤的狀態。

吳恩達在「來信」專欄中對該研究表示高度認可，他認為基於該研究，有理由相信大型語言模型構建出了足夠複雜的世界模型，在某種程度上來說，確實理解了世界。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

部落格連結：https://www.deeplearning.ai/the-batch/does-ai-understand-the-world/

不過吳恩達也表示，雖然哲學很重要，但這樣的爭論可能會無休無止，所以不如程式設計去吧！

棋盤世界模型

如果把棋盤想像成一個簡單的「世界」，並要求模型在對局中不斷決策，就可以初步測試出序列模型是否能夠學習到世界表徵。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

研究人員選擇一個簡單的黑白棋遊戲奧賽羅（Othllo）作為實驗平台，其規則是在8*8棋盤的中心位置，先放入四個棋子，黑白各兩個；然後雙方輪流下子，在直線或斜線方向，己方兩子之間的所有敵子（不能包含空格）全部變為己子（稱為吃子），每次落子必須有吃子；最後棋盤全部佔滿，子多者為勝。

相比國際象棋來說，奧賽羅的規則簡單得多；同時棋類遊戲的搜尋空間足夠大，模型無法透過記憶完成序列生成，所以很適合測試模型的世界表徵學習能力。

Othello語言模型

研究人員首先訓練了一個GPT變體版語言模型（Othello-GPT），將遊戲腳本（玩家做出的一系列棋子移動操作）輸入到模型中，但模型沒有關於遊戲及相關規則的先驗知識。

模型也沒有被明確訓練以追求策略提升、贏得對局等，只是在產生合法奧賽羅移動操作時準確率比較高。

資料集

#研究人員使用了兩組訓練資料：

錦標賽（Championship）更關注數據質量，主要是從兩個奧賽羅錦標賽中專業的人類玩家採用的、更具戰略思考的移動步驟，但分別只收集到7605個和132921個遊戲樣本，兩個資料集並後以8：2的比例隨機分成訓練集（2000萬個樣本）和驗證集（379.6萬個）。

合成（Synthetic）更關注數據的規模，由隨機的、合法的移動操作組成，數據分佈不同於錦標賽數據集，而是均勻地從奧賽羅遊戲樹上採樣獲得，其中2000萬個樣本用於訓練，379.6萬個樣本用於驗證。

每場遊戲的描述由一串token組成，詞表大小為60（8*8-4）

模型和訓練

模型的架構為8層GPT模型，具有8個頭，隱藏維度為512

模型的權重完全隨機初始化，包含word embedding層，雖然表示棋盤位置的詞表內存在幾何關係（如C4低於B4），但這種歸納偏移並沒有明確表示出來，而是留給模型學習。

預測合法移動

模型的主要評估指標就是模型預測的移動操作是否符合奧賽羅的規則。

在合成資料集上訓練的Othello-GPT錯誤率為0.01%，在錦標賽資料集上的錯誤率為5.17%，相較之下，未經訓練的Othello -GPT的錯誤率為93.29%，也就是說這兩個資料集都某種程度上讓模型學會了遊戲規則。

一個可能的解釋是，模型記住了奧賽羅遊戲的所有移動操作。

為了驗證這個猜想，研究人員合成了一個新的資料集：在每場比賽開始時，奧賽羅有四個可能的開局棋位置（C5、D6、E3和F4），將所有C5開局的走法移除後作為訓練集，再將C5開局的資料作為測試，也就是移除了近1/4的博弈樹，結果發現模型錯誤率仍然只有0.02%

所以Othello-GPT的高性能並不是因為記憶，因為測試資料是訓練過程中完全沒見過的，那到底是什麼讓模型成功預測？

探索內部表徵

一個常用的神經網路內部表徵偵測工具是探針（probe），每個探針是分類器或回歸器，其輸入由網路的內部活化組成，並經過訓練以預測感興趣的特徵。

在這個任務中，為了偵測Othello-GPT的內部激活是否包含當前棋盤狀態的表徵，輸入移動序列後，用內部激活向量對下一個移動步驟進行預測。

當使用線性探針時，訓練後的Othello-GPT內部表徵只比隨機猜測的準確率高了一點點。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

當使用非線性探針（兩層MLP）時，錯誤率大幅下降，證明了棋盤狀態並不是以一種簡單的方式儲存在網路啟動中。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

幹預實驗

為了確定模型預測和湧現世界表徵之間的因果關係，即棋盤狀態是否確實影響了網路的預測結果，研究人員進行了一組幹預（intervention）試驗，並測量由此產生的影響程度。

給定來自Othello-GPT的一組激活，用探針預測棋盤狀態，記錄相關聯的移動預測，然後修改激活，讓探針預測更新的棋盤狀態。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

幹預操作包括將某個位置的棋子從白色變成黑色等，一個小的修改就會導致模型結果發現內部表徵能夠可靠地完成預測，即內部表徵與模型預測之間存在因果影響。

視覺化

除了介入實驗驗證內部表徵的有效性外，研究人員還將預測結果視覺化，比如說對於棋盤上的每個棋子，可以詢問模型如果用介入技術將該棋子改變，模型的預測結果會如何變化，對應預測結果的顯著性。

然後根據當前棋盤狀態的top1預測的顯著性對牌進行著色可視化，因為繪製出來的圖是基於網絡的潛空間而輸入，所以也可以叫做潛在顯著性圖（latent saliency map）。

吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界

可以看到，在合成和锦标赛数据集上训练的Othello-GPTs的top1预测的潜显著性图中都展现出了清晰的模式。

合成版Othello-GPT在合法操作位置中显示出了更高的显著性值，非法操作的显著性值明显更低，稍微有点经验的棋手都能看出模型的意图；

锦标赛版的显著图更复杂，虽然合法操作位置的显著性值比较高，但其他位置也显示出较高的显著性，可能是因为奥赛罗高手考虑更多的是全局特征。

以上是吳恩達力贊！哈佛、MIT學者用下棋證明：大型語言模型確實「理解」了世界的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人，我廣泛探討了AI的最新進展，包括體現AI，AI推理，AI中的高科技突破，及時的工程，AI培訓，AI，AI RE RE等主題

歐洲的AI大陸行動計劃：Gigafactories，Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。一個關鍵要素是建立了AI Gigafactories網絡，每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟對AI代理申請的統一方法：企業的明顯勝利微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。與許多技術公告陷入困境不同

向員工出售AI策略：Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機：集成AI用於增強業務運營上個月，在IBM的紐約總部，我收到了Z17功能的預覽。以Z16的成功為基礎（於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心，消除了對外部驗證的需求！這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。只需複制，粘貼和自定義包圍

AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相，展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。窺探內部：Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展，該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼，而是理解它在人工神經元層面如何做到這一點。想像一下，試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A