Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

PHPz

Apr 09, 2023 am 10:01 AM

ai發展經驗

導讀：#強人工智慧的發展是近年來關注的議題。讓AI從人類的知覺和行為，而非單純的標註資料中學習，成為許多研究者關注的重點。其中，如何運用人類習得的日常生活經驗，啟發建構能夠適應不同環境，與外部世界互動的人工智慧這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段，提出了未來建構真正AI（Real AI）的發展方向。 2022年5月31日，Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講，對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介：#理查德·薩頓(Richard Sutton)，現代計算型強化學習創始人之一，是DeepMind 的傑出研究科學家，阿爾伯塔大學計算科學系教授，也是英國皇家學會、加拿大皇家學會、人工智慧促進會、阿爾伯塔機器智能研究所（AMII）和CIFAR的研究員。

01. 背景：經驗對智慧發展的重要意義

Sutton認為，智能體與外在世界發生交互，向其發出動作，並接收感知（帶來的回饋）。這種涉及經驗的交互，是強化學習中正常的感知方式。也是讓智能體嘗試預測外在世界時所採用的正常途徑。然而，這種方法在監督學習中並不多見，而監督學習是目前最常見的機器學習類型。機器學習中並不涉及普通經驗（Ordinary Experience），模型也不會從不同於普通經驗的特殊訓練資料中學習。事實上，在運作時，監督學習系統根本不學習。

所以說，經驗是互動（帶來）的數據，是與外在世界溝通的途徑。經驗沒有任何意義，除非與其他經驗之間產生連結。當然，有一個例外：經由特殊訊號所表示獎勵。獎勵代表好的目標，智能體當然希望能最大化獎勵。在

演講中，Sutton提出了一個核心問題：智能最終是可以被什麼來解釋？是客觀的術語（Objective terms），還是經驗的術語（Experiential terms）？前者包含外在世界的狀態、目標、人、地點、關係、空間、動作、距離等不在智能體中的事物，後者則包含感知、動作、獎勵、時間步等智能體內在的事物。 Sutton認為，儘管研究者通常會在交流和寫論文時思考客觀的概念，但是現在應該更加關注智能體與外部世界互動過程中產生的經驗。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

為了進一步介紹經驗對於智能體的重要意義，Richard Sutton 提出，隨著經驗逐漸被重視，一共經歷了四個階段。分別為：智能體（Agenthood ），獎勵（Reward），經驗狀態（Experiential State），以及可預測知識（Predictive Knowledge）。經過這四個階段的發展，AI逐漸擁有經驗，變得更加實際、可學習且易於擴展。

02.經驗在AI發展的歷程

1.智能體（Agenthood）

智能體的意思是擁有/獲得經驗（的AI）。可能令人驚訝的是，早期的AI系統確實沒有任何經驗。在人工智慧發展的早期階段（1954-1985年），大多數AI系統只是用來解決問題或回答問題，他們沒有感知能力，也不會行動。機器人是個例外，但傳統的系統只有啟動狀態和目標狀態，如同下圖要堆疊的積木塊。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

如果要達到適當的目標狀態，其解決方案就是一個行動序列，確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在，因為整個外在世界是已知、確定、封閉的，所以並不需要讓AI感知和行動。研究者知道什麼事情會發生，所以只需要建立一個解決問題的計劃，讓AI來執行即可，人類知道這樣就能解決問題。

在過去30年的發展中，人工智慧的研究著重於建構智能體。這種轉變可以體現在這一點：人工智慧的標準教科書囊括了智能體的概念，將其作為基礎。例如，1995年版本的《人工智慧：一種現代的方法》中提到，全書的統一主題在於介紹智能體（Intelligent Agent）的概念。在這種視角下，AI的問題在於描述和建構智能體，並從環境中獲得認知，並採取行動。隨著研究的發展，標準、現代的方法是建構一個能夠和外在世界互動的智能體。 Sutton認為可以從這個視角看待AI。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

2.獎勵（Reward）

獎勵（Reward）是以經驗的形式來描述AI的目標。這也是目前提出的有效方法，能夠建構AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說－智慧及其相關的能力都可以被理解為是服務於最大化獎勵的結果。所以有說法認為，獎勵對於智能體而言已經足夠了。

然而Sutton認為，這個想法是需要被挑戰的。獎勵並不足夠實現智慧。獎勵只是一個數字、一個標量，它並不足以解釋智能的目標。來自頭腦之外，僅用單一數字表達的目標，顯得太小、太還原，甚至太貶低（人類的目標）了。人類喜歡把目標想像得更宏大，如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵並不是很好的建構目標的方法，研究者也發現了透過獎勵來建構目標的優勢。獎勵建構的目標太小，但是人們可以在其中取得進展——目標可以被良好、清晰地定義，且易於學習。這對於透過經驗建構目標而言反而是個挑戰。

Sutton認為，想像透過經驗來充分建構目標，這是有挑戰的。回顧歷史可以看到，AI原本也不是對獎勵有興趣的，即使是現在也是如此。所以，不管是早期的問題解決系統，還是當前最新版的AI教科書，其依然將目標定義為需要達到的世界狀態（World State），而非經驗性的（定義）。這種目標可能仍然是特定的一系列“積木”，而不是一種需要達到的感知結果。

當然，最新的教科書中已經有章節提到強化學習，並提及這些AI使用的是獎勵機制。此外，建構目標的過程中，獎勵已是一種常規的做法，可以使用馬爾科夫決策過程來實現。對於批評獎勵不能夠充分建構目標的研究者（如Yann LeCun）來說，獎勵已經是智慧這塊「蛋糕」頂端的「櫻桃」了，它很重要。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

在接下來的兩個階段，Sutton將介紹如何從經驗的角度來理解外在世界，但在此之前，他將先介紹經驗指涉的是什麼。

3.插曲：什麼是經驗

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

如下圖的序列（非真實資料）所示，當時間步啟動的時候，系統會得到感知訊號，也會發出訊號和行動。所以感知訊號可能會引起一些動作，而這些動作會造成下一個感知訊號。在任何時候，系統都需要專注於專注於最近的行動和最近的訊號，這樣才能決定接下來會發生什麼，該怎麼做。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

如圖所示，這是一個智慧型體執行程式的輸入輸出訊號陣列。第一列是時間步，每一步可認為是0.1秒或0.01秒的瞬間。行動訊號列則採用二級表示，以灰白兩色表示。之後是感知訊號列，其中前四列是二進位值（也使用灰白兩色），後四列則採用0-3的四種取值，以紅黃藍綠四種顏色表示，最後一列則是連續變量，代表獎勵。在實驗中，研究者將數字去除，只留下顏色，以便在其中尋找模式。 Sutton認為，經驗，是指對感覺-運動經驗的數據中發現的模式所產生的知識和理解。

在本案例中，Sutton列舉了四個典型的模式：

1.行動的最後一位，和緊接著的感知訊號是相同的。如果某一時間步的行動是白色的，其後的第一個感知訊號也是白色，灰色亦然。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

2.當出現紅像素時，緊接在後的一個時間步是綠色像素。擴大資料範圍後可以發現，紅綠像素先後出現後，隔一個時間步驟會出現藍色像素。

3.資料的最後三列往往會出現一長串同樣顏色，保持不變。一種顏色一旦開始，會持續多個時間週期，最終形成條紋。如很長的一串紅色、綠色、藍色等。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

4.如果展示AI預測的特定感知數據，很多時候這是無法立刻被觀察到的，因此在本資料中增加回傳值（Return），其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨後的獎賞中，綠色會比紅色多。這代表著當前對於獎勵的預測。

特殊的陰影區域則表示等待函數。等待函數的陰影區域會有綠色和紅色的條帶。在這裡，研究者將越早回歸的，帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時，就可以看到預測結果和實際獎勵之間的顏色和值的對應變化，這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為，這種回傳值本質上並不是從已經發生的事件中學習的，而是從時間差訊號中學到的。其中最重要的訊號就是價值函數。在本例中，返回值實際上是一個價值函數，代表的是對於未來獎勵的總和。如果想要一個一般形式的，複雜的，能夠指涉未來值的函數，可採用名為一般價值函數（General Value Functions GVFs）的方法。一般價值函數包括了各種訊號，不僅僅是獎勵；可以是任何時間包絡形式，而不僅僅是指數。一般價值函數也可以包括任何隊列的策略，可以預測數量非常多，範圍很廣的事情。當然，Sutton認為，透過計算進行預測，其難易度取決於被預測對象的形式。當使用一般價值函數進行預測時，被預測物件的表達形式需要被設計成易於學習的形式，且需要很高的計算效率。

4.經驗狀態（Experiential State）

#提到「狀態」這個詞，很多研究會提到的是世界狀態（World State），這是一個屬於客觀概念之下的字。狀態指的是客觀世界的一種符號化的描述（反映），能夠和世界本身的情況匹配。例如，對於積木塊的位置資訊（C在A上）等。在最近的一段時間，一些研究者（如Judea Pearl）提出了機率圖模型，其表示的是世界狀態的機率分佈。有些事件，如「外面下雨，草地是否是濕的？」等，這些事件之間都存在著機率關係。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

#另一種狀態是信念狀態(Belief State），在這種概念中，狀態是一種機率分佈，表示的是離散世界的狀態，其對應的方法被稱為POMDPs（Partially observable Markov decision process）——存在隱藏狀態變量，其中部分是可觀察到的，可以使用馬爾科夫決策過程進行建模。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

以上的方法都是客觀的狀態，與經驗相距甚遠，是研究者一開始嘗試描述世界狀態的方法。

而與之不同的，是經驗狀態。 Sutton認為，經驗狀態指的是整個世界的狀態是根據經驗來定義。經驗狀態是過去經驗的總結，能夠預測並控制未來將會獲得的經驗。

這種建構過去經驗，預測未來的做法，在研究中已有體現。例如，強化學習任務之一——雅達利遊戲中，研究者會用最後四幀的影片建構經驗狀態，然後預測之後的行為。 LSTM網路中的一些方法，也可以被認為是從某種經驗狀態中進行預測。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

回看經驗狀態，它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數，由於AI需要每時每刻訪問經驗狀態，實現對接下來發生事件的預測，所以經驗狀態的更新是遞歸式的：當前時刻只訪問上一時刻的經驗狀態，而上一時刻經驗狀態是過去所有發生過的事件的總結。到了下一個時刻，也只造訪此時此刻的經驗狀態，而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的建構過程。其中，紅色箭頭顯示智能體的基礎工作訊號，包括：感覺、行動、獎勵等。藍箭頭標註的是經驗狀態（表徵）的方向，從感知中輸出，其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略，或進行其他更新。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

#5.預測性知識（Predictive Knowledge）

知識，如“喬拜登是美國總統”，“艾菲爾鐵塔在巴黎”等，都是對於外部客觀世界的一種描述，並不是經驗性的。但是，類似於「做某事預計花費X小時」這類知識，是經驗知識。經驗知識和客觀知識之間存在著巨大的差異，這也是AI研究具有挑戰性的一點。

過去的AI研究傾向於將知識視為一種客觀項，儘管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗，也無法進行預測。而更現代一些的AI將知識視為客觀的存在。較先進的是機率圖模型，但是很多時候其研究的是兩件同時發生的事情之間的機率，而預測面向的應該是一連串序列事件。

基於對序列事件的預測是具有明確語意屬性的知識。如果某事情被預測會發生，AI就可以將預測和實際結果進行比較。而這種預測模型，可以被認為是一種新的世界知識，也就是預測性知識。而在預測性知識中，Sutton認為最前沿的就是通用價值函數（General Value Function）和選擇模型（Option Model）。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

Sutton 將世界知識分成兩類，一是關於世界狀態的知識；二是關於世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型，並不是初級形態的馬科夫決策過程或差分方程式。它可以是抽象的狀態，在經驗狀態中可以被抽取。由於預測是以整個行為為條件進行的，所以在選擇模型中，智能體也可以選擇停止某個策略，終結某種條件。有時候，使用旋律的遷移模型，可以預測進行了某個行動後的狀態。以日常生活為例，假設某人要去城裡，他/她會對前往市中心的距離、時間進行一個預測，對於超過某個閾值的行為（如步行10分鐘進城），就會進一步預測出一個狀態，如疲憊等。

有了這種能夠延伸行為的模型，其知識所表示的規模也可以非常的大。例如，可以根據一個行為，預測世界狀態，然後根據狀態再預測下一個行為......以此類推。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

總結經驗在AI研究中的發展歷程，Sutton表示，經驗是世界知識的基礎，人類本身是透過感知和行動來認識和影響世界的，經驗是人類獲得資訊、採取行動的唯一方式，而且是人類離不開的。遺憾的是，由於經驗過於主觀化和個人化，人類仍然不喜歡用經驗的方式去思考和表達。經驗對於人類太過陌生、反直覺、短暫、複雜。而經驗也是主觀、私人的，與他人交流，或進行驗證幾乎是不可能的。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

Sutton認為，經驗對於AI十分重要，有以下幾個原因。一是經驗來自於AI的日常運作過程，獲得這些經驗是無成本的、自動的。同時，AI領域有大量的數據用於計算，因此經驗提供了通往了解世界的道路，如果世界中的任何事實都是經驗性的，那麼AI可以從經驗中學習對世界的認識，並在經驗中進行驗證。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

總結而言，Sutton認為，過去70年的AI發展歷程中，AI逐漸在增加對經驗的重視－獲得經驗、根據經驗設定目標、並根據經驗獲得狀態和知識。在每一個階段，對於人類更陌生的經驗研究正在變得更加重要，而且其具有接地氣（Grounding）、可學習和可擴展的優勢。

Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路

#03.未來AI 利用經驗的方法

Sutton認為，目前對於經驗利用方面，AI還未完成階段三和四，但是這種趨勢向前會越走越遠。 Sutton認為，將一切都歸於經驗，是通往真正AI的可行路徑。儘管非常具有挑戰性，但這是能夠理解資料流，實現智慧的圖像。最後，Sutton進一步凝煉重視感知運動經驗的四個階段，形成一句標語：#「數據驅動人工智慧，而經驗就是終極的數據。如果能利用好經驗，我們就可以更快速有力地推動人工智慧發展。」

以上是Richard Sutton：經驗是AI的終極數據，四個階段通往真正AI的發展之路的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35