搜尋
首頁科技週邊人工智慧Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

導讀:#強人工智慧的發展是近年來關注的議題。讓AI從人類的知覺和行為,而非單純的標註資料中學習,成為許多研究者關注的重點。其中,如何運用人類習得的日常生活經驗,啟發建構能夠適應不同環境,與外部世界互動的人工智慧這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段,提出了未來建構真正AI(Real AI)的發展方向。 2022年5月31日,Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介:#理查德·薩頓(Richard Sutton),現代計算型強化學習創始人之一,是DeepMind 的傑出研究科學家,阿爾伯塔大學計算科學系教授,也是英國皇家學會、加拿大皇家學會、人工智慧促進會、阿爾伯塔機器智能研究所(AMII) 和CIFAR的研究員。

01. 背景:經驗對智慧發展的重要意義

Sutton認為,智能體與外在世界發生交互,向其發出動作,並接收感知(帶來的回饋)。這種涉及經驗的交互,是強化學習中正常的感知方式。也是讓智能體嘗試預測外在世界時所採用的正常途徑。然而,這種方法在監督學習中並不多見,而監督學習是目前最常見的機器學習類型。機器學習中並不涉及普通經驗(Ordinary Experience),模型也不會從不同於普通經驗的特殊訓練資料中學習。事實上,在運作時,監督學習系統根本不學習。

所以說,經驗是互動(帶來)的數據,是與外在世界溝通的途徑。經驗沒有任何意義,除非與其他經驗之間產生連結。當然,有一個例外:經由特殊訊號所表示獎勵。獎勵代表好的目標,智能體當然希望能最大化獎勵。在

演講中,Sutton提出了一個核心問題:智能最終是可以被什麼來解釋?是客觀的術語(Objective terms),還是經驗的術語(Experiential terms)?前者包含外在世界的狀態、目標、人、地點、關係、空間、動作、距離等不在智能體中的事物,後者則包含感知、動作、獎勵、時間步等智能體內在的事物。 Sutton認為,儘管研究者通常會在交流和寫論文時思考客觀的概念,但是現在應該更加關注智能體與外部世界互動過程中產生的經驗。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

為了進一步介紹經驗對於智能體的重要意義,Richard Sutton 提出,隨著經驗逐漸被重視,一共經歷了四個階段。分別為:智能體(Agenthood ),獎勵(Reward),經驗狀態(Experiential State),以及可預測知識(Predictive Knowledge)。經過這四個階段的發展,AI逐漸擁有經驗,變得更加實際、可學習且易於擴展。

#

02.經驗在AI發展的歷程

1.智能體(Agenthood)

 智能體的意思是擁有/獲得經驗(的AI)。可能令人驚訝的是,早期的AI系統確實沒有任何經驗。在人工智慧發展的早期階段(1954-1985年),大多數AI系統只是用來解決問題或回答問題,他們沒有感知能力,也不會行動。機器人是個例外,但傳統的系統只有啟動狀態和目標狀態,如同下圖要堆疊的積木塊。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如果要達到適當的目標狀態,其解決方案就是一個行動序列,確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在,因為整個外在世界是已知、確定、封閉的,所以並不需要讓AI感知和行動。研究者知道什麼事情會發生,所以只需要建立一個解決問題的計劃,讓AI來執行即可,人類知道這樣就能解決問題。

在過去30年的發展中,人工智慧的研究著重於建構智能體。這種轉變可以體現在這一點:人工智慧的標準教科書囊括了智能體的概念,將其作為基礎。例如,1995年版本的《人工智慧:一種現代的方法》中提到,全書的統一主題在於介紹智能體(Intelligent Agent)的概念。在這種視角下,AI的問題在於描述和建構智能體,並從環境中獲得認知,並採取行動。隨著研究的發展,標準、現代的方法是建構一個能夠和外在世界互動的智能體。 Sutton認為可以從這個視角看待AI。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.獎勵(Reward)

獎勵(Reward)是以經驗的形式來描述AI的目標。這也是目前提出的有效方法,能夠建構AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說-智慧及其相關的能力都可以被理解為是服務於最大化獎勵的結果。所以有說法認為,獎勵對於智能體而言已經足夠了。

然而Sutton認為,這個想法是需要被挑戰的。獎勵並不足夠實現智慧。獎勵只是一個數字、一個標量,它並不足以解釋智能的目標。來自頭腦之外,僅用單一數字表達的目標,顯得太小、太還原,甚至太貶低(人類的目標)了。人類喜歡把目標想像得更宏大,如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵並不是很好的建構目標的方法,研究者也發現了透過獎勵來建構目標的優勢。獎勵建構的目標太小,但是人們可以在其中取得進展——目標可以被良好、清晰地定義,且易於學習。這對於透過經驗建構目標而言反而是個挑戰。

Sutton認為,想像透過經驗來充分建構目標,這是有挑戰的。回顧歷史可以看到,AI原本也不是對獎勵有興趣的,即使是現在也是如此。所以,不管是早期的問題解決系統,還是當前最新版的AI教科書,其依然將目標定義為需要達到的世界狀態(World State),而非經驗性的(定義)。這種目標可能仍然是特定的一系列“積木”,而不是一種需要達到的感知結果。

#

當然,最新的教科書中已經有章節提到強化學習,並提及這些AI使用的是獎勵機制。此外,建構目標的過程中,獎勵已是一種常規的做法,可以使用馬爾科夫決策過程來實現。對於批評獎勵不能夠充分建構目標的研究者(如Yann LeCun)來說,獎勵已經是智慧這塊「蛋糕」頂端的「櫻桃」了,它很重要。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

在接下來的兩個階段,Sutton將介紹如何從經驗的角度來理解外在世界,但在此之前,他將先介紹經驗指涉的是什麼。

3.插曲:什麼是經驗

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如下圖的序列(非真實資料)所示,當時間步啟動的時候,系統會得到感知訊號,也會發出訊號和行動。所以感知訊號可能會引起一些動作,而這些動作會造成下一個感知訊號。在任何時候,系統都需要專注於專注於最近的行動和最近的訊號,這樣才能決定接下來會發生什麼,該怎麼做。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如圖所示,這是一個智慧型體執行程式的輸入輸出訊號陣列。第一列是時間步,每一步可認為是0.1秒或0.01秒的瞬間。行動訊號列則採用二級表示,以灰白兩色表示。之後是感知訊號列,其中前四列是二進位值(也使用灰白兩色),後四列則採用0-3的四種取值,以紅黃藍綠四種顏色表示,最後一列則是連續變量,代表獎勵。在實驗中,研究者將數字去除,只留下顏色,以便在其中尋找模式。 Sutton認為,經驗,是指對感覺-運動經驗的數據中發現的模式所產生的知識和理解。

在本案例中,Sutton列舉了四個典型的模式:

1.行動的最後一位,和緊接著的感知訊號是相同的。如果某一時間步的行動是白色的,其後的第一個感知訊號也是白色,灰色亦然。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.當出現紅像素時,緊接在後的一個時間步是綠色像素。擴大資料範圍後可以發現,紅綠像素先後出現後,隔一個時間步驟會出現藍色像素。

3.資料的最後三列往往會出現一長串同樣顏色,保持不變。一種顏色一旦開始,會持續多個時間週期,最終形成條紋。如很長的一串紅色、綠色、藍色等。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

4.如果展示AI預測的特定感知數據,很多時候這是無法立刻被觀察到的,因此在本資料中增加回傳值(Return),其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨後的獎賞中,綠色會比紅色多。這代表著當前對於獎勵的預測。

#

特殊的陰影區域則表示等待函數。等待函數的陰影區域會有綠色和紅色的條帶。在這裡,研究者將越早回歸的,帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時,就可以看到預測結果和實際獎勵之間的顏色和值的對應變化,這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為,這種回傳值本質上並​​不是從已經發生的事件中學習的,而是從時間差訊號中學到的。其中最重要的訊號就是價值函數。在本例中,返回值實際上是一個價值函數,代表的是對於未來獎勵的總和。如果想要一個一般形式的,複雜的,能夠指涉未來值的函數,可採用名為一般價值函數(General Value Functions GVFs)的方法。一般價值函數包括了各種訊號,不僅僅是獎勵;可以是任何時間包絡形式,而不僅僅是指數。一般價值函數也可以包括任何隊列的策略,可以預測數量非常多,範圍很廣的事情。當然,Sutton認為,透過計算進行預測,其難易度取決於被預測對象的形式。當使用一般價值函數進行預測時,被預測物件的表達形式需要被設計成易於學習的形式,且需要很高的計算效率。

4.經驗狀態(Experiential State)

#提到「狀態」這個詞,很多研究會提到的是世界狀態(World State),這是一個屬於客觀概念之下的字。狀態指的是客觀世界的一種符號化的描述(反映),能夠和世界本身的情況匹配。例如,對於積木塊的位置資訊(C在A上)等。在最近的一段時間,一些研究者(如Judea Pearl)提出了機率圖模型,其表示的是世界狀態的機率分佈。有些事件,如「外面下雨,草地是否是濕的?」等,這些事件之間都存在著機率關係。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#另一種狀態是信念狀態(Belief State) ,在這種概念中,狀態是一種機率分佈,表示的是離散世界的狀態,其對應的方法被稱為POMDPs(Partially observable Markov decision process)——存在隱藏狀態變量,其中部分是可觀察到的,可以使用馬爾科夫決策過程進行建模。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

以上的方法都是客觀的狀態,與經驗相距甚遠,是研究者一開始嘗試描述世界狀態的方法。

而與之不同的,是經驗狀態。 Sutton認為,經驗狀態指的是整個世界的狀態是根據經驗來定義。經驗狀態是過去經驗的總結,能夠預測並控制未來將會獲得的經驗。

這種建構過去經驗,預測未來的做法,在研究中已有體現。例如,強化學習任務之一——雅達利遊戲中,研究者會用最後四幀的影片建構經驗狀態,然後預測之後的行為。 LSTM網路中的一些方法,也可以被認為是從某種經驗狀態中進行預測。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

回看經驗狀態,它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數,由於AI需要每時每刻訪問經驗狀態,實現對接下來發生事件的預測,所以經驗狀態的更新是遞歸式的:當前時刻只訪問上一時刻的經驗狀態,而上一時刻經驗狀態是過去所有發生過的事件的總結。到了下一個時刻,也只造訪此時此刻的經驗狀態,而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的建構過程。其中,紅色箭頭顯示智能體的基礎工作訊號,包括:感覺、行動、獎勵等。藍箭頭標註的是經驗狀態(表徵)的方向,從感知中輸出,其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略,或進行其他更新。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#5.預測性知識(Predictive Knowledge)

知識,如“喬拜登是美國總統”,“艾菲爾鐵塔在巴黎”等,都是對於外部客觀世界的一種描述,並不是經驗性的。但是,類似於「做某事預計花費X小時」這類知識,是經驗知識。經驗知識和客觀知識之間存在著巨大的差異,這也是AI研究具有挑戰性的一點。

過去的AI研究傾向於將知識視為一種客觀項,儘管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗,也無法進行預測。而更現代一些的AI將知識視為客觀的存在。較先進的是機率圖模型,但是很多時候其研究的是兩件同時發生的事情之間的機率,而預測面向的應該是一連串序列事件。

基於對序列事件的預測是具有明確語意屬性的知識。如果某事情被預測會發生,AI就可以將預測和實際結果進行比較。而這種預測模型,可以被認為是一種新的世界知識,也就是預測性知識。而在預測性知識中,Sutton認為最前沿的就是通用價值函數(General Value Function)和選擇模型(Option Model)。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton 將世界知識分成兩類,一是關於世界狀態的知識;二是關於世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型,並不是初級形態的馬科夫決策過程或差分方程式。它可以是抽象的狀態,在經驗狀態中可以被抽取。由於預測是以整個行為為條件進行的,所以在選擇模型中,智能體也可以選擇停止某個策略,終結某種條件。有時候,使用旋律的遷移模型,可以預測進行了某個行動後的狀態。以日常生活為例,假設某人要去城裡,他/她會對前往市中心的距離、時間進行一個預測,對於超過某個閾值的行為(如步行10分鐘進城),就會進一步預測出一個狀態,如疲憊等。

有了這種能夠延伸行為的模型,其知識所表示的規模也可以非常的大。例如,可以根據一個行為,預測世界狀態,然後根據狀態再預測下一個行為......以此類推。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結經驗在AI研究中的發展歷程,Sutton表示,經驗是世界知識的基礎,人類本身是透過感知和行動來認識和影響世界的,經驗是人類獲得資訊、採取行動的唯一方式,而且是人類離不開的。遺憾的是,由於經驗過於主觀化和個人化,人類仍然不喜歡用經驗的方式去思考和表達。經驗對於人類太過陌生、反直覺、短暫、複雜。而經驗也是主觀、私人的,與他人交流,或進行驗證幾乎是不可能的。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton認為,經驗對於AI十分重要,有以下幾個原因。一是經驗來自於AI的日常運作過程,獲得這些經驗是無成本的、自動的。同時,AI領域有大量的數據用於計算,因此經驗提供了通往了解世界的道路,如果世界中的任何事實都是經驗性的,那麼AI可以從經驗中學習對世界的認識,並在經驗中進行驗證。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結而言,Sutton認為,過去70年的AI發展歷程中,AI逐漸在增加對經驗的重視-獲得經驗、根據經驗設定目標、並根據經驗獲得狀態和知識。在每一個階段,對於人類更陌生的經驗研究正在變得更加重要,而且其具有接地氣(Grounding)、可學習和可擴展的優勢。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#03.未來AI 利用經驗的方法

Sutton認為,目前對於經驗利用方面,AI還未完成階段三和四,但是這種趨勢向前會越走越遠。 Sutton認為,將一切都歸於經驗,是通往真正AI的可行路徑。儘管非常具有挑戰性,但這是能夠理解資料流,實現智慧的圖像。最後,Sutton進一步凝煉重視感知運動經驗的四個階段,形成一句標語:#「數據驅動人工智慧,而經驗就是終極的數據。如果能利用好經驗,我們就可以更快速有力地推動人工智慧發展。」

##

以上是Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

SublimeText3 Linux新版

SublimeText3 Linux新版

SublimeText3 Linux最新版

WebStorm Mac版

WebStorm Mac版

好用的JavaScript開發工具

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器