首頁  >  文章  >  科技週邊  >  Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

PHPz
PHPz轉載
2023-04-09 10:01:021133瀏覽

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

導讀:#強人工智慧的發展是近年來關注的議題。讓AI從人類的知覺和行為,而非單純的標註資料中學習,成為許多研究者關注的重點。其中,如何運用人類習得的日常生活經驗,啟發建構能夠適應不同環境,與外部世界互動的人工智慧這成為一些領域探索的新路。

被譽為強化學習之父的Richard Sutton近日提出了利用經驗啟發AI發展的思路。他將AI從利用數據到利用經驗的過程分為四個發展階段,提出了未來建構真正AI(Real AI)的發展方向。 2022年5月31日,Richard Sutton在2022北京智源大會上發表了題為“The Increasing Role of Sensorimotor Experience in AI”的主題演講,對利用經驗啟發AI發展的方法進行了總結和展望。

講者簡介:#理查德·薩頓(Richard Sutton),現代計算型強化學習創始人之一,是DeepMind 的傑出研究科學家,阿爾伯塔大學計算科學系教授,也是英國皇家學會、加拿大皇家學會、人工智慧促進會、阿爾伯塔機器智能研究所(AMII) 和CIFAR的研究員。

01. 背景:經驗對智慧發展的重要意義

Sutton認為,智能體與外在世界發生交互,向其發出動作,並接收感知(帶來的回饋)。這種涉及經驗的交互,是強化學習中正常的感知方式。也是讓智能體嘗試預測外在世界時所採用的正常途徑。然而,這種方法在監督學習中並不多見,而監督學習是目前最常見的機器學習類型。機器學習中並不涉及普通經驗(Ordinary Experience),模型也不會從不同於普通經驗的特殊訓練資料中學習。事實上,在運作時,監督學習系統根本不學習。

所以說,經驗是互動(帶來)的數據,是與外在世界溝通的途徑。經驗沒有任何意義,除非與其他經驗之間產生連結。當然,有一個例外:經由特殊訊號所表示獎勵。獎勵代表好的目標,智能體當然希望能最大化獎勵。在

演講中,Sutton提出了一個核心問題:智能最終是可以被什麼來解釋?是客觀的術語(Objective terms),還是經驗的術語(Experiential terms)?前者包含外在世界的狀態、目標、人、地點、關係、空間、動作、距離等不在智能體中的事物,後者則包含感知、動作、獎勵、時間步等智能體內在的事物。 Sutton認為,儘管研究者通常會在交流和寫論文時思考客觀的概念,但是現在應該更加關注智能體與外部世界互動過程中產生的經驗。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

為了進一步介紹經驗對於智能體的重要意義,Richard Sutton 提出,隨著經驗逐漸被重視,一共經歷了四個階段。分別為:智能體(Agenthood ),獎勵(Reward),經驗狀態(Experiential State),以及可預測知識(Predictive Knowledge)。經過這四個階段的發展,AI逐漸擁有經驗,變得更加實際、可學習且易於擴展。

#

02.經驗在AI發展的歷程

1.智能體(Agenthood)

 智能體的意思是擁有/獲得經驗(的AI)。可能令人驚訝的是,早期的AI系統確實沒有任何經驗。在人工智慧發展的早期階段(1954-1985年),大多數AI系統只是用來解決問題或回答問題,他們沒有感知能力,也不會行動。機器人是個例外,但傳統的系統只有啟動狀態和目標狀態,如同下圖要堆疊的積木塊。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如果要達到適當的目標狀態,其解決方案就是一個行動序列,確保AI能夠從啟動狀態達到目標狀態。這其中沒有感知和行動的存在,因為整個外在世界是已知、確定、封閉的,所以並不需要讓AI感知和行動。研究者知道什麼事情會發生,所以只需要建立一個解決問題的計劃,讓AI來執行即可,人類知道這樣就能解決問題。

在過去30年的發展中,人工智慧的研究著重於建構智能體。這種轉變可以體現在這一點:人工智慧的標準教科書囊括了智能體的概念,將其作為基礎。例如,1995年版本的《人工智慧:一種現代的方法》中提到,全書的統一主題在於介紹智能體(Intelligent Agent)的概念。在這種視角下,AI的問題在於描述和建構智能體,並從環境中獲得認知,並採取行動。隨著研究的發展,標準、現代的方法是建構一個能夠和外在世界互動的智能體。 Sutton認為可以從這個視角看待AI。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.獎勵(Reward)

獎勵(Reward)是以經驗的形式來描述AI的目標。這也是目前提出的有效方法,能夠建構AI的所有目標。這也是Sutton與其合作者提出的方法。

獎勵被認為是目前較為充分的一種假說-智慧及其相關的能力都可以被理解為是服務於最大化獎勵的結果。所以有說法認為,獎勵對於智能體而言已經足夠了。

然而Sutton認為,這個想法是需要被挑戰的。獎勵並不足夠實現智慧。獎勵只是一個數字、一個標量,它並不足以解釋智能的目標。來自頭腦之外,僅用單一數字表達的目標,顯得太小、太還原,甚至太貶低(人類的目標)了。人類喜歡把目標想像得更宏大,如照顧家庭、拯救世界、世界和平、讓世界更美好。人類的目標比最大化快樂和舒適更為重要。

正如研究者發現獎勵並不是很好的建構目標的方法,研究者也發現了透過獎勵來建構目標的優勢。獎勵建構的目標太小,但是人們可以在其中取得進展——目標可以被良好、清晰地定義,且易於學習。這對於透過經驗建構目標而言反而是個挑戰。

Sutton認為,想像透過經驗來充分建構目標,這是有挑戰的。回顧歷史可以看到,AI原本也不是對獎勵有興趣的,即使是現在也是如此。所以,不管是早期的問題解決系統,還是當前最新版的AI教科書,其依然將目標定義為需要達到的世界狀態(World State),而非經驗性的(定義)。這種目標可能仍然是特定的一系列“積木”,而不是一種需要達到的感知結果。

#

當然,最新的教科書中已經有章節提到強化學習,並提及這些AI使用的是獎勵機制。此外,建構目標的過程中,獎勵已是一種常規的做法,可以使用馬爾科夫決策過程來實現。對於批評獎勵不能夠充分建構目標的研究者(如Yann LeCun)來說,獎勵已經是智慧這塊「蛋糕」頂端的「櫻桃」了,它很重要。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

在接下來的兩個階段,Sutton將介紹如何從經驗的角度來理解外在世界,但在此之前,他將先介紹經驗指涉的是什麼。

3.插曲:什麼是經驗

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如下圖的序列(非真實資料)所示,當時間步啟動的時候,系統會得到感知訊號,也會發出訊號和行動。所以感知訊號可能會引起一些動作,而這些動作會造成下一個感知訊號。在任何時候,系統都需要專注於專注於最近的行動和最近的訊號,這樣才能決定接下來會發生什麼,該怎麼做。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

如圖所示,這是一個智慧型體執行程式的輸入輸出訊號陣列。第一列是時間步,每一步可認為是0.1秒或0.01秒的瞬間。行動訊號列則採用二級表示,以灰白兩色表示。之後是感知訊號列,其中前四列是二進位值(也使用灰白兩色),後四列則採用0-3的四種取值,以紅黃藍綠四種顏色表示,最後一列則是連續變量,代表獎勵。在實驗中,研究者將數字去除,只留下顏色,以便在其中尋找模式。 Sutton認為,經驗,是指對感覺-運動經驗的數據中發現的模式所產生的知識和理解。

在本案例中,Sutton列舉了四個典型的模式:

1.行動的最後一位,和緊接著的感知訊號是相同的。如果某一時間步的行動是白色的,其後的第一個感知訊號也是白色,灰色亦然。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

2.當出現紅像素時,緊接在後的一個時間步是綠色像素。擴大資料範圍後可以發現,紅綠像素先後出現後,隔一個時間步驟會出現藍色像素。

3.資料的最後三列往往會出現一長串同樣顏色,保持不變。一種顏色一旦開始,會持續多個時間週期,最終形成條紋。如很長的一串紅色、綠色、藍色等。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

4.如果展示AI預測的特定感知數據,很多時候這是無法立刻被觀察到的,因此在本資料中增加回傳值(Return),其代表著對將會到來的獎勵的預測。框中的綠色條帶代表了隨後的獎賞中,綠色會比紅色多。這代表著當前對於獎勵的預測。

#

特殊的陰影區域則表示等待函數。等待函數的陰影區域會有綠色和紅色的條帶。在這裡,研究者將越早回歸的,帶有顏色獎勵給予更高的權重。當隨著返回值根據時間移動時,就可以看到預測結果和實際獎勵之間的顏色和值的對應變化,這種返回值便是一種預測——其可以從經驗中學習到。

Sutton認為,這種回傳值本質上並​​不是從已經發生的事件中學習的,而是從時間差訊號中學到的。其中最重要的訊號就是價值函數。在本例中,返回值實際上是一個價值函數,代表的是對於未來獎勵的總和。如果想要一個一般形式的,複雜的,能夠指涉未來值的函數,可採用名為一般價值函數(General Value Functions GVFs)的方法。一般價值函數包括了各種訊號,不僅僅是獎勵;可以是任何時間包絡形式,而不僅僅是指數。一般價值函數也可以包括任何隊列的策略,可以預測數量非常多,範圍很廣的事情。當然,Sutton認為,透過計算進行預測,其難易度取決於被預測對象的形式。當使用一般價值函數進行預測時,被預測物件的表達形式需要被設計成易於學習的形式,且需要很高的計算效率。

4.經驗狀態(Experiential State)

#提到「狀態」這個詞,很多研究會提到的是世界狀態(World State),這是一個屬於客觀概念之下的字。狀態指的是客觀世界的一種符號化的描述(反映),能夠和世界本身的情況匹配。例如,對於積木塊的位置資訊(C在A上)等。在最近的一段時間,一些研究者(如Judea Pearl)提出了機率圖模型,其表示的是世界狀態的機率分佈。有些事件,如「外面下雨,草地是否是濕的?」等,這些事件之間都存在著機率關係。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#另一種狀態是信念狀態(Belief State) ,在這種概念中,狀態是一種機率分佈,表示的是離散世界的狀態,其對應的方法被稱為POMDPs(Partially observable Markov decision process)——存在隱藏狀態變量,其中部分是可觀察到的,可以使用馬爾科夫決策過程進行建模。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

以上的方法都是客觀的狀態,與經驗相距甚遠,是研究者一開始嘗試描述世界狀態的方法。

而與之不同的,是經驗狀態。 Sutton認為,經驗狀態指的是整個世界的狀態是根據經驗來定義。經驗狀態是過去經驗的總結,能夠預測並控制未來將會獲得的經驗。

這種建構過去經驗,預測未來的做法,在研究中已有體現。例如,強化學習任務之一——雅達利遊戲中,研究者會用最後四幀的影片建構經驗狀態,然後預測之後的行為。 LSTM網路中的一些方法,也可以被認為是從某種經驗狀態中進行預測。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

回看經驗狀態,它是可以遞歸更新的。經驗狀態是整個過去發生事情總結的函數,由於AI需要每時每刻訪問經驗狀態,實現對接下來發生事件的預測,所以經驗狀態的更新是遞歸式的:當前時刻只訪問上一時刻的經驗狀態,而上一時刻經驗狀態是過去所有發生過的事件的總結。到了下一個時刻,也只造訪此時此刻的經驗狀態,而這個經驗狀態也是對過去發生的所有事件的總結。

下圖顯示了智能體經驗狀態的建構過程。其中,紅色箭頭顯示智能體的基礎工作訊號,包括:感覺、行動、獎勵等。藍箭頭標註的是經驗狀態(表徵)的方向,從感知中輸出,其負責對每個時間步更新其經驗狀態。更新的狀態會被用來為行動制定策略,或進行其他更新。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#5.預測性知識(Predictive Knowledge)

知識,如“喬拜登是美國總統”,“艾菲爾鐵塔在巴黎”等,都是對於外部客觀世界的一種描述,並不是經驗性的。但是,類似於「做某事預計花費X小時」這類知識,是經驗知識。經驗知識和客觀知識之間存在著巨大的差異,這也是AI研究具有挑戰性的一點。

過去的AI研究傾向於將知識視為一種客觀項,儘管近期已經有一些研究從經驗的角度來看待問題。早期的AI系統沒有經驗,也無法進行預測。而更現代一些的AI將知識視為客觀的存在。較先進的是機率圖模型,但是很多時候其研究的是兩件同時發生的事情之間的機率,而預測面向的應該是一連串序列事件。

基於對序列事件的預測是具有明確語意屬性的知識。如果某事情被預測會發生,AI就可以將預測和實際結果進行比較。而這種預測模型,可以被認為是一種新的世界知識,也就是預測性知識。而在預測性知識中,Sutton認為最前沿的就是通用價值函數(General Value Function)和選擇模型(Option Model)。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton 將世界知識分成兩類,一是關於世界狀態的知識;二是關於世界狀態轉換的知識。有關世界狀態轉換知識的案例是世界預測模型。此處的的世界預測模型,並不是初級形態的馬科夫決策過程或差分方程式。它可以是抽象的狀態,在經驗狀態中可以被抽取。由於預測是以整個行為為條件進行的,所以在選擇模型中,智能體也可以選擇停止某個策略,終結某種條件。有時候,使用旋律的遷移模型,可以預測進行了某個行動後的狀態。以日常生活為例,假設某人要去城裡,他/她會對前往市中心的距離、時間進行一個預測,對於超過某個閾值的行為(如步行10分鐘進城),就會進一步預測出一個狀態,如疲憊等。

有了這種能夠延伸行為的模型,其知識所表示的規模也可以非常的大。例如,可以根據一個行為,預測世界狀態,然後根據狀態再預測下一個行為......以此類推。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結經驗在AI研究中的發展歷程,Sutton表示,經驗是世界知識的基礎,人類本身是透過感知和行動來認識和影響世界的,經驗是人類獲得資訊、採取行動的唯一方式,而且是人類離不開的。遺憾的是,由於經驗過於主觀化和個人化,人類仍然不喜歡用經驗的方式去思考和表達。經驗對於人類太過陌生、反直覺、短暫、複雜。而經驗也是主觀、私人的,與他人交流,或進行驗證幾乎是不可能的。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

Sutton認為,經驗對於AI十分重要,有以下幾個原因。一是經驗來自於AI的日常運作過程,獲得這些經驗是無成本的、自動的。同時,AI領域有大量的數據用於計算,因此經驗提供了通往了解世界的道路,如果世界中的任何事實都是經驗性的,那麼AI可以從經驗中學習對世界的認識,並在經驗中進行驗證。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

總結而言,Sutton認為,過去70年的AI發展歷程中,AI逐漸在增加對經驗的重視-獲得經驗、根據經驗設定目標、並根據經驗獲得狀態和知識。在每一個階段,對於人類更陌生的經驗研究正在變得更加重要,而且其具有接地氣(Grounding)、可學習和可擴展的優勢。

Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路

#03.未來AI 利用經驗的方法

Sutton認為,目前對於經驗利用方面,AI還未完成階段三和四,但是這種趨勢向前會越走越遠。 Sutton認為,將一切都歸於經驗,是通往真正AI的可行路徑。儘管非常具有挑戰性,但這是能夠理解資料流,實現智慧的圖像。最後,Sutton進一步凝煉重視感知運動經驗的四個階段,形成一句標語:#「數據驅動人工智慧,而經驗就是終極的數據。如果能利用好經驗,我們就可以更快速有力地推動人工智慧發展。」

##

以上是Richard Sutton:經驗是AI的終極數據,四個階段通往真正AI的發展之路的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除