首頁  >  文章  >  科技週邊  >  AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」

AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」

WBOY
WBOY轉載
2023-04-13 16:19:03937瀏覽

人人都遇見過一個古老的難題。

週五晚上,你正試著挑選一家餐廳吃飯,但沒有預定。你應該去你最愛的那家人滿為患的餐廳排隊等位,還是嘗試一家新餐廳,希望能發現一些更好吃的驚喜?

後者確實有可能帶來驚喜,但這種好奇心驅動的行為是有風險的:你去嘗試的那家新餐廳的東西可能會更難吃。

好奇心作為AI探索世界的驅動力,實例已經不勝枚舉了-自主導航、機器人決策、最佳化偵測結果等等。

在某些情況下,機器使用「強化學習」來完成一個目標,在這過程中,AI智能體從被獎勵的好行為和被懲罰的壞行為中反覆學習。

AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」

就像人類在選擇餐廳時面臨的困境一樣,這些智能體也在努力平衡發現更好的行動(探索)的時間和採取過去導致高回報的行動(利用)的時間。

太強的好奇心會分散智能體的注意力,無法做出有利的決定,而好奇心太弱,則意味著智能體永遠無法發現有利的決定。

為了追求使AI智能體具有「恰到好處」的好奇心,來自麻省理工學院計算機科學與AI實驗室(CSAIL)的研究人員創造了一種演算法,克服了AI過於「好奇」和被手邊的任務分散注意力的問題。

他們研究出的演算法會在需要時自動增加好奇心,如果智能體從環境中得到足夠的監督,已經知道該怎麼做,則降低好奇心。

AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」

論文連結:https://williamd4112.github.io/pubs/neurips22_eipo.pdf

經過60多個電玩遊戲的測試,該演算法能夠在不同難度的探索任務中取得成功,而先前的演算法只能單獨解決簡單或困難難度。這意味著AI智能體可以使用更少的數據來學習決策規則,達到激勵最大化。

「如果你很好地掌握了探索-開發之間權衡,就能更快地學習正確的決策規則,而任何不足之處都需要大量的數據,這可能意味著產生的結果是非最優的醫療方案,網站的利潤下降,以及機器人沒有學會做正確的事情。」

該研究帶頭人之一、麻省理工學院教授兼Improbable AI實驗室主任Pulkit Agrawal說。

好奇心,不只害死貓!

我們似乎很難從心理學角度解釋好奇心的心理基礎,對於這種尋求挑戰的行為的潛在神經學原理,我們一直沒有深入理解。

有了強化學習,這個過程在情感上被「修剪」了,將這個問題剝離至最基本的層面,但在技術實現上卻相當複雜。

從本質上講,智能體只應該在沒有足夠的監督來嘗試不同的事情時才會有好奇心,如果有監督,它必須調整好奇心,降低好奇心。

在測試遊戲任務中,很大一部分是小智能體在環境中跑來跑去尋找獎勵,並執行一長串的行動來實現一些目標,這似乎是研究人員演算法的邏輯測試平台。

AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」

在《瑪利歐賽車》和《蒙特祖瑪的復仇》等遊戲實驗中,研究人員將上述遊戲分為兩個不同類別:

#一種監督稀疏的環境,智能體獲得的指導較少,也就是“困難”的探索遊戲;另一種是監督更密集的環境,即“簡單”的探索遊戲。

假設在《瑪利歐賽車》中,只刪除所有的獎勵,你不知道什麼時候敵人殺了你。當你收集一個硬幣或跳過管道時,不會得到任何獎勵。智能體只有在最後才被告知其表現如何。這就屬於稀疏監督環境,也就是困難任務。在這種任務中,激勵好奇心的演算法表現非常好。

而如果智能體處於密集監督環境,也就是說,跳過管道、收集硬幣和殺死敵人都有獎勵,那麼,表現最好的就是完全沒有好奇心的演算法,因為經常得到獎勵,只要照著走流程就行了,不需要額外探索就能收穫豐富。

AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」

這裡如果使用激勵好奇心的演算法,學習速度會很慢。

因為好奇心強的智能體,可能會試著以不同的方式快速奔跑,到處亂逛,走遍遊戲的每個角落。這些事情都很有趣,但並不能幫助智能體在遊戲中取得成功,獲得獎勵。

如前文所言,在強化學習中,一般用激勵好奇心和抑制好奇心的演算法,來分別對應監督稀疏(困難)和監督密集(簡單)任務,不能混用。

這次,MIT團隊的新演算法始終表現良好,無論是在什麼環境中。

未來的工作可能涉及回到多年來令心理學家高興和困擾的探索:好奇心的適當衡量標準--沒有人真正知道從數學上定義好奇心的正確方法。

MIT CSAIL博士生Zhang Weihong說:

透過改進探索演算法,為你感興趣的問題調整演算法。我們需要好奇心來解決極具挑戰性的問題,但在某些問題上,好奇心會降低效能。我們的演算法消除了調整“探索和利用”的平衡負擔問題。

以前要花一個星期來解決的問題,新演算法可以在幾個小時內就得到滿意的結果。

他與麻省理工學院CSAIL工程碩士、22歲的Eric Chen是關於這項工作的新論文的共同作者。

卡內基美隆大學的教師Deepak Pathak說:

「像好奇心這樣的內在獎勵機制,是引導智能體發現有用的多樣化行為的基礎,但這不應該以在給定的任務中做得好為代價。這是AI中的一個重要問題,這篇論文提供了一種平衡這種權衡的方法。看看這種方法如何從遊戲擴展到現實世界的機器人智能體上,將是很有趣的一件事。」

加州大學柏克萊分校心理學特聘教授和哲學副教授Alison Gopnik指出,當前AI和認知科學的最大挑戰之一,就是如何平衡「探索和利用」,前者是對資訊的搜索,後者是對獎勵的搜索。

「這篇論文使用了令人印象深刻的新技術來自動完成這項工作,設計了一個能夠系統地平衡對世界的好奇心和對獎勵的渴望的智能體,讓AI智能體朝著像真正的兒童一樣聰明的方向,邁出了重要一步。」他說。

參考資料:

https://techxplore.com/news/2022-11-bad-ai-curious.html

https://www.csail. mit.edu/news/ensuring-ai-works-right-dose-curiosity

以上是AI好奇心,不只害死貓! MIT強化學習新演算法,智能體這回「難易通吃」的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文轉載於:51cto.com。如有侵權,請聯絡admin@php.cn刪除