從老鼠在迷宮中行走到AlphaGo戰勝人類，強化學習的發展歷程-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

從老鼠在迷宮中行走到AlphaGo戰勝人類，強化學習的發展歷程

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 09, 2023 pm 09:49 PM

ai強化學習基於模型

談到強化學習，許多研究人員的腎上腺素便不受控制地飆升！它在遊戲AI系統、現代機器人、晶片設計系統和其他應用中發揮著十分重要的作用。

強化學習演算法有許多不同的類型，但主要分為兩類：「基於模型的」和「無模型的」。

在與TechTalks的對話中，神經科學家、「智能的誕生」一書的作者Daeyeol Lee分別討論了人類和動物強化學習的不同模式、人工智慧和自然智能，以及未來的研究方向。

從老鼠在迷宮中行走到AlphaGo戰勝人類，強化學習的發展歷程

無模型的強化學習

19世紀後期，心理學家Edward Thorndike提出的「效果定律」成為了無模型強化學習的基礎。 Thorndike提出，在特定情境中具有正面影響的行為，在該情境中更有可能再次發生，而產生負面影響的行為則不太可能再發生。

Thorndike在一個實驗中探討了這個「效應定律」。他把一隻貓放在一個迷宮盒子中，並測量貓從盒子中逃脫所需的時間。為了逃脫，貓必須操作一系列小工具，如繩子和槓桿。 Thorndike觀察到，當貓與謎盒互動時，它學會了有助於逃跑的行為。隨著時間的推移，貓逃離盒子的速度越來越快。 Thorndike的結論是，貓可以從其行為提供的獎勵和懲罰中進行學習。「效應定律」後來為行為主義鋪平了道路。行為主義是心理學的一個分支，試圖從刺激和反應的角度來解釋人類和動物的行為。「效應定律」也是無模型強化學習的基礎。在無模型強化學習中，透過主體感知世界，然後採取行動，同時衡量獎勵。

在無模型強化學習中，並不存在直接的知識或世界模型。 RL代理必須透過反覆試驗，直接去體驗每個動作的結果。

以模型為基礎的強化學習

Thorndike的「效果定律」一直流行到1930年代。當時另一位心理學家Edward Tolman在探索老鼠如何快速學會走迷宮時發現了一個重要的洞見。在他的實驗中，Tolman意識到動物可以在沒有強化的情況下了解他們的環境。

例如，當老鼠在迷宮中被放出來時，它會自由地探索隧道，並逐漸了解環境的結構。如果隨後將這隻老鼠重新放進相同的環境，並提供強化訊號，例如尋找食物或尋找出口，那麼它可以比沒有探索過迷宮的動物更快到達目標。 Tolman稱之為「潛在學習」，這成為基於模型的強化學習的基礎。「潛在學習」使動物和人類對他們的世界形成一種心理表徵，在他們的頭腦中模擬假設的場景，並預測結果。

從老鼠在迷宮中行走到AlphaGo戰勝人類，強化學習的發展歷程

基於模型的強化學習的優點是它消除了agent在環境中進行試誤的需要。值得強調的一點是：基於模型的強化學習在開發能夠掌握國際象棋和圍棋等棋盤遊戲的人工智慧系統方面尤其成功，可能的原因是這些遊戲的環境是確定的。

從老鼠在迷宮中行走到AlphaGo戰勝人類，強化學習的發展歷程

基於模型VS 無模型

通常來說，基於模型的強化學習會非常耗時，在對時間極度敏感的時候，可能會發生致命的危險。 Lee說：「在計算上，基於模型的強化學習要複雜得多。首先你必須獲得模型，進行心理模擬，然後你必須找到神經過程的軌跡，再採取行動。不過，基於模型的強化學習不一定就比無模型的RL複雜。」當環境十分複雜時，倘若可以用一個相對簡單的模型（該模型可以快速獲得）進行建模，那麼模擬就會簡單得多，而且具有成本效益。

多種學習模式

其实，无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题，它都有可能是同时使用基于模型和无模型的强化学习，甚至可能更多形式的学习。神经科学的研究表明，人类和动物都有多种学习方式，而大脑在任何特定时刻都在这些模式之间不断切换。最近几年，人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。加州大学圣地亚哥分校的科学家最近的研究表明，将无模型强化学习和基于模型的强化学习结合起来，可以在控制任务中取得卓越的表现。 Lee表示：「如果你看看像AlphaGo这样复杂的算法，它既有无模型的RL元素，也有基于模型的RL元素，它根据棋盘配置学习状态值，这基本上是无模型的 RL，但它同时也进行基于模型的前向搜索。」

尽管取得了显著的成就，强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境，其性能就会开始下降。

Lee说：「我认为我们的大脑是一个学习算法的复杂世界，它们已经进化到可以处理许多不同的情况。」

除了在这些学习模式之间不断切换之外，大脑还设法一直保持和更新它们，即使是在它们没有积极参与决策的情况下。

心理学家Daniel Kahneman表示：「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」

我们还需要清楚另一件事——如何在AI系统中应用正确的归纳偏置，以确保它们以具有成本效益的方式学习正确的东西。数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置，同时使用尽可能少的数据。归纳偏置可以理解为，从现实生活观察到的现象中，总结出规则，然后对模型做一定的约束，从而可以起到模型选择的作用，即从假设空间中选择出更符合现实规则的模型。 Lee说：「我们从环境中获得的信息非常少。使用这些信息，我们必须进行概括。原因是大脑存在归纳偏置，并且存在可以从一小组示例中概括出来的偏置。这是进化的产物，越来越多的神经科学家对此感兴趣。」然而，虽然归纳偏置在物体识别任务中很容易理解，但在构建社会关系等抽象问题中就变得晦涩难懂。未来，需要我们了解的还有很多~~~

参考资料：

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning

以上是從老鼠在迷宮中行走到AlphaGo戰勝人類，強化學習的發展歷程的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35