搜尋
首頁科技週邊人工智慧從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

談到強化學習,許多研究人員的腎上腺素便不受控制地飆升!它在遊戲AI系統、現代機器人、晶片設計系統和其他應用中發揮著十分重要的作用。 

強化學習演算法有許多不同的類型,但主要分為兩類:「基於模型的」和「無模型的」。

在與TechTalks的對話中,神經科學家、 「智能的誕生」一書的作者Daeyeol Lee分別討論了人類和動物強化學習的不同模式、人工智慧和自然智能,以及未來的研究方向。 

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

無模型的強化學習

19世紀後期,心理學家Edward Thorndike提出的「效果定律」成為了無模型強化學習的基礎。 Thorndike提出,在特定情境中具有正面影響的行為,在該情境中更有可能再次發生,而產生負面影響的行為則不太可能再發生。

Thorndike在一個實驗中探討了這個「效應定律」。 他把一隻貓放在一個迷宮盒子中,並測量貓從盒子中逃脫所需的時間。為了逃脫,貓必須操作一系列小工具,如繩子和槓桿。 Thorndike觀察到,當貓與謎盒互動時,它學會了有助於逃跑的行為。隨著時間的推移,貓逃離盒子的速度越來越快。 Thorndike的結論是,貓可以從其行為提供的獎勵和懲罰中進行學習。 「效應定律」後來為行為主義鋪平了道路。行為主義是心理學的一個分支,試圖從刺激和反應的角度來解釋人類和動物的行為。 「效應定律」也是無模型強化學習的基礎。在無模型強化學習中,透過主體感知世界,然後採取行動,同時衡量獎勵。 

在無模型強化學習中,並不存在直接的知識或世界模型。 RL代理必須透過反覆試驗,直接去體驗每個動作的結果。 

以模型為基礎的強化學習

Thorndike的「效果定律」一直流行到1930年代。當時另一位心理學家Edward Tolman在探索老鼠如何快速學會走迷宮時發現了一個重要的洞見。在他的實驗中,Tolman意識到動物可以在沒有強化的情況下了解他們的環境。 

例如,當老鼠在迷宮中被放出來時,它會自由地探索隧道,並逐漸了解環境的結構。如果隨後將這隻老鼠重新放進相同的環境,並提供強化訊號,例如尋找食物或尋找出口,那麼它可以比沒有探索過迷宮的動物更快到達目標。 Tolman稱之為「潛在學習」,這成為基於模型的強化學習的基礎。 「潛在學習」使動物和人類對他們的世界形成一種心理表徵,在他們的頭腦中模擬假設的場景,並預測結果。

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

 基於模型的強化學習的優點是它消除了agent在環境中進行試誤的需要。 值得強調的一點是:基於模型的強化學習在開發能夠掌握國際象棋和圍棋等棋盤遊戲的人工智慧系統方面尤其成功,可能的原因是這些遊戲的環境是確定的。

從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程

基於模型VS 無模型

 通常來說,基於模型的強化學習會非常耗時,在對時間極度敏感的時候,可能會發生致命的危險。 Lee說:「在計算上,基於模型的強化學習要複雜得多。首先你必須獲得模型,進行心理模擬,然後你必須找到神經過程的軌跡,再採取行動。不過,基於模型的強化學習不一定就比無模型的RL複雜。」 當環境十分複雜時,倘若可以用一個相對簡單的模型(該模型可以快速獲得)進行建模,那麼模擬就會簡單得多,而且具有成本效益。 

多種學習模式

#

其实,无论是基于模型的强化学习还是无模型的强化学习都不是一个完美的解决方案。无论你在哪里看到一个强化学习系统解决一个复杂的问题,它都有可能是同时使用基于模型和无模型的强化学习,甚至可能更多形式的学习。 神经科学的研究表明,人类和动物都有多种学习方式,而大脑在任何特定时刻都在这些模式之间不断切换。 ​最近几年,人们对创造结合多种强化学习模式的人工智能系统越来越感兴趣。 加州大学圣地亚哥分校的科学家最近的研究表明,将无模型强化学习和基于模型的强化学习结合起来,可以在控制任务中取得卓越的表现。 Lee表示:「如果你看看像AlphaGo这样复杂的算法,它既有无模型的RL元素,也有基于模型的RL元素,它根据棋盘配置学习状态值,这基本上是无模型的 RL,但它同时也进行基于模型的前向搜索。」 

尽管取得了显著的成就,强化学习的进展仍然缓慢。一旦RL模型面临复杂且不可预测的环境,其性能就会开始下降。​

Lee说:「我认为我们的大脑是一个学习算法的复杂世界,它们已经进化到可以处理许多不同的情况。」 

除了在这些学习模式之间不断切换之外,大脑还设法一直保持和更新它们,即使是在它们没有积极参与决策的情况下。 

心理学家Daniel Kahneman表示:「维护不同的学习模块并同时更新它们是有助于提高人工智能系统的效率和准确性。」 

我们还需要清楚另一件事——如何在AI系统中应用正确的归纳偏置,以确保它们以具有成本效益的方式学习正确的东西。 数十亿年的进化为人类和动物提供了有效学习所需的归纳偏置,同时使用尽可能少的数据。 归纳偏置可以理解为,从现实生活观察到的现象中,总结出规则,然后对模型做一定的约束,从而可以起到模型选择的作用,即从假设空间中选择出更符合现实规则的模型。 Lee说:「我们从环境中获得的信息非常少。使用这些信息,我们必须进行概括。原因是大脑存在归纳偏置,并且存在可以从一小组示例中概括出来的偏置。这是进化的产物,越来越多的神经科学家对此感兴趣。」 然而,虽然归纳偏置在物体识别任务中很容易理解,但在构建社会关系等抽象问题中就变得晦涩难懂。 未来,需要我们了解的还有很多~~~​

参考资料:

https://thenextweb.com/news/everything-you-need-to-know-about-model-free-and-model-based-reinforcement-learning​

以上是從老鼠在迷宮中行走到AlphaGo戰勝人類,強化學習的發展歷程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
最新的最佳及時工程技術的年度彙編最新的最佳及時工程技術的年度彙編Apr 10, 2025 am 11:22 AM

對於那些可能是我專欄新手的人,我廣泛探討了AI的最新進展,包括體現AI,AI推理,AI中的高科技突破,及時的工程,AI培訓,AI,AI RE RE等主題

歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AI歐洲的AI大陸行動計劃:Gigafactories,Data Labs和Green AIApr 10, 2025 am 11:21 AM

歐洲雄心勃勃的AI大陸行動計劃旨在將歐盟確立為人工智能的全球領導者。 一個關鍵要素是建立了AI Gigafactories網絡,每個網絡都有大約100,000個高級AI芯片 - 2倍的自動化合物的四倍

微軟的直接代理商故事是否足以創造更多的粉絲?微軟的直接代理商故事是否足以創造更多的粉絲?Apr 10, 2025 am 11:20 AM

微軟對AI代理申請的統一方法:企業的明顯勝利 微軟最近公告的新AI代理能力清晰而統一的演講給人留下了深刻的印象。 與許多技術公告陷入困境不同

向員工出售AI策略:Shopify首席執行官的宣言向員工出售AI策略:Shopify首席執行官的宣言Apr 10, 2025 am 11:19 AM

Shopify首席執行官TobiLütke最近的備忘錄大膽地宣布AI對每位員工的基本期望是公司內部的重大文化轉變。 這不是短暫的趨勢。這是整合到P中的新操作範式

IBM啟動具有完整AI集成的Z17大型機IBM啟動具有完整AI集成的Z17大型機Apr 10, 2025 am 11:18 AM

IBM的Z17大型機:集成AI用於增強業務運營 上個月,在IBM的紐約總部,我收到了Z17功能的預覽。 以Z16的成功為基礎(於2022年推出並證明持續的收入增長

5 Chatgpt提示取決於別人並完全相信自己5 Chatgpt提示取決於別人並完全相信自己Apr 10, 2025 am 11:17 AM

解鎖不可動搖的信心,消除了對外部驗證的需求! 這五個CHATGPT提示將指導您完全自力更生和自我感知的變革轉變。 只需複制,粘貼和自定義包圍

AI與您的思想危險相似AI與您的思想危險相似Apr 10, 2025 am 11:16 AM

人工智能安全與研究公司 Anthropic 最近的一項[研究]開始揭示這些複雜過程的真相,展現出一種令人不安地與我們自身認知領域相似的複雜性。自然智能和人工智能可能比我們想像的更相似。 窺探內部:Anthropic 可解釋性研究 Anthropic 進行的研究的新發現代表了機制可解釋性領域的重大進展,該領域旨在反向工程 AI 的內部計算——不僅僅觀察 AI 做了什麼,而是理解它在人工神經元層面如何做到這一點。 想像一下,試圖通過繪製當有人看到特定物體或思考特定想法時哪些神經元會放電來理解大腦。 A

龍翼展示高通的邊緣動力龍翼展示高通的邊緣動力Apr 10, 2025 am 11:14 AM

高通的龍翼:企業和基礎設施的戰略飛躍 高通公司通過其新的Dragonwing品牌在全球範圍內積極擴展其範圍,以全球為目標。 這不僅僅是雷布蘭

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

Atom編輯器mac版下載

Atom編輯器mac版下載

最受歡迎的的開源編輯器

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境