強化學習是否言過其實?-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

強化學習是否言過其實?

PHPz

Apr 13, 2023 am 09:31 AM

機器學習強化學習圍棋

譯者 | 李睿

審校 | 孫淑娟

可以想像一下，你正準備和朋友一起下西洋棋，但他不是人類，而是一個不了解##遊戲規則的電腦程式。但這個應用程式卻明白自己致力實現一個目標，就是在遊戲中獲勝。

因為電腦程式不知道規則，所以開始下棋的招數是隨機的。其中有些招數完全沒有意義，而對你來說獲勝很容易。在這裡假設你非常喜歡和這個朋友下西洋棋，以至於沉迷於這個遊戲。

但電腦程式最終會贏，因為它會逐漸學會擊敗你的方法和招數字。雖然假設的這個場景看起來有些牽強，但它應該能讓你對強化學習(機器學習的一個領域)的大致工作原理有一個基本的了解。

強化學習是否言過其實?

# 強化學習到底有多智慧?

人類智力包含許多特徵，包括獲得知識、擴展智力能力的願望和直覺思考。當西洋棋冠軍加里·卡斯帕羅夫在輸給IBM公司的一台名為「深藍」（Deep Blue）的電腦時，人類的智慧受到了極大的質疑。除了吸引大眾的注意力之外，描繪機器人在未來統治人類的世界末日場景也佔據了主流意識。

然而，「深藍」並不是一個普通的對手。與這個計算程式下棋就像是與一個千歲的老#人進行比賽，而他一生一直在#不停地下西洋棋。但「深藍」擅長玩一種特定的遊戲，而不是其他智性活動，如演奏樂器、撰寫著作、進行科學實驗、養育子女或修理汽車。

這絕不是想貶#低「深藍色」取得的成就。與其相反，電腦在智力能力上超越人類的想法需要仔細的檢驗，首先要分析強化學習的工作機制。

強化學習是如何運作的

#如##上所述，強化學習是機器學習的子集，它涉及智慧代理在環境中如何行動以最大化累積獎勵的概念。

簡單地說，強化學習機器人接受獎懲機制的訓練，它們做出正確的動作會得到獎勵，做出錯誤的動作會受到懲罰。強化學習機器不會「思考」如何採取更的行動，

# #它們

只是讓所有的行動成為可能，以最大限度地提高成功的機會。

強化學習是否言過其實?

強化學習的缺點

強化學習的主要缺點是它需要大量的資源來實現它的目標。強化學習在圍棋遊戲中的成功就說明了這一點。這是一款受歡迎的雙人遊戲，目標是使用棋子在棋盤上佔據最大區域，同時避免丟子。

AlphaGo Master是一款在圍棋比賽中擊敗人類棋手的電腦程序，它耗費大量的資金和人力，其中包括許多工程師，非常豐富的遊戲經驗以及256個GPU和128000個CPU。

在學習如何在比賽獲勝的過程中，需要投入大量的資源和精力。這就引出了一個問題：設計不能憑直覺思考的人工智慧是否合理?人工智慧研究不是應該嘗試模仿人類智慧嗎?

支持強化學習的一個論點是，人們不應該期望人工智慧系統像人類一樣行動，它用於解決複雜問題需要進一步發展。另一方面，反對強化學習的觀點是，人工智慧研究應該專注於讓機器做目前只有人類和動物才有能力做的事情。從這個角度來看，人工智慧與人類智慧的比較是恰當的。

量子強化學習

強化學習是一個新興的領域，據說可以解決上述的一些問題。量子強化學習(QRL)是一種加速運算的方法。

首先，量子強化學習(QRL)應該透過最佳化探索(發現策略)和開發(選擇最佳策略)階段來加速學習。目前的一些應用和提出的量子計算改進了數據庫搜索，將大數分解為質數，等等。

儘管量子強化學習(QRL)還沒有以突破性的方式出現，但它有望解決常規強化學習的一些重大挑戰。

強化學習是否言過其實?

強化學習的商業案例

#######如同上述的，強化學習研究和開發至關重要。以下是來自麥肯錫公司的一份調查報告中的有關強化學習的一些實際應用示例，強化學習可以：#############

優化半導體和晶片設計，優化製造工藝，提高半導體產業的產量。
提高工廠產量，優化物流以減少浪費和成本，提高農業利潤。
縮短航空航太和國防工業新系統的上市時間。
優化設計流程，提高汽車產業的生產效率。
透過即時交易和定價策略增加收入，改善客戶體驗，並在金融服務中為客戶提供先進的個人化服務。
優化礦山設計，管理發電，應用整體物流調度，最佳化作業，降低成本，提高產量。
透過即時監控和精確鑽井提高產量，優化油輪行進路線，實現預測性維護，防止油氣產業的設備故障。
促進藥物發現，優化研究流程，自動化生產和優化製藥業的生物方法。
優化供應鏈，實施先進的庫存建模，為零售部門的客戶提供先進的個人化服務。
優化和管理網絡，在電信業應用客戶個人化。
優化運輸物流的路線、網路規劃、倉庫作業。
使用下一代代理程式從網站提取資料。

強化學習的反思

#強化學習的能力可能是有限的，但它不會被高估。此外，隨著強化學習研究和開發專案的增加，幾乎每個經濟部門的潛在用例也在增加。

大規模採用強化學習依賴幾個因素，其中包括最佳化演算法設計、配置學習環境和運算能力的可用性。

原文標題：#Is reinforcement learning overhyped? ，作者：Aleksandras Šulženko

以上是強化學習是否言過其實?的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

如何使用Huggingface Smollm建立個人AI助手Apr 18, 2025 am 11:52 AM

利用“設備” AI的力量：建立個人聊天機器人CLI 在最近的過去，個人AI助手的概念似乎是科幻小說。想像一下科技愛好者亞歷克斯（Alex）夢見一個聰明的本地AI同伴 - 不依賴

通過斯坦福大學激動人心的新計劃，精神健康的AI專心分析Apr 18, 2025 am 11:49 AM

他們的首屆AI4MH發射於2025年4月15日舉行，著名的精神科醫生兼神經科學家湯姆·因斯爾（Tom Insel）博士曾擔任開幕式演講者。 Insel博士因其在心理健康研究和技術方面的傑出工作而聞名

2025年WNBA選秀課程進入聯盟成長並與在線騷擾作鬥爭Apr 18, 2025 am 11:44 AM

恩格伯特說：“我們要確保WNBA仍然是每個人，球員，粉絲和公司合作夥伴，感到安全，重視和授權的空間。” anno

Python內置數據結構的綜合指南 - 分析VidhyaApr 18, 2025 am 11:43 AM

介紹 Python擅長使用編程語言，尤其是在數據科學和生成AI中。在處理大型數據集時，有效的數據操作（存儲，管理和訪問）至關重要。我們以前涵蓋了數字和ST

與替代方案相比，Openai新型號的第一印象Apr 18, 2025 am 11:41 AM

潛水之前，一個重要的警告：AI性能是非確定性的，並且特定於高度用法。簡而言之，您的里程可能會有所不同。不要將此文章（或任何其他）文章作為最後一句話 - 目的是在您自己的情況下測試這些模型

AI投資組合|如何為AI職業建立投資組合？Apr 18, 2025 am 11:40 AM

建立杰出的AI/ML投資組合：初學者和專業人士指南創建引人注目的投資組合對於確保在人工智能（AI）和機器學習（ML）中的角色至關重要。本指南為建立投資組合提供了建議

代理AI對安全操作可能意味著什麼Apr 18, 2025 am 11:36 AM

結果？倦怠，效率低下以及檢測和作用之間的差距擴大。這一切都不應該令任何從事網絡安全工作的人感到震驚。不過，代理AI的承諾已成為一個潛在的轉折點。這個新課

Google與Openai：AI為學生打架Apr 18, 2025 am 11:31 AM

直接影響與長期夥伴關係？兩週前，Openai提出了強大的短期優惠，在2025年5月底之前授予美國和加拿大大學生免費訪問Chatgpt Plus。此工具包括GPT-4O，A A A A A

See all articles

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

強化學習是否言過其實?

強化學習的反思

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

WebStorm Mac版

記事本++7.3.1

Atom編輯器mac版下載

SecLists

SAP NetWeaver Server Adapter for Eclipse

熱門話題