兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 03, 2023 pm 08:57 PM

ai效率速通

DeepMind的AI智能體，又來捲自己了！

注意看，這個名叫BBF的傢伙，只用2個小時，就掌握了26款雅達利遊戲，效率和人類相當，超越了自己一眾前輩。

要知道，AI智能體透過強化學習解決問題的效果一直都不錯，但最大的問題就在於這種方式效率很低，需要很長時間摸索。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓練，算力要求也降低許多。

BBF由GoogleDeepMind和蒙特婁大學共同提出，目前資料和程式碼都已開源。

最高可取得人類5倍成績

用來評估BBF遊戲表現的數值，叫做IQM。

IQM是多方面遊戲表現的綜合得分，本文中的IQM成績以人類為基準進行了歸一化處理。

經與多個前人成果相比較，BBF在包含26款雅達利遊戲的Atari 100K測試資料集中取得了最高的IQM成績。

並且，在訓練過的26款遊戲中，BBF的成績已經超過人類了。

與表現相似的Eff.Zero相比，BBF消耗的GPU時間縮短了將近一半。

而消耗GPU時間相似的SPR和SR-SPR，效能又和BBF差了一截斷。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

而在重複進行的測驗中，BBF達到某一IQM分數的比例始終保持著較高水準。

甚至有超過總測試次數1/8的運行當中取得了5倍於人類的成績。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

即使加上其他沒有訓練過的雅達利遊戲，BBF也能取得超過人類一半的分數IQM分數。

而如果單獨看未訓練的這29款遊戲，BBF的得分是人類的四至五成。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

以SR-SPR為基礎修改

推動BBF研究的問題是，如何在樣本量稀少的情況下擴展深度強化學習網路。

為了研究這個問題，DeepMind將目光聚焦在了Atari 100K基準上。

但DeepMind很快就發現，單純增大模型規模並不能提升其表現。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

在深度學習模型的設計中，每步驟更新次數（Replay Ratio，RR）是一項重要參數。

具體到雅達利遊戲，RR值越大，模型在遊戲中取得的成績越高。

最終，DeepMind以SR-SPR作為基礎引擎，SR-SPR的RR值最高可達16。

而DeepMind經過綜合考慮，選擇了8作為BBF的RR值。

考慮到部分使用者不願意花費RR=8的運算成本，DeepMind同時開發了RR=2版本的BBF

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

##DeepMind對SR-SPR中的多項內容進行修改之後，採用自監管訓練得到了BBF，主要包括以下幾個方面：

更高的捲積層重置強度：提高卷積層重置強度可以增加面向隨機目標的擾動幅度，讓模型表現更好並減少損失，BBF的重置強度增加後，擾動幅度從SR-SPR的20%提高到了50%
更大的網路規模：將神經網路層數從3層提高至15層，寬度也增加4倍
#更新範圍（n）縮小：想要提升模型的表現，需要使用非固定的n值。 BBF每4萬個梯度步驟重置一次，每次重置的前1萬個梯度步驟中，n以指數形式從10下降至3，衰減階段佔BBF訓練過程的25%
更大的衰減因子（γ）：有人發現增大學習過程中的γ值可以提高模型表現，BBF的γ值從傳統的0.97增加到0.997
權重衰減：避免過度擬合的出現， BBF的衰減量約為0.1
刪除NoisyNet：原始SR-SPR中包含的NoisyNet不能提高模型表現

消融實驗結果表明，在每步更新次數為2和8的條件下，上述因素對BBF的表現均有不同程度的影響。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

其中，硬重置和更新範圍的縮小影響最為顯著。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

而對於上面兩個圖中沒有提到的NoisyNet，對模型表現的影響則並不顯著。

兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲圖片

論文網址：https://arxiv.org/abs/2305.19452GitHub專案頁：https://github.com /google-research/google-research/tree/master/bigger_better_faster

參考鏈接：[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

以上是兩小時就能超過人類！ DeepMind最新AI速通26款雅達利遊戲的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

AI技能差距正在減慢供應鏈Apr 26, 2025 am 11:13 AM

經常使用“ AI-Ready勞動力”一詞，但是在供應鏈行業中確實意味著什麼？供應鏈管理協會（ASCM）首席執行官安倍·埃什肯納齊（Abe Eshkenazi）表示，它表示能夠評論家的專業人員

一家公司如何悄悄地努力改變AIApr 26, 2025 am 11:12 AM

分散的AI革命正在悄悄地獲得動力。本週五在德克薩斯州奧斯汀，Bittensor最終遊戲峰會標誌著一個關鍵時刻，將分散的AI（DEAI）從理論轉變為實際應用。與閃閃發光的廣告不同

NVIDIA釋放NEMO微服務以簡化AI代理開發Apr 26, 2025 am 11:11 AM

企業AI面臨數據集成挑戰企業AI的應用面臨一項重大挑戰：構建能夠通過持續學習業務數據來保持準確性和實用性的系統。 NeMo微服務通過創建Nvidia所描述的“數據飛輪”來解決這個問題，允許AI系統通過持續接觸企業信息和用戶互動來保持相關性。這個新推出的工具包包含五個關鍵微服務： NeMo Customizer 處理大型語言模型的微調，具有更高的訓練吞吐量。 NeMo Evaluator 提供針對自定義基準的AI模型簡化評估。 NeMo Guardrails 實施安全控制，以保持合規性和適當的

AI為藝術與設計的未來描繪了一幅新圖片Apr 26, 2025 am 11:10 AM

AI：藝術與設計的未來畫卷人工智能(AI)正以前所未有的方式改變藝術與設計領域，其影響已不僅限於業餘愛好者，更深刻地波及專業人士。 AI生成的藝術作品和設計方案正在迅速取代傳統的素材圖片和許多交易性設計活動中的設計師，例如廣告、社交媒體圖片生成和網頁設計。然而，專業藝術家和設計師也發現AI的實用價值。他們將AI作為輔助工具，探索新的美學可能性，融合不同的風格，創造新穎的視覺效果。 AI幫助藝術家和設計師自動化重複性任務，提出不同的設計元素並提供創意輸入。 AI支持風格遷移，即將一種圖像的風格應用

Zoom如何徹底改變與Agent AI的合作：從會議到里程碑Apr 26, 2025 am 11:09 AM

Zoom最初以其視頻會議平台而聞名，它通過創新使用Agentic AI來引領工作場所革命。最近與Zoom的CTO XD黃的對話揭示了該公司雄心勃勃的願景。定義代理AI 黃d

對大學的存在威脅Apr 26, 2025 am 11:08 AM

AI會徹底改變教育嗎？這個問題是促使教育者和利益相關者的認真反思。 AI融入教育既提出了機遇和挑戰。正如科技Edvocate的馬修·林奇（Matthew Lynch）所指出的那樣

原型：美國科學家正在國外尋找工作Apr 26, 2025 am 11:07 AM

美國科學研究和技術發展或將面臨挑戰，這或許是由於預算削減導致的。據《自然》雜誌報導，2025年1月至3月期間，美國科學家申請海外工作的數量比2024年同期增加了32%。此前一項民意調查顯示，75%的受訪研究人員正在考慮前往歐洲和加拿大尋找工作。過去幾個月，數百項NIH和NSF的撥款被終止，NIH今年的新撥款減少了約23億美元，下降幅度接近三分之一。洩露的預算提案顯示，特朗普政府正在考慮大幅削減科學機構的預算，削減幅度可能高達50%。基礎研究領域的動盪也影響了美國的一大優勢：吸引海外人才。 35