搜尋
首頁科技週邊人工智慧兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲

DeepMind的AI智能體,又來捲自己了!

注意看,這個名叫BBF的傢伙,只用2個小時,就掌握了26款雅達利遊戲,效率和人類相當,超越了自己一眾前輩。

要知道,AI智能體透過強化學習解決問題的效果一直都不錯,但最大的問題就在於這種方式效率很低,需要很長時間摸索。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

而BBF帶來的突破正是在效率方面。

怪不得它的全名可以叫Bigger、Better、Faster。

而且它還能只在單卡上完成訓練,算力要求也降低許多。

BBF由GoogleDeepMind和蒙特婁大學共同提出,目前資料和程式碼都已開源。

最高可取得人類5倍成績

用來評估BBF遊戲表現的數值,叫做IQM。

IQM是多方面遊戲表現的綜合得分,本文中的IQM成績以人類為基準進行了歸一化處理。

經與多個前人成果相比較,BBF在包含26款雅達利遊戲的Atari 100K測試資料集中取得了最高的IQM成績。

並且,在訓練過的26款遊戲中,BBF的成績已經超過人類了。

與表現相似的Eff.Zero相比,BBF消耗的GPU時間縮短了將近一半。

而消耗GPU時間相似的SPR和SR-SPR,效能又和BBF差了一截斷。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

而在重複進行的測驗中,BBF達到某一IQM分數的比例始終保持著較高水準。

甚至有超過總測試次數1/8的運行當中取得了5倍於人類的成績。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

即使加上其他沒有訓練過的雅達利遊戲,BBF也能取得超過人類一半的分數IQM分數。

而如果單獨看未訓練的這29款遊戲,BBF的得分是人類的四至五成。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

以SR-SPR為基礎修改

推動BBF研究的問題是,如何在樣本量稀少的情況下擴展深度強化學習網路。

為了研究這個問題,DeepMind將目光聚焦在了Atari 100K基準上。

但DeepMind很快就發現,單純增大模型規模並不能提升其表現。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

在深度學習模型的設計中,每步驟更新次數(Replay Ratio,RR)是一項重要參數。

具體到雅達利遊戲,RR值越大,模型在遊戲中取得的成績越高。

最終,DeepMind以SR-SPR作為基礎引擎,SR-SPR的RR值最高可達16。

而DeepMind經過綜合考慮,選擇了8作為BBF的RR值。

考慮到部分使用者不願意花費RR=8的運算成本,DeepMind同時開發了RR=2版本的BBF

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

##DeepMind對SR-SPR中的多項內容進行修改之後,採用自監管訓練得到了BBF,主要包括以下幾個方面:

  • 更高的捲積層重置強度:提高卷積層重置強度可以增加面向隨機目標的擾動幅度,讓模型表現更好並減少損失,BBF的重置強度增加後,擾動幅度從SR-SPR的20%提高到了50%
  • 更大的網路規模:將神經網路層數從3層提高至15層,寬度也增加4倍
  • #更新範圍(n)縮小:想要提升模型的表現,需要使用非固定的n值。 BBF每4萬個梯度步驟重置一次,每次重置的前1萬個梯度步驟中,n以指數形式從10下降至3,衰減階段佔BBF訓練過程的25%
  • 更大的衰減因子(γ):有人發現增大學習過程中的γ值可以提高模型表現,BBF的γ值從傳統的0.97增加到0.997
  • 權重衰減:避免過度擬合的出現, BBF的衰減量約為0.1
  • 刪除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表現

消融實驗結果表明,在每步更新次數為2和8的條件下,上述因素對BBF的表現均有不同程度的影響。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

其中,硬重置和更新範圍的縮小影響最為顯著。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

而對於上面兩個圖中沒有提到的NoisyNet,對模型表現的影響則並不顯著。

兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲圖片

論文網址:https://arxiv.org/abs/2305.19452GitHub專案頁:https://github.com /google-research/google-research/tree/master/bigger_better_faster

參考鏈接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4

[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/

— 完 —

以上是兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?閱讀AI索引2025:AI是您的朋友,敵人還是副駕駛?Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

開始使用Meta Llama 3.2 -Analytics Vidhya開始使用Meta Llama 3.2 -Analytics VidhyaApr 11, 2025 pm 12:04 PM

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

AV字節:Meta' llama 3.2,Google的雙子座1.5等AV字節:Meta' llama 3.2,Google的雙子座1.5等Apr 11, 2025 pm 12:01 PM

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

與機器交談的人類成本:聊天機器人真的可以在乎嗎?與機器交談的人類成本:聊天機器人真的可以在乎嗎?Apr 11, 2025 pm 12:00 PM

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

了解Python的Scipy圖書館了解Python的Scipy圖書館Apr 11, 2025 am 11:57 AM

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

3種運行Llama 3.2的方法-Analytics Vidhya3種運行Llama 3.2的方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

使用dagster自動化數據質量檢查使用dagster自動化數據質量檢查Apr 11, 2025 am 11:44 AM

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機在人工智能時代有角色嗎?大型機在人工智能時代有角色嗎?Apr 11, 2025 am 11:42 AM

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
3 週前By尊渡假赌尊渡假赌尊渡假赌

熱工具

EditPlus 中文破解版

EditPlus 中文破解版

體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SecLists

SecLists

SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境