DeepMind的AI智能體,又來捲自己了!
注意看,這個名叫BBF的傢伙,只用2個小時,就掌握了26款雅達利遊戲,效率和人類相當,超越了自己一眾前輩。
要知道,AI智能體透過強化學習解決問題的效果一直都不錯,但最大的問題就在於這種方式效率很低,需要很長時間摸索。
圖片
而BBF帶來的突破正是在效率方面。
怪不得它的全名可以叫Bigger、Better、Faster。
而且它還能只在單卡上完成訓練,算力要求也降低許多。
BBF由GoogleDeepMind和蒙特婁大學共同提出,目前資料和程式碼都已開源。
最高可取得人類5倍成績
用來評估BBF遊戲表現的數值,叫做IQM。
IQM是多方面遊戲表現的綜合得分,本文中的IQM成績以人類為基準進行了歸一化處理。
經與多個前人成果相比較,BBF在包含26款雅達利遊戲的Atari 100K測試資料集中取得了最高的IQM成績。
並且,在訓練過的26款遊戲中,BBF的成績已經超過人類了。
與表現相似的Eff.Zero相比,BBF消耗的GPU時間縮短了將近一半。
而消耗GPU時間相似的SPR和SR-SPR,效能又和BBF差了一截斷。
圖片
而在重複進行的測驗中,BBF達到某一IQM分數的比例始終保持著較高水準。
甚至有超過總測試次數1/8的運行當中取得了5倍於人類的成績。
圖片
即使加上其他沒有訓練過的雅達利遊戲,BBF也能取得超過人類一半的分數IQM分數。
而如果單獨看未訓練的這29款遊戲,BBF的得分是人類的四至五成。
圖片
以SR-SPR為基礎修改
推動BBF研究的問題是,如何在樣本量稀少的情況下擴展深度強化學習網路。
為了研究這個問題,DeepMind將目光聚焦在了Atari 100K基準上。
但DeepMind很快就發現,單純增大模型規模並不能提升其表現。
圖片
在深度學習模型的設計中,每步驟更新次數(Replay Ratio,RR)是一項重要參數。
具體到雅達利遊戲,RR值越大,模型在遊戲中取得的成績越高。
最終,DeepMind以SR-SPR作為基礎引擎,SR-SPR的RR值最高可達16。
而DeepMind經過綜合考慮,選擇了8作為BBF的RR值。
考慮到部分使用者不願意花費RR=8的運算成本,DeepMind同時開發了RR=2版本的BBF
圖片
- 更高的捲積層重置強度:提高卷積層重置強度可以增加面向隨機目標的擾動幅度,讓模型表現更好並減少損失,BBF的重置強度增加後,擾動幅度從SR-SPR的20%提高到了50%
- 更大的網路規模:將神經網路層數從3層提高至15層,寬度也增加4倍
- #更新範圍(n)縮小:想要提升模型的表現,需要使用非固定的n值。 BBF每4萬個梯度步驟重置一次,每次重置的前1萬個梯度步驟中,n以指數形式從10下降至3,衰減階段佔BBF訓練過程的25%
- 更大的衰減因子(γ):有人發現增大學習過程中的γ值可以提高模型表現,BBF的γ值從傳統的0.97增加到0.997
- 權重衰減:避免過度擬合的出現, BBF的衰減量約為0.1
- 刪除NoisyNet:原始SR-SPR中包含的NoisyNet不能提高模型表現
消融實驗結果表明,在每步更新次數為2和8的條件下,上述因素對BBF的表現均有不同程度的影響。
圖片
其中,硬重置和更新範圍的縮小影響最為顯著。
圖片
而對於上面兩個圖中沒有提到的NoisyNet,對模型表現的影響則並不顯著。
圖片
參考鏈接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4
[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/
— 完 —
以上是兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲的詳細內容。更多資訊請關注PHP中文網其他相關文章!

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它:認知(了解正在發生的事情)、欣賞(看到好處)、接納(面對挑戰)和責任(弄清我們的責任)。 認知:人工智能無處不在,並且發展迅速 我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進,在數學和復雜思維測試中取得了優異的成績,而就在一年前,它們還在這些測試中慘敗。想像一下,人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年

Meta的Llama 3.2:多模式和移動AI的飛躍 Meta最近公佈了Llama 3.2,這是AI的重大進步,具有強大的視覺功能和針對移動設備優化的輕量級文本模型。 以成功為基礎

本週的AI景觀:進步,道德考慮和監管辯論的旋風。 OpenAI,Google,Meta和Microsoft等主要參與者已經釋放了一系列更新,從開創性的新車型到LE的關鍵轉變

連接的舒適幻想:我們在與AI的關係中真的在蓬勃發展嗎? 這個問題挑戰了麻省理工學院媒體實驗室“用AI(AHA)”研討會的樂觀語氣。事件展示了加油

介紹 想像一下,您是科學家或工程師解決複雜問題 - 微分方程,優化挑戰或傅立葉分析。 Python的易用性和圖形功能很有吸引力,但是這些任務需要強大的工具

Meta's Llama 3.2:多式聯運AI強力 Meta的最新多模式模型Llama 3.2代表了AI的重大進步,具有增強的語言理解力,提高的準確性和出色的文本生成能力。 它的能力t

數據質量保證:與Dagster自動檢查和良好期望 保持高數據質量對於數據驅動的業務至關重要。 隨著數據量和源的增加,手動質量控制變得效率低下,容易出現錯誤。

大型機:AI革命的無名英雄 雖然服務器在通用應用程序上表現出色並處理多個客戶端,但大型機是專為關鍵任務任務而建立的。 這些功能強大的系統經常在Heavil中找到


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

記事本++7.3.1
好用且免費的程式碼編輯器

SecLists
SecLists是最終安全測試人員的伙伴。它是一個包含各種類型清單的集合,這些清單在安全評估過程中經常使用,而且都在一個地方。 SecLists透過方便地提供安全測試人員可能需要的所有列表,幫助提高安全測試的效率和生產力。清單類型包括使用者名稱、密碼、URL、模糊測試有效載荷、敏感資料模式、Web shell等等。測試人員只需將此儲存庫拉到新的測試機上,他就可以存取所需的每種類型的清單。

MinGW - Minimalist GNU for Windows
這個專案正在遷移到osdn.net/projects/mingw的過程中,你可以繼續在那裡關注我們。 MinGW:GNU編譯器集合(GCC)的本機Windows移植版本,可自由分發的導入函式庫和用於建置本機Windows應用程式的頭檔;包括對MSVC執行時間的擴展,以支援C99功能。 MinGW的所有軟體都可以在64位元Windows平台上運作。

ZendStudio 13.5.1 Mac
強大的PHP整合開發環境