DeepMind的AI智能體,又來捲自己了!
注意看,這個名叫BBF的傢伙,只用2個小時,就掌握了26款雅達利遊戲,效率和人類相當,超越了自己一眾前輩。
要知道,AI智能體透過強化學習解決問題的效果一直都不錯,但最大的問題就在於這種方式效率很低,需要很長時間摸索。
圖片
而BBF帶來的突破正是在效率方面。
怪不得它的全名可以叫Bigger、Better、Faster。
而且它還能只在單卡上完成訓練,算力要求也降低許多。
BBF由GoogleDeepMind和蒙特婁大學共同提出,目前資料和程式碼都已開源。
用來評估BBF遊戲表現的數值,叫做IQM。
IQM是多方面遊戲表現的綜合得分,本文中的IQM成績以人類為基準進行了歸一化處理。
經與多個前人成果相比較,BBF在包含26款雅達利遊戲的Atari 100K測試資料集中取得了最高的IQM成績。
並且,在訓練過的26款遊戲中,BBF的成績已經超過人類了。
與表現相似的Eff.Zero相比,BBF消耗的GPU時間縮短了將近一半。
而消耗GPU時間相似的SPR和SR-SPR,效能又和BBF差了一截斷。
圖片
而在重複進行的測驗中,BBF達到某一IQM分數的比例始終保持著較高水準。
甚至有超過總測試次數1/8的運行當中取得了5倍於人類的成績。
圖片
即使加上其他沒有訓練過的雅達利遊戲,BBF也能取得超過人類一半的分數IQM分數。
而如果單獨看未訓練的這29款遊戲,BBF的得分是人類的四至五成。
圖片
推動BBF研究的問題是,如何在樣本量稀少的情況下擴展深度強化學習網路。
為了研究這個問題,DeepMind將目光聚焦在了Atari 100K基準上。
但DeepMind很快就發現,單純增大模型規模並不能提升其表現。
圖片
在深度學習模型的設計中,每步驟更新次數(Replay Ratio,RR)是一項重要參數。
具體到雅達利遊戲,RR值越大,模型在遊戲中取得的成績越高。
最終,DeepMind以SR-SPR作為基礎引擎,SR-SPR的RR值最高可達16。
而DeepMind經過綜合考慮,選擇了8作為BBF的RR值。
考慮到部分使用者不願意花費RR=8的運算成本,DeepMind同時開發了RR=2版本的BBF
圖片
##DeepMind對SR-SPR中的多項內容進行修改之後,採用自監管訓練得到了BBF,主要包括以下幾個方面:消融實驗結果表明,在每步更新次數為2和8的條件下,上述因素對BBF的表現均有不同程度的影響。
圖片
其中,硬重置和更新範圍的縮小影響最為顯著。
圖片
而對於上面兩個圖中沒有提到的NoisyNet,對模型表現的影響則並不顯著。
圖片
參考鏈接:[1]https://www.php.cn/link/69b4fa3be19bdf400df34e41b93636a4
[2]https://www.marktechpost.com/2023/06/12/superhuman-performance-on-the-atari-100k-benchmark-the-power-of-bbf-a-new-value -based-rl-agent-from-google-deepmind-mila-and-universite-de-montreal/
— 完 —
以上是兩小時就能超過人類! DeepMind最新AI速通26款雅達利遊戲的詳細內容。更多資訊請關注PHP中文網其他相關文章!