首頁 >科技週邊 >人工智慧 >AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB轉載: 2023-04-12 19:25:011763瀏覽

AI看70000小時《我的世界》視頻，能達到一個什麼水平？

以「鑽石鎬」（diamond pickaxe）為例，這個東西高級人類玩家要快速點擊20分鐘、約2.4萬個動作才能完成。

而現在的AI，已然能夠輕鬆hold住了。

噠噠找到各種材料，一步步進行各種合成：

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

#這就是來自OpenAI號稱最強的《我的世界》AI— —MineDojo。

它也是全世界第一個能夠打造「鑽石工具」的AI。

不僅如此，像是打造「石鎬」、「簡易避難所」都不在話下：

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

當然，在《我的世界》裡其它的常規操作，在MineDojo手裡也游刃有餘。

例如游泳、狩獵、支柱跳等等：

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

至於OpenAI為什麼要讓AI學會這些技巧，研究人員Bowen Baker表示：

很大程度上是因為我們在模擬人類上網時的行為。

MineDojo是如何煉成的？

正如我們剛才提到的，MineDojo的“煉成之道”，就是看影片。

這些影片內容都是人類玩家發佈在油管上，展示自己如何玩《我的世界》的。

然後在看完70000小時影片之後，這個AI就學會瞭如何執行遊戲中的各種任務。

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

這種方式一般稱為模仿學習（imitation learning），就是訓練神經網路透過觀察人類行為來學習。

雖然先前也有許多相關研究，但仍有一些問題尚待解決。

「貼標籤」就是其中之一。

傳統方式就是在每一個動作上貼上標籤：這麼做會發生這件事、那麼做會發生那件事。

但這種方式可想而知的後果，就是工作量太大了，導致可以用來訓練的資料較少。

因此，OpenAI的研究人員便另闢蹊徑，想出了不一樣的研究思路－影片預訓練（Video Pre-Training，VPT）：

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

這個方法的核心思路，就是訓練另一個神經網絡，專門來處理繁瑣的「貼標籤」的工作。

為此，研究人員先是找來一批玩家讓他們先玩《我的世界》，當然，娛樂的同時也要記錄下鍵盤、滑鼠的點擊次數。

如此一來，研究人員先是得到了2000小時標記的一些資料。

在這基礎上，他們便開始訓練一個模型，來匹配鍵盤、滑鼠動作和螢幕上的結果——

例如在什麼情況下點下滑鼠，會讓遊戲中的角色揮舞斧頭。

把這個模型訓練出來之後，就要引入70000小時沒有標籤的影片了；在它的加持下，龐大且可用的資料集就誕生了。

再接下來，就是回到之前模仿學習的思路，用這些新資料來訓練AI。

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

雖然說模仿學習可以說是強化學習的一個分支，但OpenAI的研究人員發現，VPT訓出來的AI，能夠完成單靠強化學習無法完成的任務。

例如製作木板並把它們變成一張桌子（大約需要970個連續動作）。

不只如此，研究人員還發現，若是把模仿學習和強化學習做個結合，那麼效果是最好的。

而由《我的世界》這次的研究拓展開來，OpenAI的研究人員也表示：

我們的AI還可以執行其它任務，例如滑鼠瀏覽網站、預訂航班或線上購物。

《我的世界》已經成為AI技術試驗田

其實OpenAI這次研究的亮點，刨除VPT方法本身，其研究的兩大要素－《我的世界》和視頻，也成為人們熱議的焦點。

《我的世界》這款遊戲的一大特點就是開放性，玩家可以在這個虛擬世界中做出許多意想不到的傑作。

不同於以往強化學習訓練AI的遊戲環境，大多都是以「輸贏」為結果而終止了，但往往AI後期訓練出來的能力可能是超越這種「限制」的。

但《我的世界》就沒有「輸贏」之說了，AI可以在這裡盡情的發揮。因此OpenAI研究人員表示：

《我的世界》是訓練AI很好的試驗田。

而這也贏得了NeurIPS的認可－MineDojo拿下了今年這個頂會的獎項。

至於這項研究第二個熱門點“影片”，正如索尼執行董事Peter Stone所述：

影片是一種潛力巨大的培訓資源。

但似乎OpenAI的研究人員還不滿足此次的成果，他們認為，收集100萬小時《我的世界》的視頻，會讓它們的AI變得更加出色。

當然，這項研究也引來不少網友們的圍觀，也有一些比較有意思的討論：

人們想讓AI有意識，但它們有意識之後才發覺，自己需要被迫看這麼久的視頻，有夠累的。

AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦

論文網址：https://openai.com/blog/vpt/

參考連結：

[1]https ://www.reddit.com/r/technology/comments/z58fmi/a_bot_that_watched_70000_hours_of_minecraft_could/

[2]https://www.youtube.com/watch?v=Z2FsxrRmDPQ[3]https:// www.youtube.com/watch?v=fJn9B64Znrk

以上是AI看了70000小時《我的世界》影片學會人類高級技巧，網友：它好痛苦的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：火爆的GPT-4來了！下一篇：火爆的GPT-4來了！

看更多