最近,似乎早已把GPT拋在腦後的OpenAI又整了個新活。
在經過大量無標註影片以及一點點標註過的資料訓練之後,AI終於學會了在「我的世界」(Minecraft)裡製作鑽石鎬。
而整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成,總計要操作24000次。
這個東西吧,看似簡單,但對AI來說卻非常困難。
7歲小孩看10分鐘就能學會
#對於最簡單的木鎬,讓人類玩家從頭開始學習過程並不太難。
一個死宅不到3分鐘用單一影片就能教會下一個。
示範影片全長2分52秒
#然而,鑽石鎬的製作就複雜多了。
不過即便如此,一個7歲小孩也只需看上十分鐘的演示視頻,就能學會了。
這個任務的困難點,主要在如何挖到鑽石礦。
過程大概可以概括為12個步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊製作木棍,木棍製作工坊裝具台,工台造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠製作鐵鎬,鐵鎬去挖鑽石。
現在,壓力來到了AI這邊。
正巧,CMU、OpenAI、DeepMind、Microsoft Research等機構自2019年起,就搞了一個相關的比賽——MineRL。
參賽者需要自研出一個「自主從零開始打造工具、自動尋找並挖掘鑽石礦」的人工智慧體,而獲勝條件也很簡單—最快者勝出。
結果如何?
在首屆MineRL比賽結束之後,「7歲小孩看10分鐘影片就學會,AI用了8百萬步還搞不定」,可是上了Nature雜誌的。
「我的世界」作為沙盒建築遊戲,其玩家策略、遊戲內虛擬環境的高開放性,特別適合作為各種AI模型學習、決策能力的測試場和試金石。
而且作為一款「國民級」的遊戲,想在網路上找到和「我的世界」相關的影片簡直易如反掌。
然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來說都只是在畫面上呈現出的結果。
#換句話說,看影片的人只能知道up主幹了個啥,幹的怎麼樣,但沒辦法知道是怎麼幹的。
更具體點,電腦螢幕上呈現出來的只是結果,而操作步驟是up主在鍵盤上的不停點擊,以及滑鼠的不停移動,這部分是看不到的。
甚至,連這個過程都是經過剪輯的,人看了估計都學不會,更別說AI了。
雪上加霜的是,不少玩家抱怨在遊戲裡刨木頭的枯燥度,太像做作業完成任務。結果一波更新之後,有不少工具可以直接白撿……這下,連數據都不好找了。
而OpenAI想要讓AI學會玩兒「我的世界」,就必須找到一個辦法,能夠讓這些海量的未標註的視頻數據派上用場。
於是,VPT應運而出。
論文網址:https://cdn.openai.com/vpt/Paper.pdf
#這東西說新也新,但是卻不複雜,是一種半監督式的模仿學習方法。
首先,收集一波資料標註外包們玩遊戲的數據,其中包含影片和鍵鼠操作的記錄。
VPT方法概述
#然後,研究人員用這些資料搞了一個逆動力學模型(inverse dynamics model,IDM),可以推測出影片中每一步進行的時候,鍵鼠都是怎麼動的。
這樣一來,整個任務就變得簡單多了,只需要比原來少很多的資料就可以實現目的。
用一小撮外包資料搞完IDM之後,就可以用IDM接下來標註更大規模的無標記資料集了。
基礎模型訓練資料對微調的影響
在訓練了70000小時以後,OpenAI的行為克隆模型就能實現各種別的模型都做不到的工作了。
模型學會了怎麼砍樹收集木頭,怎麼用木頭做木條,怎麼用木條做桌子。而這套事兒需要一個比較熟練的玩家操作小50秒的時間。
除了做桌子,模型還能游泳,打獵,吃東西。
甚至還有「跑跳搭」的騷操作,也就是起跳的時候腳下放個磚塊或木塊,跳著跳著就能搭個柱子。這屬於是骨灰級玩家的必修課了。
製作桌子(0 shot)
#打獵(0 shot)
「跑跳搭」簡單版(0 shot)
而為了讓模型能完成一些更精細的任務,一般還會把資料集微調成更小的規模,區分細小的方向。
OpenAI做了一項研究,展示了用VPT訓練過的模型,再經過了微調之後,有多適應下游的資料集。
研究人員邀請人玩兒了10分鐘的「我的世界」,用基礎材料搭了個房子。他們希望透過這種方式可以加強模型執行一些遊戲初期的任務的能力,比如說搭一個工作台。
當對此資料集進行完微調以後,研究人員不僅發現模型在執行初期任務時更加得心應手,還發現模型自個兒研究明白了怎麼分別做出一張木制的工作台,和一張石製的工具台。
有時候,研究人員還能看到模型自己搭建簡陋的避難所,搜查村子,還有搶箱子。
製作石頭鎬的整個過程(下方標註的時間是熟練玩家執行同樣的任務的耗時)
製作石鎬
然後我們來看看,OpenAI的專家們是怎麼進行的微調。
他們使用的方法是,強化學習(RL)。
大多數RL方法透過隨機探索先驗來解決這些挑戰,例如模型通常被激勵透過熵獎勵隨機行動。 VPT 模型應該是RL更好的先驗模型,因為模擬人類行為可能比採取隨機行動更有幫助。
研究人員將模型設定為收集鑽石鎬這類艱鉅任務,這是「我的世界」中前所未有的功能,因為執行整個任務時使用本機人機介面時會變得更加困難。
製作鑽石鎬需要一系列漫長而複雜的子任務。為了使這項任務易於處理,研究人員為序列中的每個項目獎勵智能體。
他們發現,從隨機初始化(標準RL方法)訓練的RL策略幾乎沒有獲得任何獎勵,從不學習收集日誌,而且很少收集木棍。
與之形成鮮明對比的是,VPT模型的微調不僅可以學習如何製作鑽石鎬,而且在收集所有物品方面的成功率,甚至達到人類水平。
而這是第一次有人展示能夠在「我的世界」中製作鑽石工具的電腦模型。
以上是驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭的詳細內容。更多資訊請關注PHP中文網其他相關文章!