最近,似乎早已把GPT拋在腦後的OpenAI又整了個新活。
在經過大量無標註影片以及一點點標註過的資料訓練之後,AI終於學會了在「我的世界」(Minecraft)裡製作鑽石鎬。
而整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成,總計要操作24000次。
這個東西吧,看似簡單,但對AI來說卻非常困難。
7歲小孩看10分鐘就能學會
#對於最簡單的木鎬,讓人類玩家從頭開始學習過程並不太難。
一個死宅不到3分鐘用單一影片就能教會下一個。
示範影片全長2分52秒
#然而,鑽石鎬的製作就複雜多了。
不過即便如此,一個7歲小孩也只需看上十分鐘的演示視頻,就能學會了。
這個任務的困難點,主要在如何挖到鑽石礦。
過程大概可以概括為12個步驟:先徒手刨下像素塊「木頭」,再由原木合成木塊,木塊製作木棍,木棍製作工坊裝具台,工台造木鎬,木鎬敲石塊,石塊加木棍做石鎬,石鎬打造煉爐,煉爐加工鐵礦,鐵礦熔鑄鐵錠,鐵錠製作鐵鎬,鐵鎬去挖鑽石。
現在,壓力來到了AI這邊。
正巧,CMU、OpenAI、DeepMind、Microsoft Research等機構自2019年起,就搞了一個相關的比賽——MineRL。
參賽者需要自研出一個「自主從零開始打造工具、自動尋找並挖掘鑽石礦」的人工智慧體,而獲勝條件也很簡單—最快者勝出。
結果如何?
在首屆MineRL比賽結束之後,「7歲小孩看10分鐘影片就學會,AI用了8百萬步還搞不定」,可是上了Nature雜誌的。
資料雖多,但我用不上啊
「我的世界」作為沙盒建築遊戲,其玩家策略、遊戲內虛擬環境的高開放性,特別適合作為各種AI模型學習、決策能力的測試場和試金石。
而且作為一款「國民級」的遊戲,想在網路上找到和「我的世界」相關的影片簡直易如反掌。
然而,不管是搭建教程,還是炫耀自己的作品,從某種程度上來說都只是在畫面上呈現出的結果。
換句話說,看影片的人只能知道up主幹了個啥,幹的怎麼樣,但沒辦法知道是怎麼幹的。
更具體點,電腦螢幕上呈現出來的只是結果,而操作步驟是up主在鍵盤上的不停點擊,以及滑鼠的不停移動,這部分是看不到的。
甚至,連這個過程都是經過剪輯的,人看了估計都學不會,更別說AI了。
雪上加霜的是,不少玩家抱怨在遊戲裡刨木頭的枯燥度,太像做作業完成任務。結果一波更新之後,有不少工具可以直接白撿……這下,連數據都不好找了。
而OpenAI想要讓AI學會玩兒「我的世界」,就必須找到一個辦法,能夠讓這些海量的未標註的視頻數據派上用場。
影片預訓練模型-VPT
於是,VPT應運而出。
論文網址:https://cdn.openai.com/vpt/Paper.pdf
#這東西說新也新,但是卻不複雜,是一種半監督式的模仿學習方法。
首先,收集一波資料標註外包們玩遊戲的數據,其中包含影片和鍵鼠操作的記錄。
VPT方法概述
#然後,研究人員用這些資料搞了一個逆動力學模型(inverse dynamics model,IDM),可以推測出影片中每一步進行的時候,鍵鼠都是怎麼動的。
這樣一來,整個任務就變得簡單多了,只需要比原來少很多的資料就可以實現目的。
用一小撮外包資料搞完IDM之後,就可以用IDM接下來標註更大規模的無標記資料集了。
基礎模型訓練資料對微調的影響
在訓練了70000小時以後,OpenAI的行為克隆模型就能實現各種別的模型都做不到的工作了。
模型學會了怎麼砍樹收集木頭,怎麼用木頭做木條,怎麼用木條做桌子。而這套事兒需要一個比較熟練的玩家操作小50秒的時間。
除了做桌子,模型還能游泳,打獵,吃東西。
甚至還有「跑跳搭」的騷操作,也就是起跳的時候腳下放個磚塊或木塊,跳著跳著就能搭個柱子。這屬於是骨灰級玩家的必修課了。
製作桌子(0 shot)
#打獵(0 shot)
「跑跳搭」簡單版(0 shot)
而為了讓模型能完成一些更精細的任務,一般還會把資料集微調成更小的規模,區分細小的方向。
OpenAI做了一項研究,展示了用VPT訓練過的模型,再經過了微調之後,有多適應下游的資料集。
研究人員邀請人玩兒了10分鐘的「我的世界」,用基礎材料搭了個房子。他們希望透過這種方式可以加強模型執行一些遊戲初期的任務的能力,比如說搭一個工作台。
當對此資料集進行完微調以後,研究人員不僅發現模型在執行初期任務時更加得心應手,還發現模型自個兒研究明白了怎麼分別做出一張木制的工作台,和一張石製的工具台。
有時候,研究人員還能看到模型自己搭建簡陋的避難所,搜查村子,還有搶箱子。
製作石頭鎬的整個過程(下方標註的時間是熟練玩家執行同樣的任務的耗時)
製作石鎬
然後我們來看看,OpenAI的專家們是怎麼進行的微調。
他們使用的方法是,強化學習(RL)。
大多數RL方法透過隨機探索先驗來解決這些挑戰,例如模型通常被激勵透過熵獎勵隨機行動。 VPT 模型應該是RL更好的先驗模型,因為模擬人類行為可能比採取隨機行動更有幫助。
研究人員將模型設定為收集鑽石鎬這類艱鉅任務,這是「我的世界」中前所未有的功能,因為執行整個任務時使用本機人機介面時會變得更加困難。
製作鑽石鎬需要一系列漫長而複雜的子任務。為了使這項任務易於處理,研究人員為序列中的每個項目獎勵智能體。
他們發現,從隨機初始化(標準RL方法)訓練的RL策略幾乎沒有獲得任何獎勵,從不學習收集日誌,而且很少收集木棍。
與之形成鮮明對比的是,VPT模型的微調不僅可以學習如何製作鑽石鎬,而且在收集所有物品方面的成功率,甚至達到人類水平。
而這是第一次有人展示能夠在「我的世界」中製作鑽石工具的電腦模型。
以上是驚呆了!訓練7萬小時後,OpenAI的模型竟然學會在「我的世界」刨木頭的詳細內容。更多資訊請關注PHP中文網其他相關文章!

由於AI的快速整合而加劇了工作場所的迅速危機危機,要求戰略轉變以外的增量調整。 WTI的調查結果強調了這一點:68%的員工在工作量上掙扎,導致BUR

約翰·塞爾(John Searle)的中國房間論點:對AI理解的挑戰 Searle的思想實驗直接質疑人工智能是否可以真正理解語言或具有真正意識。 想像一個人,對下巴一無所知

與西方同行相比,中國的科技巨頭在AI開發方面的課程不同。 他們不專注於技術基準和API集成,而是優先考慮“屏幕感知” AI助手 - AI T

MCP:賦能AI系統訪問外部工具 模型上下文協議(MCP)讓AI應用能夠通過標準化接口與外部工具和數據源交互。由Anthropic開發並得到主要AI提供商的支持,MCP允許語言模型和智能體發現可用工具並使用合適的參數調用它們。然而,實施MCP服務器存在一些挑戰,包括環境衝突、安全漏洞以及跨平台行為不一致。 Forbes文章《Anthropic的模型上下文協議是AI智能體發展的一大步》作者:Janakiram MSVDocker通過容器化解決了這些問題。基於Docker Hub基礎設施構建的Doc

有遠見的企業家採用的六種策略,他們利用尖端技術和精明的商業敏銳度來創造高利潤的可擴展公司,同時保持控制。本指南是針對有抱負的企業家的,旨在建立一個

Google Photos的新型Ultra HDR工具:改變圖像增強的遊戲規則 Google Photos推出了一個功能強大的Ultra HDR轉換工具,將標準照片轉換為充滿活力的高動態範圍圖像。這種增強功能受益於攝影師

技術架構解決了新興的身份驗證挑戰 代理身份集線器解決了許多組織僅在開始AI代理實施後發現的問題,即傳統身份驗證方法不是為機器設計的

(注意:Google是我公司的諮詢客戶,Moor Insights&Strateging。) AI:從實驗到企業基金會 Google Cloud Next 2025展示了AI從實驗功能到企業技術的核心組成部分的演變,


熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

VSCode Windows 64位元 下載
微軟推出的免費、功能強大的一款IDE編輯器

Atom編輯器mac版下載
最受歡迎的的開源編輯器

EditPlus 中文破解版
體積小,語法高亮,不支援程式碼提示功能

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 英文版
推薦:為Win版本,支援程式碼提示!