搜尋
首頁科技週邊人工智慧南大俞揚深度解讀:什麼是「世界模型」?

隨著媒體狂炒Sora,OpenAI的介紹資料中稱Sora是「world simulator」,世界模型這個字又進入視野,但很少有文章來介紹世界模型。

這裡回顧一下什麼是世界模型,以及討論Sora是不是world simulator。

什麼是world models/世界模型

#當AI領域中講到世界/world、環境/environment這個字的時候,通常是為了與智能體/agent加以區分。

研究智能體最多的領域,一個是強化學習,一個是機器人領域。

因此可以看到,world models、world modeling最早也最常出現在機器人領域的論文中。

而今天world models這個詞影響最大的,可能是Jurgen 2018年放到arxiv的這篇以“world models”命名的文章,該文章最終以“Recurrent World Models Facilitate Policy Evolution」的title發表在NeurIPS'18。

南大俞揚深度解讀:什麼是「世界模型」?

論文中並沒有定義什麼是World models,而是類比了認知科學中人腦的mental model,引用了1971年的文獻。

南大俞揚深度解讀:什麼是「世界模型」?

mental model是人腦對週邊世界的鏡像

Wikipedia中介紹的mental model,很明確的指出其可能參與認知、推理、決策過程。並且說到mental model主要包含mental representations和mental simulation兩部分。

an internal representation of external reality, hypothesized to play a major role in cognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who sugginded thats small-scale models" of reality that it uses to anticipate events.

到這裡還是說得雲霧繚繞,那麼論文中的結構圖一目了然的說明了什麼是一個world model。

南大俞揚深度解讀:什麼是「世界模型」?

圖中縱向V->z是觀測的低維度表徵,用VAE實現,水平的M->h-> M->h是序列的預測下一個時刻的表徵,用RNN實現,這兩部分加起來就是World Model。

也就是說,World model的主要包含狀態表徵和轉移模型,這也剛好對應mental representations和mental simulation。

看到上面這張圖可能會想,這不是所有的序列預測都是world model了?

其實熟悉強化學習的同學能一眼看出來,這張圖的結構是錯誤(不完整)的,而真正的結構是下面這張圖,RNN的輸入不僅是z,還有動作action,這就不是通常的序列預測了(加一個動作會很不一樣嗎?是的,加入動作可以讓資料分佈自由變化,帶來巨大的挑戰)。

南大俞揚深度解讀:什麼是「世界模型」?

Jurgen的這篇論文屬於強化學習領域。

那麼,強化學習裡不是有很多model-based RL嗎,其中的model跟world model有什麼差別?答案是沒有差別,就是同一個東西。 Jurgen先說了一段

南大俞揚深度解讀:什麼是「世界模型」?

基本意思就是,不管有多少model-based RL工作,我是RNN先驅,RNN來做model是我發明的,我就是要搞。

在Jurgen文章的早期版本中,也說到很多model-based RL,雖然學了model,但並沒有完全在model中訓練RL。

南大俞揚深度解讀:什麼是「世界模型」?

#

沒有完全在model中訓練RL,實際上並不是model-based RL的model有什麼區別,而是model-based RL這個方向長久以來的無奈:model不夠準確,完全在model裡訓練的RL效果很差。這一問題直到近幾年才解決。

聰明的Sutton在很久以前就意識到model不夠準確的問題。在1990年提出Dyna框架的論文Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming(發表在第一次從workshop變成conference的ICML上),管這個model叫action model,強調預測action執行的結果。

RL一邊從真實資料中學習(第3行),一邊從model中學習(第5行),以防model不準確造成策略學不好。

南大俞揚深度解讀:什麼是「世界模型」?

可以看到,world model對於決策十分重要。如果能獲得準確的world model,那就可以透過在world model中就反覆試錯,找到現實最優決策。

這就是world model的核心作用:反事實推理/Counterfactual reasoning , 也就是說,即使對於資料中沒有見過的決策,在world model中都能推理出決策的結果。

了解因果推理的同學會很熟悉反事實推理這個詞,在圖靈獎得主Judea Pearl的科普讀物The book of why中繪製了一副因果階梯,最下層是「關聯」,也就是今天大部分預測模型主要在做的事;中間層是「幹預」,強化學習中的探索就是典型的干預;最上層是反事實,透過想像回答what if問題。 Judea為反事實推理繪製的示意圖,是科學家在大腦中想像,這與Jurgen在論文中使用的示意圖異曲同工。

南大俞揚深度解讀:什麼是「世界模型」?

左:Jurgen論文中的世界模型示意圖。右:Judea書中的因果階梯。

到這裡我們可以總結,AI研究者對world model的追求,是試圖超越數據,進行反事實推理,回答what if問題能力的追求。這是一種人類天然具備,而目前的AI還做得很差的能力。一旦產生突破,AI決策能力會大幅提升,實現全自動駕駛等場景應用。

Sora是不是world simulator

#simulator這個詞更多出現在工程領域,起作用與world model一樣,嘗試那些難以在現實世界實施的高成本高風險試誤。 OpenAI似乎希望重新組成一個詞組,但意思不變。

Sora產生的視頻,僅能透過模糊的提示詞引導,而難以進行準確的操控。因此它更多的是視頻工具,而難以作為反事實推理的工具去準確的回答what if問題。

甚至難以評價Sora的生成能力有多強,因為完全不清楚demo的影片與訓練資料的差異有多大。

更讓人失望的是,這些demo呈現出Sora並沒有準確的學到物理法則。已經看到有人指出了Sora生成視頻中不符合物理規律之處 [ OpenAI 發布文生視頻模型 Sora,AI 能理解運動中的物理世界,這是世界模型嗎?意味著什麼? ]

我猜OpenAI放出這些demo,應該基於非常足夠的訓練數據,甚至包括CG產生的數據。然而即便如此那些用幾個變數的方程式就能描述的物理規律還是沒有掌握。

OpenAI認為Sora證明了一條通往simulators of the physical world的路線,但看起來簡單的堆砌數據並不是通往更高級智慧技術的道路。

以上是南大俞揚深度解讀:什麼是「世界模型」?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述
本文轉載於:51CTO.COM。如有侵權,請聯絡admin@php.cn刪除
大多數使用的10個功率BI圖 - 分析Vidhya大多數使用的10個功率BI圖 - 分析VidhyaApr 16, 2025 pm 12:05 PM

用Microsoft Power BI圖來利用數據可視化的功能 在當今數據驅動的世界中,有效地將復雜信息傳達給非技術觀眾至關重要。 數據可視化橋接此差距,轉換原始數據i

AI的專家系統AI的專家系統Apr 16, 2025 pm 12:00 PM

專家系統:深入研究AI的決策能力 想像一下,從醫療診斷到財務計劃,都可以訪問任何事情的專家建議。 這就是人工智能專家系統的力量。 這些系統模仿Pro

三個最好的氛圍編碼器分解了這項代碼中的AI革命三個最好的氛圍編碼器分解了這項代碼中的AI革命Apr 16, 2025 am 11:58 AM

首先,很明顯,這種情況正在迅速發生。各種公司都在談論AI目前撰寫的代碼的比例,並且這些代碼的比例正在迅速地增加。已經有很多工作流離失所

跑道AI的Gen-4:AI蒙太奇如何超越荒謬跑道AI的Gen-4:AI蒙太奇如何超越荒謬Apr 16, 2025 am 11:45 AM

從數字營銷到社交媒體的所有創意領域,電影業都站在技術十字路口。隨著人工智能開始重塑視覺講故事的各個方面並改變娛樂的景觀

如何註冊5天ISRO AI免費課程? - 分析Vidhya如何註冊5天ISRO AI免費課程? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISRO的免費AI/ML在線課程:通向地理空間技術創新的門戶 印度太空研究組織(ISRO)通過其印度遙感研究所(IIR)為學生和專業人士提供了絕佳的機會

AI中的本地搜索算法AI中的本地搜索算法Apr 16, 2025 am 11:40 AM

本地搜索算法:綜合指南 規劃大規模活動需要有效的工作量分佈。 當傳統方法失敗時,本地搜索算法提供了強大的解決方案。 本文探討了爬山和模擬

OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮OpenAI以GPT-4.1的重點轉移,將編碼和成本效率優先考慮Apr 16, 2025 am 11:37 AM

該版本包括三種不同的型號,GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO,標誌著向大語言模型景觀內的特定任務優化邁進。這些模型並未立即替換諸如

提示:chatgpt生成假護照提示:chatgpt生成假護照Apr 16, 2025 am 11:35 AM

Chip Giant Nvidia週一表示,它將開始製造AI超級計算機(可以處理大量數據並運行複雜算法的機器),完全是在美國首次在美國境內。這一消息是在特朗普總統SI之後發布的

See all articles

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
4 週前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
1 個月前By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它們
1 個月前By尊渡假赌尊渡假赌尊渡假赌

熱工具

MantisBT

MantisBT

Mantis是一個易於部署的基於Web的缺陷追蹤工具,用於幫助產品缺陷追蹤。它需要PHP、MySQL和一個Web伺服器。請查看我們的演示和託管服務。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

將Eclipse與SAP NetWeaver應用伺服器整合。

VSCode Windows 64位元 下載

VSCode Windows 64位元 下載

微軟推出的免費、功能強大的一款IDE編輯器

SublimeText3 英文版

SublimeText3 英文版

推薦:為Win版本,支援程式碼提示!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強大的PHP整合開發環境