生成模型建立互動式現實世界模擬器，LeCun覺得非常酷-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

王林

Oct 12, 2023 pm 05:17 PM

模型學習

基於網路資料訓練的生成模型徹底改變了文字、圖像和影片內容的創建方式。有研究者預測，也許生成模型的下一個里程碑是能夠模擬人類體驗世界的各個層面，例如在公路上如何駕駛汽車，又例如如何準備餐點。

現今，借助非常全面的真實世界模擬器（real-world simulator），人類可以與不同場景和物體進行交互，機器人也可以從模擬經驗中進行學習，從而避免物理損壞的風險。

然而，建構這樣一個真實世界模擬器的主要障礙之一在於可用的資料集。儘管網路上有數十億的文字、圖像和影片片段，但不同的資料集涵蓋不同的資訊軸，必須將這些資料集整合在一起才能模擬出對世界的真實體驗。例如，成對的文字影像資料包含豐富的場景和對象，但很少有動作；視訊字幕和問答資料包含豐富的高級活動描述，但很少有低階運動細節；人類活動資料包含豐富的人類動作，但很少有機械運動；而機器人數據包含豐富的機器人動作，但數量有限

以上列舉的信息差異是自然的且難以克服，這給構建一個旨在捕捉現實世界真實體驗的真實世界模擬器帶來了困難。

本文中，來自UC 柏克萊、Google DeepMind、MIT 等機構的研究者探索了透過產生模型學習真實世界互動的通用模擬器UniSim，邁出了建立通用模擬器的第一步。例如 UniSim 可以透過模擬「打開抽屜」等高階指令和低階指令的視覺結果來模擬人類和智慧體如何與世界互動。

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

#論文網址：https://arxiv.org/pdf/2310.06114.pdf
論文首頁：https://universal-simulator.github.io/unisim/

本文將大量數據（包括互聯網文本- 圖像對，來自導航、人類活動、機器人動作等的豐富數據，以及來自模擬和渲染的數據）結合到一個條件視頻生成框架中。然後透過仔細編排沿著不同軸的豐富數據，本文表明 UniSim 可以成功地合併不同軸數據的經驗並泛化到數據之外，透過對靜態場景和物件的細粒度運動控制來實現豐富的互動。

下面影片示範了UniSim 如何模擬具有長互動視界的範例，影片顯示UniSim 一口氣模擬了機器人八個動作指令：

UniSim 對人類動作的模擬：

UniSim 對RL 策略的模擬部署如下所示：

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

##Meta首席AI科學家Yann LeCun和英偉達高級研究科學家Jim Fan等行業專家對這項研究進行了轉發。 LeCun對此給出了一個「酷」的評價

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

Jim Fan表示，這項工作非常有趣。視訊擴散模型被用作數據驅動的物理模擬，其中智能體可以規劃、探索和學習最優行動，而無需接觸機器人硬體或造成任何損害。可以說，LLM不僅是一個作業系統，也是一個完整的現實模擬器

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

#論文的第一作者，加州大學柏克萊分校的博士生Sherry Yang表示，「學習現實世界模型正在成為現實。」

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

模擬現實世界的互動

根據圖3所示，UniSim可以模擬廚房場景中的一系列豐富動作，包括洗手、拿碗、切胡蘿蔔和擦乾手。圖3右上方顯示了不同的開關，而圖3底部則展示了兩個導航場景

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

#需要改寫的內容是：對應於圖3右下方的導航場景

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

對應上圖3右下的導航場景

以下圖4 展示了一個UniSim 自回歸地順序模擬8 個互動的例子，在長程模擬方面

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

UniSim不僅支援豐富的動作和長程交互，也能夠實現高度多樣化和隨機的環境變換。例如，在移除頂部的毛巾後，顯示的物件具有多樣性（見下圖5左）

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

#UniSim 在真實世界遷移的結果。 UniSim 的真正價值在於模擬現實世界，圖 7 顯示了 VLM 生成的語言規劃，UniSim 根據語言規劃生成的視頻，以及在真實機器人上的執行情況。

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

除了測試UniSim 在真實世界的遷移能力之外，本文也進行了基於模擬器的評估，結果如表2 所示：

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷

用於強化學習的真實世界模擬器

實驗也評估了UniSim 在模擬真實機器人執行各種動作方面的品質如何，機器人透過重複執行低階控制操作約20-30 個步驟來左、右、下、上移動端點。表 3 顯示，RL 訓練顯著提高了 VLA 策略在各種任務中的效能，尤其是在指向藍色區塊等任務中。然後，本文直接將在 UniSim 中訓練的 RL 策略零樣本部署到真實機器人上，如圖 8（底行）所示。

生成模型建立互動式現實世界模擬器，LeCun覺得非常酷