改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果-人工智慧-PHP中文網

首頁

科技週邊

人工智慧

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

王林

Sep 13, 2023 am 10:57 AM

模型訓練

近年来，大规模真实世界数据的视觉预训练取得了显著的进展，在基于像素观察的机器人学习中显示出巨大的潜力。然而，这些研究在预训练数据、方法和模型方面存在差异。因此，哪种类型的数据、预训练方法和模型可以更好地辅助机器人操控仍然是一个未决的问题

基于此，ByteDance Research 团队的研究者从预训练数据集、模型架构和训练方法三个基本角度全面研究了视觉预训练策略对机器人操作任务的影响，提供了一些有利于机器人学习的重要实验结果。此外，他们提出了一种名为 Vi-PRoM 的机器人操作视觉预训练方案，它结合了自监督学习和监督学习。其中前者采用对比学习从大规模未标记的数据中获取潜在模式，而后者旨在学习视觉语义和时序动态变化。在各种仿真环境和真实机器人中进行的大量机器人操作实验证明了该方案的优越性。

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

论文地址：https://arxiv.org/pdf/2308.03620.pdf
项目地址：https://explore-pretrain-robot.github.io/

基准研究

预训练数据

EgoNet比ImageNet更強大。通過對比學習方法在不同的數據集（即ImageNet和EgoNet）上預訓練視覺編碼器，並觀察它們在機器人操作任務中的表現。從下表1中可以看到，在EgoNet上預訓練的模型在機器人操作任務上取得了更好的性能。顯然，機器人在操作任務方面更傾向於視頻中包含的互動知識和時序關係。此外，EgoNet中以自我為中心的自然圖像具有更多關於世界的全局背景，這意味著可以學習更豐富的視覺特徵

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

模型结构

ResNet-50 表现更好。从下表 2 中可以看出 ResNet-50 和 ResNet-101 在机器人操作任务上的表现优于 ResNet-34。此外，随着模型从 ResNet-50 增加到 ResNet-101，性能并没有提高。

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

预训练方法

根据原文的意思，需要重写的内容是：“预训练方法首选对比学习。如下表 3 所示，MoCo-v3 在 ImageNet 和 EgoNet 数据集上均优于 MAE，这证明了对比学习与掩模图像建模相比更有效。此外，通过对比学习获得的视觉语义对于机器人操作来说比通过掩模图像建模学习的结构信息更重要。” 重写后的内容：对比学习是首选的预训练方法。从表3中可以看出，MoCo-v3在ImageNet和EgoNet数据集上都优于MAE，这表明对比学习比掩模图像建模更有效。此外，对比学习所获得的视觉语义对于机器人操作来说比掩模图像建模所学习的结构信息更重要

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

算法介绍

基于上述探索，该研究提出了一种针对机器人操作的视觉预训练方案（Vi-PRoM）。该方案通过在EgoNet数据集上对ResNet-50进行预训练，来提取机器人操作的全面视觉表示。具体而言，首先采用对比学习的方式，通过自我监督从EgoNet数据集中获取人与物体的交互模式。然后，提出了两个额外的学习目标，即视觉语义预测和时序动态预测，以进一步丰富编码器的表示。下图展示了Vi-PRoM的基本流程。值得注意的是，该研究不需要手动标注标签来学习视觉语义和时序动态

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

實驗結果

這項研究工作在兩種模擬環境 (Franka Kitchen 和 MetaWorld) 上進行了廣泛的實驗。實驗結果顯示所提出的預訓練方案在機器人操作上優於以前最先進的方法。消融實驗結果如下表所示，可以證明視覺語意學習和時序動態學習對於機器人操作的重要性。此外，當兩個學習目標都不存在時，Vi-PRoM 的成功率會大大下降，證明了視覺語意學習和時序動態學習之間協作的有效性。

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

該工作也研究了 Vi-PRoM 的可擴充性。如下左圖所示，在 Franka Kitchen 和 MetaWorld 模擬環境中，Vi-PRoM 的成功率隨著演示資料規模的增加而穩定提高。在更大規模的專家演示資料集上進行訓練後，Vi-PRoM 模型顯示了其在機器人操作任務上的可擴展性。

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

#由於Vi-PRoM 強大的視覺表徵能力，真實機器人能夠成功地打開抽屜和櫃門

Franka Kitchen 上的實驗結果可以看出，Vi-PRoM 在五個任務上都比R3M 具有更高的成功率和更高的動作完成度。

R3M：

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

Vi-PRoM：

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

#在MetaWorld 上，由於Vi- PRoM 的視覺表示學習了良好的語義和動態特徵，它可以更好地用於動作預測，因此相比R3M，Vi-PRoM 需要更少的步驟來完成操作。

R3M：

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

#Vi-PRoM：

改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果

以上是改寫後的標題：位元組推出Vi-PRoM視覺預訓練方案，提升機器人操作成功率與效果的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文轉載於：51CTO.COM。如有侵權，請聯絡admin@php.cn刪除

閱讀AI索引2025：AI是您的朋友，敵人還是副駕駛？Apr 11, 2025 pm 12:13 PM

斯坦福大學以人為本人工智能研究所發布的《2025年人工智能指數報告》對正在進行的人工智能革命進行了很好的概述。讓我們用四個簡單的概念來解讀它：認知（了解正在發生的事情）、欣賞（看到好處）、接納（面對挑戰）和責任（弄清我們的責任）。認知：人工智能無處不在，並且發展迅速我們需要敏銳地意識到人工智能發展和傳播的速度有多快。人工智能係統正在不斷改進，在數學和復雜思維測試中取得了優異的成績，而就在一年前，它們還在這些測試中慘敗。想像一下，人工智能解決複雜的編碼問題或研究生水平的科學問題——自2023年