recherche
MaisonPériphériques technologiquesIAS'adaptant à de multiples formes et tâches, le système d'apprentissage robot open source le plus puissant 'Octopus' est né

En termes d'apprentissage robotique, une approche courante consiste à collecter un ensemble de données spécifiques à un robot et à une tâche spécifiques, puis à l'utiliser pour entraîner une politique. Cependant, si cette méthode est utilisée pour apprendre à partir de zéro, suffisamment de données doivent être collectées pour chaque tâche, et la capacité de généralisation de la politique qui en résulte est généralement faible.

« En principe, l'expérience collectée auprès d'autres robots et tâches peut fournir des solutions possibles, permettant au modèle de voir une variété de problèmes de contrôle du robot, et ces problèmes peuvent améliorer les performances générales du robot sur les tâches en aval. Cependant, même s'il y en a. sont des modèles généraux capables de gérer une variété de tâches de langage naturel et de vision par ordinateur, il est encore difficile de construire un « modèle de robot universel » pour former une stratégie de contrôle unifiée pour le robot. Extrêmement difficile, impliquant de nombreuses difficultés, notamment le fonctionnement de différents corps de robot, configurations de capteurs, espaces d'action, spécifications de tâches, environnements et budgets de calcul.

Afin d'atteindre cet objectif, certains résultats de recherche liés au « modèle de base du robot » sont apparus ; leur approche consiste à mapper directement les observations du robot en actions, puis à les généraliser à de nouveaux domaines ou à de nouveaux robots grâce à des solutions sans échantillon. Ces modèles sont souvent appelés « politiques robotiques généralistes » ou GRP, qui mettent l'accent sur la capacité du robot à effectuer un contrôle visuomoteur de bas niveau sur une variété de tâches, d'environnements et de systèmes robotiques.

GNM (General Navigation Model) convient à une variété de scénarios de navigation de robots différents. RoboCat peut faire fonctionner différents corps de robot en fonction des objectifs de la mission. RT-X peut faire fonctionner cinq corps de robot différents via le langage. Bien que ces modèles constituent en effet une avancée importante, ils souffrent également de multiples limitations : leurs observations d'entrée sont souvent prédéfinies et souvent limitées (comme par exemple un flux vidéo d'entrée d'une seule caméra) ; modèles Les plus grandes versions ne sont pas disponibles pour les utilisateurs (c'est important).

Récemment, l'équipe Octo Model composée de 18 chercheurs de l'Université de Californie à Berkeley, de l'Université de Stanford, de l'Université Carnegie Mellon et de Google DeepMind a publié ses résultats de recherche révolutionnaires : le modèle Octo. Ce projet surmonte efficacement les limitations ci-dessus.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Titre de l'article : Octo : Une politique de robot généraliste open source
  • Adresse de l'article : https://arxiv.org/pdf/2405.12213
  • Projets open source : https://octo-models.github.io/
  • Ils ont conçu un système qui permet à GRP de faire face plus facilement aux problèmes de diversification des interfaces des applications robotiques en aval.

Le cœur du modèle est l'architecture Transformer, qui mappe des jetons d'entrée arbitraires (créés sur la base d'observations et de tâches) en jetons de sortie (puis codés en actions), et cette architecture peut être utilisée avec divers ensembles de données de robots et de tâches. former. La politique peut accepter différentes configurations de caméras sans formation supplémentaire, contrôler différents robots et être guidée par des commandes verbales ou des images cibles, le tout en modifiant simplement les jetons entrés dans le modèle.

Plus important encore, le modèle peut également s'adapter à de nouvelles configurations de robots avec différentes entrées de capteurs, espaces de fonctionnement ou morphologies de robots. Il suffit d'adopter un adaptateur approprié et d'utiliser un petit ensemble de données de domaine cible et une petite quantité de données. données. Calculer le budget pour un réglage fin.

De plus, Octo a également été pré-formé sur le plus grand ensemble de données de manipulation de robots à ce jour : 800 000 démonstrations de robots issues de l'ensemble de données Open X-Embodiment. Octo n'est pas seulement le premier GRP à être adapté efficacement aux nouveaux espaces d'observation et d'action, c'est aussi la première stratégie généraliste de manipulation de robots entièrement open source (workflow de formation, points de contrôle du modèle et données). L'équipe a également souligné dans le document la nature unique et innovante de ses composants Octo combinés.

Modèle OctoSadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Voyons comment Octo, une stratégie de robot généraliste open source, est construite. Dans l’ensemble, Octo est conçu pour être une stratégie robotique généraliste flexible et largement applicable qui peut être utilisée par un certain nombre d’applications robotiques et de projets de recherche différents en aval.

Architecture

Le cœur d'Octo est basé sur la stratégie π de Transformer. Il contient trois éléments clés : le tokenizer d'entrée, le réseau fédérateur Transformer et la tête de lecture.

Comme le montre la figure 2, la fonction du tokenizer d'entrée est de convertir les instructions de langage, les cibles et les séquences d'observation en jetons. Le squelette du Transformer traitera ces jetons en intégrations et la tête de lecture obtiendra la sortie requise. c'est-à-dire l'action.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Task and Observation Tokenizer

Pour convertir les définitions de tâches (telles que les instructions linguistiques et les images cibles) et les observations (telles que les flux vidéo de caméra) en formats tokenisés couramment utilisés, l'équipe a ciblé Différentes modalités utilisent différents tokeniseurs :

Pour la saisie du langage, il est d'abord tokenisé, puis traité en une séquence de jetons intégrant un langage via un transformateur pré-entraîné. Plus précisément, le modèle qu'ils ont utilisé est la base t5 (111M).

Pour les observations d'images et les cibles, elles sont traitées à travers une pile de convolution moins profonde, puis divisées en une séquence de tuiles aplaties.

Enfin, la séquence d'entrée du Transformateur est construite en ajoutant des intégrations de positions apprenables aux jetons de tâche et d'observation et en les organisant dans un certain ordre.

Spine dorsale du transformateur et tête de lecture

Après avoir traité l'entrée en une séquence de jetons unifiée, elle peut être transmise au Transformer pour traitement. Ceci est similaire aux travaux de recherche antérieurs sur la formation de politiques basées sur des transformateurs basées sur des observations et des séquences d'action.

Le mode attention d'Octo est un masquage bloc par bloc : les jetons d'observation ne peuvent prêter attention qu'aux jetons et aux jetons de tâche du même pas de temps ou des pas de temps précédents selon la relation causale. Les jetons correspondant à des observations inexistantes sont complètement masqués (comme les jeux de données sans instructions de langage). Cette conception modulaire facilite l'ajout ou la suppression d'observations ou de tâches pendant la phase de mise au point.

En plus de ces modules de jetons d'entrée, l'équipe a également inséré des jetons de lecture appris. Le jeton de lecture prêtera attention à ses jetons d'observation et de tâche précédents, mais ne sera pris en compte par aucun jeton d'observation ou de tâche. Par conséquent, les jetons de lecture peuvent uniquement lire et traiter l'intégration interne, mais ne peuvent pas affecter l'intégration interne. Le jeton de lecture agit de la même manière que le jeton [CLS] dans BERT, agissant jusqu'à présent comme un vecteur compact intégrant la séquence d'observations. Pour l'intégration des jetons de lecture, un « en-tête d'action » léger qui implémente le processus de diffusion sera utilisé. Cet en-tête d'action prédit un « morceau » de plusieurs actions consécutives.

Cette conception permet aux utilisateurs d'ajouter de manière flexible de nouvelles tâches et des en-têtes d'entrée d'observation ou de sortie d'action au modèle lors du réglage fin en aval. Lors de l'ajout de nouvelles tâches, observations ou fonctions de perte en aval, vous pouvez conserver les poids pré-entraînés du Transformer dans leur ensemble et ajouter uniquement de nouvelles intégrations positionnelles, un nouvel encodeur léger ou de nouveaux en-têtes nécessaires en raison des modifications des paramètres de spécification. Cela diffère des architectures précédentes, qui nécessitaient la réinitialisation ou le recyclage de nombreux composants du modèle pré-entraîné si des entrées d'image étaient ajoutées ou supprimées ou si les spécifications des tâches étaient modifiées.

Pour faire d'Octo un véritable modèle "généraliste", cette flexibilité est cruciale : puisqu'il nous est impossible de couvrir toutes les configurations possibles de capteurs et d'actions du robot en phase de pré-entraînement, si nous pouvons ajuster Octo en fin d'entraînement. étape de réglage Ses entrées et sorties en font un outil polyvalent pour la communauté robotique. De plus, les conceptions de modèles précédentes qui utilisaient une structure de transformateur standard ou fusionnaient un encodeur visuel avec une tête de sortie MLP fixaient le type et l'ordre des entrées du modèle. En revanche, changer d'observations ou de tâches d'Octo ne nécessite pas de réinitialisation d'une grande partie du modèle.

Données d'entraînement

L'équipe a pris un ensemble de données mixte de 25 ensembles de données d'Open X-Embodiment. La figure 3 donne la composition de l'ensemble de données.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Veuillez vous référer au document original pour plus de détails sur les objectifs de formation et la configuration du matériel de formation.

Modèles de points de contrôle et de code

Voici le point ! L'équipe a non seulement publié l'article d'Octo, mais a également rendu toutes les ressources entièrement open source, notamment :

  • Points de contrôle Octo pré-entraînés, dont Octo-Small avec 27 millions de paramètres et Octo-Base avec 93 millions de paramètres.
  • Script de mise au point pour les modèles Octo, basé sur JAX.
  • Modéliser le workflow de pré-formation pour la pré-formation d'Octo sur l'ensemble de données Open X-Embodiment, basé sur JAX. Chargeur de données pour les données Open X-Embodiment, compatible avec JAX et PyTorch.

Expérience

L'équipe a également mené une analyse empirique d'Octo à travers des expériences et évalué ses performances en tant que modèle de robot de base dans plusieurs dimensions :

  1. Octo peut-il être directement utilisé pour contrôler plusieurs robots Robot ? corps et résoudre des tâches linguistiques et cibles ?
  2. Les poids Octo peuvent-ils servir de bonne base d'initialisation pour prendre en charge un réglage fin et efficace des données pour de nouvelles tâches et de nouveaux robots, et sont-ils supérieurs aux méthodes de formation à partir de zéro et aux représentations pré-entraînées couramment utilisées ?
  3. Quelle décision de conception dans Octo est la plus importante lorsqu'il s'agit de construire une stratégie robotique généraliste ?

La figure 4 montre les 9 tâches pour évaluer Octo.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Utilisez directement Octo pour contrôler plusieurs robots

L'équipe a comparé les capacités de contrôle sans échantillon d'Octo, RT-1-X et RT-2-X. Les résultats sont présentés dans. Graphique 5.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

On constate que le taux de réussite d'Octo est 29% supérieur à celui du RT-1-X (35 millions de paramètres). Dans l'évaluation WidowX et RT-1 Robot, les performances d'Octo sont équivalentes à celles de RT-2-X avec 55 milliards de paramètres.

De plus, RT-1-X et RT-2-X ne prennent en charge que les commandes de langage, tandis qu'Octo prend également en charge les images conditionnelles sur la cible. L’équipe a également constaté que sur la tâche WidowX, les taux de réussite étaient 25 % plus élevés lorsqu’ils étaient conditionnés aux images cibles que lorsqu’ils étaient conditionnés au langage. Cela peut être dû au fait que les images cibles fournissent plus d'informations sur l'achèvement des tâches.

Octo peut utiliser efficacement les données pour s'adapter à de nouveaux champs

Le Tableau 1 donne les résultats expérimentaux d'un réglage fin efficace des données.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Vous pouvez voir qu'un réglage fin d'Octo donne de meilleurs résultats qu'un entraînement à partir de zéro ou un pré-entraînement avec des poids VC-1 pré-entraînés. Sur 6 paramètres d'évaluation, l'avantage moyen d'Octo par rapport à la deuxième place est de 52 % !

Et je dois mentionner : pour toutes ces tâches d'évaluation, les recettes et hyperparamètres utilisés lors du réglage fin d'Octo étaient tous les mêmes, ce qui montre que l'équipe a trouvé une très bonne configuration par défaut.

Décisions de conception pour une formation généraliste aux politiques robotiques

Les résultats ci-dessus montrent qu'Octo peut en effet être utilisé comme un contrôleur multi-robot à tir nul et peut également être utilisé comme base d'initialisation pour le réglage fin des politiques . Ensuite, l'équipe a analysé l'impact de différentes décisions de conception sur les performances de la stratégie Octo. Plus précisément, ils se concentrent sur les aspects suivants : l'architecture du modèle, les données de formation, les objectifs de formation et la taille du modèle. Pour ce faire, ils ont mené des études d’ablation.

Le tableau 2 présente les résultats de l'étude d'ablation sur l'architecture du modèle, les données de formation et les objectifs de formation.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

La figure 6 montre l'impact de la taille du modèle sur le taux de réussite de l'échantillon zéro. On peut voir que les modèles plus grands ont de meilleures capacités de perception visuelle de la scène.

Sadaptant à de multiples formes et tâches, le système dapprentissage robot open source le plus puissant Octopus est né

Dans l’ensemble, l’efficacité des composants d’Octo a été prouvée.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

MantisBT

MantisBT

Mantis est un outil Web de suivi des défauts facile à déployer, conçu pour faciliter le suivi des défauts des produits. Cela nécessite PHP, MySQL et un serveur Web. Découvrez nos services de démonstration et d'hébergement.

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

Puissant environnement de développement intégré PHP

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

DVWA

DVWA

Damn Vulnerable Web App (DVWA) est une application Web PHP/MySQL très vulnérable. Ses principaux objectifs sont d'aider les professionnels de la sécurité à tester leurs compétences et leurs outils dans un environnement juridique, d'aider les développeurs Web à mieux comprendre le processus de sécurisation des applications Web et d'aider les enseignants/étudiants à enseigner/apprendre dans un environnement de classe. Application Web sécurité. L'objectif de DVWA est de mettre en pratique certaines des vulnérabilités Web les plus courantes via une interface simple et directe, avec différents degrés de difficulté. Veuillez noter que ce logiciel