Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?-AI-php.cn

ホームページ

テクノロジー周辺機器

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

王林

Apr 14, 2023 pm 01:16 PM

グーグルロボット

ボストンダイナミクスのバックフリップは、人工ロボットがもたらす無限の可能性を示しています。

#Google は Boston Dynamics に行動を起こしましたが、 Google は依然としてロボット開発の道を歩み続け、人間の「身体」にアプローチするだけでなく、「知性」においても人間の指示。

Jeff Dean 氏率いる Google Research 年末総括シリーズ「Google Research, 2022 & before」が第 6 回まで更新されました。この問題のテーマは「ロボティクス」で、シニアプロダクトマネージャーの Kendra Byrne が執筆しました。と Google ロボティクス研究科学者の Jie Tan 氏

#私たちが生きているうちに、ロボットテクノロジーが人間の日常生活に参加し、人間の健康、生産性、生活の質を向上させます。

人間中心の空間 (つまり、機械ではなく人間のために設計された空間) での日常の実務にロボット技術を広く使用できるようになる前に、ロボット技術が人々を助けるために安全に行われること。

2022 年、Google はロボットを人間にとってより役立つものにするという課題に焦点を当てます:

ロボットを作るロボットは現実世界の常識的な知識を理解し、適用することができます。
ロボットが非構造化環境でタスクを効果的に実行するために必要な低レベルのスキルの数を拡大します。

LLM とロボットの出会い

大規模言語モデル (LLM) の機能の 1 つは、説明とコンテキストを「人間と機械の両方が理解できる」形式にエンコードできることです。

LLM をロボット工学に適用すると、ユーザーは自然言語命令を通じてのみロボットにタスクを割り当てることができます。視覚モデルやロボット学習方法と組み合わせると、LLM はユーザーのリクエストのコンテキストを理解する方法を提供します。そして、リクエストを完了するために取られるアクションを計画できるようになります。

基本的な方法の 1 つは、LLM を使用して他の事前トレーニング済みモデルに情報を取得させ、シーンで何が起こっているかのコンテキストを構築し、マルチモーダルタスクを予測することです。全体のプロセスはソクラテスの教授法に似ており、教師は生徒に質問をし、合理的な思考プロセスを通じて生徒がそれに答えるように導きます。

研究者らは、「ソクラテスモデル」で、このアプローチがゼロショット画像記述およびビデオテキスト検索タスクで最先端のパフォーマンスを達成できること、また次のような新機能もサポートできることを実証しました。ビデオに関する自由形式の質問に答え、将来のアクティビティ、マルチモーダル支援対話、ロボットによる認識と計画を予測します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2204.00598

「役立つロボットに向けて: ロボットの使いやすさのための基本言語」記事によると、研究者は Everyday Robots と協力して、ロボットユーザビリティモデルの PaLM 言語モデルに基づいて長期的なタスクを計画しました。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

ブログリンク: https://ai.googleblog.com/2022/08/towards-helpful-robots-grounding.html

前回機械学習アプローチでは、ロボットは「スポンジを拾う」などの短いハードコードされたコマンドしか受け付けることができず、タスクを完了するために必要な手順を推論することが困難です。タスクが「できますか」のような抽象的な目標である場合、「何か？」という質問に対処するのはさらに困難です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

研究者らは、ロボットが実際に達成できるスキルを表すアフォーダンスモデルとともに、長期タスクを完了するための一連のステップを予測するために LLM を使用することを選択しました。与えられた状況で。

強化学習モデルの価値関数は、ロボットがさまざまな状態で実行できるアクションを抽象的に表現したアフォーダンスモデルを構築するために使用できます。これにより、現実世界での長期的なタスクが統合されます。タスクを完了するための「寝室の片付け」。アイテムを正しく選択、配置、配置するなどの短期的なスキルが必要です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2111.03189

LLM モデルとアフォーダンスモデルの両方を備えているからといって、ロボットが正常に完了できるわけではありませんタスクは、内部の独白 (Inner Monologue) を通じて、LLM ベースのタスク計画のループを閉じることができます。人間のフィードバックやシーンの理解などの他の情報ソースを使用すると、ロボットがタスクを正しく完了できないときを検出できます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2207.05608

研究者らは、Everyday Robots のロボットを使用して、LLM が効果的に再利用できることを発見しました。 - 現在または以前に失敗した計画ステップを計画すると、ロボットは失敗から回復し、「一番上の引き出しにコーラを入れる」などの複雑なタスクを完了できます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

LLM ベースのタスク計画における優れた機能の 1 つは、ロボットが高レベルの目標の中間タスクの変化に応答できることです。たとえば、ユーザー何が起こっているかをロボットに伝えることができる素早い修正を提供したり、ロボットを別のタスクにリダイレクトしたりして、すでに計画されているアクションを変更できる機能は、ユーザーがロボットタスクを対話的に制御およびカスタマイズできるようにする場合に特に役立ちます。

自然言語を使用すると、人間はロボットのタスクを指定して変更することが容易になりますが、人間の記述にリアルタイムで反応するという課題もあります。

研究者らは、推定平均成功率 93.5 % で 87,000 を超える固有の命令を処理できる、リアルタイムでオープンボキャブラリーの言語条件付きロボットを作成するための大規模な模倣学習フレームワークを提案しています。このプロジェクトでは、Google も最大の言語注釈ロボットデータセットをリリースしました。Language-Table

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

紙のリンク: https://arxiv.org/pdf/2210.06407.pdf

そして、LLM を使用してロボットの動きを制御するコードを記述することも、有望な研究の方向性です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

研究者らが開発したコーディング手法は、タスクの複雑さを増大させる可能性を示しており、ロボットが自律的に新しいコードを生成して API 呼び出しを再結合し、新しい関数を合成し、フィードバックループを表現できるようになります。実行時に新しい動作を合成します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2209.07753

ロボット学習をスケーラブルなデータ問題に変換する

Large言語モデルとマルチモーダルモデルは、現場で何が起こっているのか、ロボットが何をすべきかなど、ロボットが動作する環境を理解するのに役立ちますが、ロボットが物理世界でのタスク (ピッキングなど) を完了するには、低レベルの身体スキルも必要です。オブジェクトを正確に配置します。

人間は考えずにさまざまな動作を実行できるため、これらの身体的スキルを当然のことと考えていますが、ロボットにとっては問題となります。

たとえば、ロボットが物体を持ち上げる場合、環境を感知して理解し、爪と物体の間の空間関係や接触力学を推定し、高自由度のロボットを正確に駆動する必要があります。アームを持ち上げ、適切な力を加えて安定させ、物体を壊さずに掴みます。

これらの低レベルのスキルを学習する際の難しさは、モラベックのパラドックスとして知られています。推論にはほとんど計算を必要としませんが、感覚運動スキルや知覚スキルには大量の計算リソースが必要です。

LLM の成功に触発されて、研究者らはデータ駆動型のアプローチを採用し、低レベルの物理スキルの学習の問題をスケーラブルなデータの問題に変換しました。LLM は、大規模な Transformer モデルの一般化可能性とパフォーマンスを示しました。データ量が増加します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

紙のリンク: https://robotics-transformer.github.io/assets/rt1.pdf

研究者らはロボットトランスフォーマー 1 (RT-1) モデルを提案し、ロボット操作戦略をトレーニングしました。使用されたトレーニングデータは、Everyday Robots 13 のデータを使用した 130,000 エピソードの大規模な現実世界のロボットデータセットでした。ロボットは 700 以上のタスクをカバーしており、ロボット工学でも同じ傾向が見られます。つまり、データのサイズと多様性が増大することで、新しいタスク、環境、オブジェクトへのモデルの一般化が向上します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

言語モデルとロボット学習手法 (RT-1 など) の背後で、Transformer モデルはインターネット規模のデータに基づいてトレーニングされますが、LLM との違いは次のとおりです。ロボット工学は、環境の変化と限られた計算のマルチモーダル表現という課題に直面しています。

2020 年、Google は、Transformer のコンピューティング効率を向上させることができる手法である Performers を提案し、ロボット工学を含む複数のアプリケーションシナリオに影響を与えました。

最近研究者らはこの方法を拡張し、シミュレーション学習の利点とシステム制約の堅牢な処理 (モデルの事前推定制御制約) を組み合わせた新しいクラスの暗黙的制御戦略を導入しました。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://performermpc.github.io/

標準的な MPC 戦略と比較して、ロボットの方が優れていることが実験結果で示されています目標達成時には 40% 以上の改善があり、人間の周りを移動する際の社会指標では 65% 以上の改善が見られます。Performance-MPC は 8.3 M パラメータモデルで、モデルのレイテンシはわずか 8 ミリ秒です。トランスフォーマーをロボットに配備することは可能です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

Google の研究チームは、データ駆動型の手法が、モバイルの操作、ナビゲーション、移動などの幅広いタスクを学習するために、さまざまな環境のさまざまなロボットプラットフォームに適用できることが多いことも実証しました。卓球なども、低レベルのロボット工学スキルを学習するための明確な道筋、つまりスケーラブルなデータ収集を示しています。

インターネット上の豊富なビデオやテキストデータとは異なり、ロボットデータは非常に希少で入手が困難であり、現実世界のインタラクションを表す豊富なデータセットを収集して効果的に使用する方法がデータ駆動型社会の鍵となります。アプローチ。

シミュレーションは、高速かつ安全で並列化が容易なオプションですが、シミュレーションで完全な環境、特に物理環境や人間とコンピューターの対話環境を再現することは困難です。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2207.06572

i-Sim2Real で、研究者は単純な人間からブートストラップする方法を実証しました行動モデルを学習し、シミュレーションのトレーニングと現実世界への展開を交互に繰り返すことで、シミュレーションと現実の間の不一致を解決し、反復ごとに人間の相手と卓球をする方法を学習することで、人間の行動モデルと戦略が洗練されます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

シミュレーションはデータ収集に役立ちますが、シミュレーション戦略を微調整したり、既存の戦略を新しい環境に適応させたりするには、現実世界でのデータ収集が不可欠です。

学習プロセス中、ロボットは簡単に失敗し、ロボット自体やその周囲の環境に損害を与える可能性があります。特に世界との関わり方を模索する初期の学習段階では、トレーニングデータを安全に収集する必要があります。ロボットを作るスキルを習得するだけでなく、失敗しても自律的に回復します。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2110.05457

研究者らは、「学習者戦略の切り替え」に基づいた安全な RL フレームワークを提案しました。必要なタスクを実行するために最適化される「安全な回復戦略」と、ロボットが危険な状態にならないようにするための「安全な回復戦略」、ロボットが障害から回復できるように、学習後に学習するためのリセット戦略を学習します。転倒したとき自分で立ち上がる。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

ロボットに関するデータは非常に少ないですが、人間がさまざまなタスクを実行している動画は数多くあります。当然、ロボットと人間の構造は異なるため、重要です。このアイデアは、「異なるエンティティ間での学習の転移」という問題を引き起こします。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/pdf/2106.03911.pdf

研究者は、クロスエンボディメント逆強化学習強化学習) を開発し、新しいタスクを学習しました。人間を観察することは、人間と同じようにタスクを正確に再現しようとするのではなく、高レベルのタスク目標を学習し、その知識を報酬関数の形で要約することです。インターネット。

もう 1 つの方向は、学習アルゴリズムのデータ効率を向上させて、拡張されたデータ収集のみに依存しないようにすることです。RL は、予測情報、敵対行為の事前情報、誘導戦略の効率などの事前情報を組み込むことで改善されます。その方法。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/abs/2210.10865

新しい構造化された動的システムアーキテクチャを使用して RL と軌道の組み合わせを組み合わせる新しいソルバーによってサポートされる最適化はさらに改善され、事前情報により探索の課題が軽減され、データがより適切に正規化され、必要なデータ量が大幅に削減されます。

さらに、ロボット工学チームは、より効果的なデータシミュレーション学習にも多額の資金を投資しています。実験では、シンプルな模倣学習メソッド BC-Z が、トレーニングでは見られない新しいタスクに焦点を当てることができることが証明されました。ショットの一般化。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://arxiv.org/pdf/2210.02343.pdf

また、ゲームからの反復模倣学習アルゴリズム GoalsEye も紹介しました。中程度の学習とターゲット条件付き動作の複製の組み合わせは、高速かつ高精度の卓球ゲームに使用されます。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://sites.google.com/view/goals-eye

理論面では、研究者は動的表現シミュレーション学習を研究しました。サンプルの複雑さによるシステムの安定性、および小規模なデータセットを使用したオフライン学習をより適切に調整するためにデモンストレーションデータの障害と回復をキャプチャする役割。

Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?

論文リンク: https://proceedings.mlr.press/v168/tu22a.html

概要

大規模な人工知能の分野モデルの進歩により、ロボットの学習能力が飛躍的に向上しました。

昨年は、LLM で捉えられたコンテキストの感覚と一連のイベントがロボット工学の長期計画に取り組み、ロボットが人と対話してタスクを完了するのが容易になることがわかりました。また、Transformer モデルアーキテクチャをロボット学習に適用することで、学習の堅牢性とロボットの動作の一般化へのスケーラブルなパスを確認することもできます。

Google は、新年も有用なロボットの開発を継続するために、データセットのオープンソース化を継続することを約束しました。

以上がGoogle AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

WebStorm Mac版

便利なJavaScript開発ツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、