ホームページ > 記事 > テクノロジー周辺機器 > Google AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?
ボストン ダイナミクスのバックフリップは、人工ロボットがもたらす無限の可能性を示しています。
#Google は Boston Dynamics に行動を起こしましたが、 Google は依然としてロボット開発の道を歩み続け、人間の「身体」にアプローチするだけでなく、「知性」においても 人間の指示。
Jeff Dean 氏率いる Google Research 年末総括シリーズ「Google Research, 2022 & before」が第 6 回まで更新されました。この問題のテーマは 「ロボティクス」 で、シニア プロダクト マネージャーの Kendra Byrne が執筆しました。と Google ロボティクス研究科学者の Jie Tan 氏
#私たちが生きているうちに、ロボット テクノロジーが人間の日常生活に参加し、人間の健康、生産性、生活の質を向上させます。
人間中心の空間 (つまり、機械ではなく人間のために設計された空間) での日常の実務にロボット技術を広く使用できるようになる前に、ロボット技術が人々を助けるために安全に行われること。 2022 年、Google はロボットを人間にとってより役立つものにするという課題に焦点を当てます:強化学習モデルの価値関数は、ロボットがさまざまな状態で実行できるアクションを抽象的に表現したアフォーダンス モデルを構築するために使用できます。これにより、現実世界での長期的なタスクが統合されます。タスクを完了するための「寝室の片付け」。アイテムを正しく選択、配置、配置するなどの短期的なスキルが必要です。
論文リンク: https://arxiv.org/abs/2111.03189
LLM モデルとアフォーダンス モデルの両方を備えているからといって、ロボットが正常に完了できるわけではありませんタスクは、内部の独白 (Inner Monologue) を通じて、LLM ベースのタスク計画のループを閉じることができます。人間のフィードバックやシーンの理解などの他の情報ソースを使用すると、ロボットがタスクを正しく完了できないときを検出できます。
論文リンク: https://arxiv.org/abs/2207.05608
研究者らは、Everyday Robots のロボットを使用して、LLM が効果的に再利用できることを発見しました。 - 現在または以前に失敗した計画ステップを計画すると、ロボットは失敗から回復し、「一番上の引き出しにコーラを入れる」などの複雑なタスクを完了できます。
LLM ベースのタスク計画における優れた機能の 1 つは、ロボットが高レベルの目標の中間タスクの変化に応答できることです。たとえば、ユーザー何が起こっているかをロボットに伝えることができる 素早い修正を提供したり、ロボットを別のタスクにリダイレクトしたりして、すでに計画されているアクションを変更できる機能は、ユーザーがロボット タスクを対話的に制御およびカスタマイズできるようにする場合に特に役立ちます。
自然言語を使用すると、人間はロボットのタスクを指定して変更することが容易になりますが、人間の記述にリアルタイムで反応するという課題もあります。
研究者らは、推定平均成功率 93.5 % で 87,000 を超える固有の命令を処理できる、リアルタイムでオープンボキャブラリーの言語条件付きロボットを作成するための大規模な模倣学習フレームワークを提案しています。このプロジェクトでは、Google も最大の言語注釈ロボット データ セットをリリースしました。Language-Table
紙のリンク: https://arxiv.org/pdf/2210.06407.pdf
そして、LLM を使用してロボットの動きを制御するコードを記述することも、有望な研究の方向性です。
研究者らが開発したコーディング手法は、タスクの複雑さを増大させる可能性を示しており、ロボットが自律的に新しいコードを生成して API 呼び出しを再結合し、新しい関数を合成し、フィードバック ループを表現できるようになります。実行時に新しい動作を合成します。
論文リンク: https://arxiv.org/abs/2209.07753
Large言語モデルとマルチモーダル モデルは、現場で何が起こっているのか、ロボットが何をすべきかなど、ロボットが動作する環境を理解するのに役立ちますが、ロボットが物理世界でのタスク (ピッキングなど) を完了するには、低レベルの身体スキルも必要です。オブジェクトを正確に配置します。
人間は考えずにさまざまな動作を実行できるため、これらの身体的スキルを当然のことと考えていますが、ロボットにとっては問題となります。
たとえば、ロボットが物体を持ち上げる場合、環境を感知して理解し、爪と物体の間の空間関係や接触力学を推定し、高自由度のロボットを正確に駆動する必要があります。アームを持ち上げ、適切な力を加えて安定させ、物体を壊さずに掴みます。
これらの低レベルのスキルを学習する際の難しさは、モラベックのパラドックスとして知られています。推論にはほとんど計算を必要としませんが、感覚運動スキルや知覚スキルには大量の計算リソースが必要です。
LLM の成功に触発されて、研究者らはデータ駆動型のアプローチを採用し、低レベルの物理スキルの学習の問題をスケーラブルなデータの問題に変換しました。LLM は、大規模な Transformer モデルの一般化可能性とパフォーマンスを示しました。データ量が増加します。
紙のリンク: https://robotics-transformer.github.io/assets/rt1.pdf
研究者らはロボット トランスフォーマー 1 (RT-1) モデルを提案し、ロボット操作戦略をトレーニングしました。使用されたトレーニング データは、Everyday Robots 13 のデータを使用した 130,000 エピソードの大規模な現実世界のロボット データ セットでした。ロボットは 700 以上のタスクをカバーしており、ロボット工学でも同じ傾向が見られます。つまり、データのサイズと多様性が増大することで、新しいタスク、環境、オブジェクトへのモデルの一般化が向上します。
言語モデルとロボット学習手法 (RT-1 など) の背後で、Transformer モデルはインターネット規模のデータに基づいてトレーニングされますが、LLM との違いは次のとおりです。ロボット工学は、環境の変化と限られた計算のマルチモーダル表現という課題に直面しています。
2020 年、Google は、Transformer のコンピューティング効率を向上させることができる手法である Performers を提案し、ロボット工学を含む複数のアプリケーション シナリオに影響を与えました。
最近研究者らはこの方法を拡張し、シミュレーション学習の利点とシステム制約の堅牢な処理 (モデルの事前推定制御制約) を組み合わせた新しいクラスの暗黙的制御戦略を導入しました。
論文リンク: https://performermpc.github.io/
標準的な MPC 戦略と比較して、ロボットの方が優れていることが実験結果で示されています目標達成時には 40% 以上の改善があり、人間の周りを移動する際の社会指標では 65% 以上の改善が見られます。Performance-MPC は 8.3 M パラメータ モデルで、モデルのレイテンシはわずか 8 ミリ秒です。トランスフォーマーをロボットに配備することは可能です。
Google の研究チームは、データ駆動型の手法が、モバイルの操作、ナビゲーション、移動などの幅広いタスクを学習するために、さまざまな環境のさまざまなロボット プラットフォームに適用できることが多いことも実証しました。卓球なども、低レベルのロボット工学スキルを学習するための明確な道筋、つまりスケーラブルなデータ収集を示しています。
インターネット上の豊富なビデオやテキスト データとは異なり、ロボット データは非常に希少で入手が困難であり、現実世界のインタラクションを表す豊富なデータ セットを収集して効果的に使用する方法がデータ駆動型社会の鍵となります。アプローチ。
シミュレーションは、高速かつ安全で並列化が容易なオプションですが、シミュレーションで完全な環境、特に物理環境や人間とコンピューターの対話環境を再現することは困難です。
論文リンク: https://arxiv.org/abs/2207.06572
i-Sim2Real で、研究者は単純な人間からブートストラップする方法を実証しました行動モデルを学習し、シミュレーションのトレーニングと現実世界への展開を交互に繰り返すことで、シミュレーションと現実の間の不一致を解決し、反復ごとに人間の相手と卓球をする方法を学習することで、人間の行動モデルと戦略が洗練されます。
シミュレーションはデータ収集に役立ちますが、シミュレーション戦略を微調整したり、既存の戦略を新しい環境に適応させたりするには、現実世界でのデータ収集が不可欠です。
学習プロセス中、ロボットは簡単に失敗し、ロボット自体やその周囲の環境に損害を与える可能性があります。特に世界との関わり方を模索する初期の学習段階では、トレーニング データを安全に収集する必要があります。ロボットを作る スキルを習得するだけでなく、失敗しても自律的に回復します。
論文リンク: https://arxiv.org/abs/2110.05457
研究者らは、「学習者戦略の切り替え」に基づいた安全な RL フレームワークを提案しました。必要なタスクを実行するために最適化される「安全な回復戦略」と、ロボットが危険な状態にならないようにするための「安全な回復戦略」、ロボットが障害から回復できるように、学習後に学習するためのリセット戦略を学習します。転倒したとき 自分で立ち上がる。
ロボットに関するデータは非常に少ないですが、人間がさまざまなタスクを実行している動画は数多くあります。当然、ロボットと人間の構造は異なるため、重要です。このアイデアは、「異なるエンティティ間での学習の転移」という問題を引き起こします。
論文リンク: https://arxiv.org/pdf/2106.03911.pdf
研究者は、クロスエンボディメント逆強化学習強化学習) を開発し、新しいタスクを学習しました。人間を観察することは、人間と同じようにタスクを正確に再現しようとするのではなく、高レベルのタスク目標を学習し、その知識を報酬関数の形で要約することです。インターネット。
もう 1 つの方向は、学習アルゴリズムのデータ効率を向上させて、拡張されたデータ収集のみに依存しないようにすることです。RL は、予測情報、敵対行為の事前情報、誘導戦略の効率などの事前情報を組み込むことで改善されます。その方法。
論文リンク: https://arxiv.org/abs/2210.10865
新しい構造化された動的システム アーキテクチャを使用して RL と軌道の組み合わせを組み合わせる新しいソルバーによってサポートされる最適化はさらに改善され、事前情報により探索の課題が軽減され、データがより適切に正規化され、必要なデータ量が大幅に削減されます。
さらに、ロボット工学チームは、より効果的なデータ シミュレーション学習にも多額の資金を投資しています。実験では、シンプルな模倣学習メソッド BC-Z が、トレーニングでは見られない新しいタスクに焦点を当てることができることが証明されました。ショットの一般化。
論文リンク: https://arxiv.org/pdf/2210.02343.pdf
また、ゲームからの反復模倣学習アルゴリズム GoalsEye も紹介しました。中程度の学習とターゲット条件付き動作の複製の組み合わせは、高速かつ高精度の卓球ゲームに使用されます。
論文リンク: https://sites.google.com/view/goals-eye
理論面では、研究者は動的表現シミュレーション学習を研究しました。サンプルの複雑さによるシステムの安定性、および小規模なデータセットを使用したオフライン学習をより適切に調整するためにデモンストレーションデータの障害と回復をキャプチャする役割。
論文リンク: https://proceedings.mlr.press/v168/tu22a.html
大規模な人工知能の分野 モデルの進歩により、ロボットの学習能力が飛躍的に向上しました。
昨年は、LLM で捉えられたコンテキストの感覚と一連のイベントがロボット工学の長期計画に取り組み、ロボットが人と対話してタスクを完了するのが容易になることがわかりました。また、Transformer モデル アーキテクチャをロボット学習に適用することで、学習の堅牢性とロボットの動作の一般化へのスケーラブルなパスを確認することもできます。
Google は、新年も有用なロボットの開発を継続するために、データセットのオープンソース化を継続することを約束しました。
以上がGoogle AI 年末総括その 6: Boston Dynamics なしの Google ロボット開発はどうなる?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。