ホームページ >テクノロジー周辺機器 >AI >ヨガボールの上で「犬」の散歩！ NVIDIA のトップ 10 プロジェクトの 1 つに選ばれた Eureka が新たな進歩を遂げました

ヨガボールの上で「犬」の散歩！ NVIDIA のトップ 10 プロジェクトの 1 つに選ばれた Eureka が新たな進歩を遂げました

WBOY転載: 2024-05-05 13:01:01628ブラウズ

犬ロボットはヨガボールの上を安定して歩き、そのバランスは非常に良好です。

平らな歩道や平らな歩道など、さまざまなシーンに対応できます。

ヨガボールの上で「犬」の散歩！ NVIDIA のトップ 10 プロジェクトの 1 つに選ばれた Eureka が新たな進歩を遂げました

## 研究者がヨガボールを蹴っても、ロボット犬はひっくり返ることはありません:

ヨガボールの上で「犬」の散歩！ NVIDIA のトップ 10 プロジェクトの 1 つに選ばれた Eureka が新たな進歩を遂げました

風船をしぼませるロボット犬もバランスを保つことができます:

ヨガボールの上で「犬」の散歩！ NVIDIA のトップ 10 プロジェクトの 1 つに選ばれた Eureka が新たな進歩を遂げました

上記のデモはすべて 1 倍速であり、加速されていません。

論文アドレス: https://eureka-research.github.io/dr-eureka/assets/dreureka-paper.pdf
プロジェクトのホームページ: https://github.com/eureka-research/DrEureka
論文のタイトル: DrEureka: Language Model Guided Sim-To-Real転送

この研究は、ペンシルバニア大学、NVIDIA、テキサス大学オースティン校の研究者によって共同作成されたもので、完全にオープンソースです。。彼らは、LLM を利用して報酬設計とドメインランダム化パラメーター構成を実装し、シミュレーションから現実への移行を同時に実現できる新しいアルゴリズムである DrEureka (Domain Randomized Eureka) を提案しました。この研究では、DrEureka アルゴリズムが、反復的な手動設計を必要とせずに、四足ロボットのバランス調整やヨガボール上での歩行などの新しいロボットタスクを解決できる能力を実証しました。

DrEureka は、2023 年の NVIDIA プロジェクトトップ 10 の 1 つに選ばれた Eureka をベースにしています。 Eureka について詳しくは、「

GPT-4 を使用して、ロボットはペンを回し、クルミを皿に盛る方法を学習しました。」を参照してください。

論文の要約セクションで、研究者らは、シミュレーションで学習した戦略を現実世界に移すことが、ロボットスキルの大規模な習得にとって有望な戦略であると述べています。ただし、現実へのシミュレーションのアプローチは、タスク報酬関数とシミュレーションの物理パラメーターの手動設計と調整に依存することが多く、そのためプロセスが遅くなり、労働集約的になります。このペーパーでは、シミュレーションから現実的な設計への移行を自動化および高速化するための大規模言語モデル (LLM) の使用について検討します。

この論文の著者の 1 人であり、NVIDIA の上級科学者である Jim Fan もこの研究に参加しました。以前、Nvidia は、ジム・ファンが率いる、身体化されたインテリジェンスを専門とする AI 研究所を設立しました。 Jim Fan 氏は次のように述べています:

「私たちは、ヨガボールの上でバランスを取り、歩くようにロボット犬を訓練しました。これは完全にシミュレーションで行われ、その後、ゼロサンプルの移行が行われました。

##ヨガボールの歩行タスクは、弾むボールの表面を正確にシミュレートできないため、特に困難です。大きなサイズを簡単に検索できます。多数のシミュレートされた実際の構成を使用して、ロボット犬がさまざまな地形でボールを制御したり、横に歩いたりできるようにします。

## 一般的に、シミュレーションから現実への移行は次のように行われます。 GPT-4 のような最先端の LLM には、GPT を使用して、摩擦、減衰、剛性、重力などの多くの物理的直観が組み込まれています。 -4、DrEureka はこれらのパラメータを巧みに調整し、その理由をうまく説明できます。"

論文紹介

DrEureka のプロセスは次のとおりです。タスクと安全に関する指示と環境ソースコードを受け取り、Eureka を実行して正則化を生成します。報酬関数と戦略。次に、さまざまなシミュレーション条件下で戦略をテストして、報酬を意識した物理事前確率を構築します。これが LLM に供給されて、ドメインランダム化 (DR) パラメーターのセットが生成されます。最後に、実際のデプロイメントのために、合成された報酬パラメータと DR パラメータを使用してポリシーがトレーニングされます。

エウレカの報酬デザイン。報酬設計コンポーネントは、そのシンプルさと表現力の高さから Eureka に基づいていますが、このホワイトペーパーでは、シミュレーションから現実世界の環境への適用性を高めるためにいくつかの改良が加えられています。疑似コードは次のとおりです。

#報酬認識物理事前 (RAPP、事前報酬認識物理)。セキュリティ報酬関数は、環境の選択を修正するために政策の動作を規制できますが、それだけではシミュレーションから現実への移行を達成するには十分ではありません。したがって、この文書では、LLM の基本的な範囲を制限するための単純な RAPP メカニズムを紹介します。

LLM はドメインのランダム化に使用されます。各 DR パラメータの RAPP 範囲を指定すると、DrEureka の最後のステップで、LLM に RAPP 範囲の制限内でドメインのランダム化構成を生成するように指示します。具体的なプロセスについては、図 3 を参照してください。

この研究では、実験に Unitree Go1 を使用します。Go1 は、4 つの脚に 12 の自由度を持つ小型の四足ロボットです。この論文では、四足歩行タスクにおいて、現実世界のいくつかの地形における DrEureka ポリシーのパフォーマンスも体系的に評価し、それらのポリシーが堅牢性を維持し、人間が設計した報酬および DR 構成を使用してトレーニングされたポリシーよりも優れていることを発見しました。

詳細については、元の論文を参照してください。

以上がヨガボールの上で「犬」の散歩！ NVIDIA のトップ 10 プロジェクトの 1 つに選ばれた Eureka が新たな進歩を遂げましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

github 算法 eureka https 自动化 gpt

声明：

この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：小型モデルのパフォーマンスが飽和してパフォーマンスが低下する根本原因はソフトマックスにありますか?次の記事：小型モデルのパフォーマンスが飽和してパフォーマンスが低下する根本原因はソフトマックスにありますか?

続きを見る