ホームページ >テクノロジー周辺機器 >AI >上海交通大学の卒業生が最優秀論文賞を受賞、ロボット工学の最高峰カンファレンスCoRL 2022の賞も発表
2017 年に初めて開催されて以来、CoRL はロボット工学と機械学習が交わる世界トップクラスの学術会議の 1 つになりました。 CoRL はロボット学習研究のための単一トラックのカンファレンスであり、理論や応用を含むロボット工学、機械学習、制御などの複数のトピックをカバーしています。
2022 CoRL カンファレンスは、12 月 14 日から 18 日までニュージーランドのオークランドで開催されます。
このカンファレンスには合計 504 件の投稿があり、最終的に 34 件の口頭論文と 163 件のポスター論文が受理されました。率は39%です。
現在、CoRL 2022 では、最優秀論文賞、最優秀システム論文賞、特別イノベーション賞などを発表しています。 。ペンシルベニア大学のGRASP研究室で修士号を取得し、上海交通大学の卒業生でもあるクン・ファン氏が、この会議で最優秀論文賞を受賞した。
最優秀論文賞この会議で最優秀論文賞を受賞したのは、ペンシルバニア大学の研究です。
: 多くの場合、物理的な相互作用は、テーブルの脚を引っ張ってテーブルが安定しているか、水のボトルを回転させているかを評価するなど、あまり明白ではない情報を明らかにするのに役立ちます。この研究では、ロボットがスキルを実行しようとした結果を評価するようにロボットを訓練することで、このインタラクティブな動作を自動的に獲得できる可能性があることを示唆しています。これらの評価は、テーブルの脚を締めるなどの目標スキルを実行するための強化学習ポリシーをトレーニングするために使用される IRF (対話型報酬関数) として機能します。さらに、IRF は、完全なトレーニングが完了した後でも、オンライン タスクの実行を改善する検証メカニズムとして機能します。どのようなタスクにおいても、IRF トレーニングは非常に便利であり、追加の仕様は必要ありません。 評価結果は、IRF がパフォーマンスの大幅な向上を達成し、デモや慎重に作成された報酬へのアクセスによってベースラインを超えることさえできることを示しています。たとえば、下の図では、ロボットはまずドアを閉め、次に対称のドア ハンドルを回転させてドアを完全にロックする必要があります。
#ドアロック評価例のデモンストレーション
次の実験の目的は、視覚的に同一の 3 つを組み合わせることです。ブロックは安定したタワーに積み上げられますが、1 つの小さなブロックは他の 2 つよりも著しく重いため、それを一番下に置くのが最善の戦略です。
スタック評価例のデモンストレーション
アルゴリズムの堅牢性と一般性を確認するために、この調査では、 9関節のD'Clawを使用し、実際のロボットによる締め付け実験を行いました。この作業の目的は、4 プロング バルブを時計回りに約 180° 回転させて締めた状態 (バルブ ベースの白線) にすることです。
著者紹介
今回、CoRL 2022 Best Paper Awardを受賞した著者は、Kun Huang、Edward Hu、Dinesh Jayaramanの3名です。
Dinesh Jayaraman は、ペンシルバニア大学 GRASP 研究室の助教授で、知覚、行動、学習 (PAL) 研究グループを率いています。コンピューター ビジョン、機械学習、ロボット工学、問題の研究。
Kun Huang は、ペンシルバニア大学 GRASP 研究室の修士であり、Dinesh Jayaraman 教授の指導の下で強化学習を研究しています。彼はミシガン大学でコンピューター サイエンスの学士号を取得し、そこでドミトリー ベレンソン教授とともにロボットの知覚について研究しました。 Kun Huang は上海交通大学を卒業して学士号を取得しており、研究対象にはロボット工学や現実世界の応用が含まれます。 Kun Huang は修士課程中に Waymo でインターンをしており、卒業後は機械学習エンジニアとしてクルーズに入社します。
LinkedIn ホームページ: https://www.linkedin.com/in/kun-huang-620034171/
Edward S. Hu I私はペンシルバニア大学の GRASP 研究室の博士課程の学生で、Dinesh Jayaraman 教授の下で勉強しています。彼の主な研究対象は、モデルベースの強化学習です。エドワードは南カリフォルニア大学でコンピュータ サイエンスの修士号と学士号を取得し、ジョセフ J. リム教授とともにロボットの強化学習と模倣学習に取り組みました。
このカンファレンスでは、合計 3 つの論文が最優秀論文賞の最終候補に残りました。最終受賞論文に加え、他の 2 論文は次のとおりです。 :
論文タイトル: 自己中心的ビジョンを使用した困難な地形における脚移動
この論文では、研究者らは、単一のファサードを使用して中規模の建物内の階段、縁石、飛び石、空隙を横断できる初のエンドツーエンド移動システムを提案しています。結果は、深度カメラを備えた四足ロボットで実証されます。ロボットのサイズが小さいため、他では見られない特殊な歩行パターンを発見する必要があります。カメラは、背後と下の地形を推定するために過去の情報を記憶する戦略を習得する必要があります。
研究者らは、シミュレートされた環境でロボットの戦略を訓練しました。トレーニングは 2 つの段階に分かれています。まず、強化学習を使用して低計算コストでディープ イメージ バリアントに関するポリシーをトレーニングし、次に深層教師あり学習を使用してそれを最終ポリシーに洗練します。
結果として得られる戦略は現実世界に移すことができ、限られたコンピューティング能力でリアルタイムに実行できます。ロボット。滑りやすい路面や岩場などの外乱に対して堅牢でありながら、幅広い地形を走破できます。
飛び石と隙間
ロボットは、さまざまな構成のバースツールをまたいで、段差を調整できます。隙間が長すぎる。後ろ足の近くにはカメラがないため、ロボットはバースツールの位置を記憶し、それに応じて後ろ足を配置する必要があります。
階段と縁石
ロボットは登ることができます高さ24cm、幅30cmの階段です。戦略は、さまざまな照明条件の下でさまざまな階段や縁石に適用されます。不均等な間隔の階段では、ロボットは最初は立ち往生しますが、最終的には登る動作を使用して障害物を乗り越えることができるようになります。
構造化されていない地形
ロボットは、構造化されていない地形を横断することができます。カテゴリの 1 つである非構造化地形は、システムの一般化能力を示しています。
#暗闇での動き
深度カメラは赤外線を使用して、パターンを投影し、周囲光がほとんどない状況でも正確に深度を推定します。
堅牢性
高力への戦略性(高さから5kgの重りを投げる)と滑りやすさ 表面(注水)プラスチックシート上)は丈夫です。
著者紹介
この商品この研究には4人の著者がいる。Jitendra Malik は現在、カリフォルニア大学バークレー校の電気工学およびコンピュータ サイエンス学科のアーサー J. チック教授を務めています。彼の研究分野には、コンピュータ ビジョン、人間の視覚の計算モデリング、コンピュータ グラフィックスが含まれます。生物学、画像解析など
この受賞歴のある研究の著者の一人であるアシシュ クマール氏は、彼の博士課程の学生です。
Deepak Pathak は現在カーネギー メロン大学の助教授で、カリフォルニア大学バークレー校で博士号を取得しており、研究テーマには機械学習、ロボット工学、コンピューター ビジョンなどがあります。
この受賞歴のある研究の著者の一人であるアナンイェ・アガルワルは、彼の博士課程の学生です。
さらに、Deepak Pathak 氏は、このカンファレンスの最優秀システム論文賞の最終候補リストについて別の研究を行っています。
今回はこの研究は、Google の多くの研究者によって共同で完了されました。
大規模な言語モデルは、世界に関する大量の意味論的な知識をエンコードでき、そのような知識はロボットにとって非常に役立ちます。ただし、言語モデルには現実世界の経験が不足しているという欠点があり、セマンティクスを活用して特定のタスクに関する意思決定を行うことが困難になります。 Google の研究者らは、実現可能かつ実現可能な自然言語を思いつくようにモデルを制約するために使用される事前トレーニング スキルを通じて、大規模な言語モデルのための現実世界の基盤を提供することを提案しています。状況に応じて適切に動作します。ロボットは言語モデルの「手と目」として機能し、タスクに関する高度な意味論的な知識を提供します。この研究では、低レベルのスキルを大規模な言語モデルと組み合わせることで、言語モデルが複雑で時間のかかる命令を実行するプロセスに関する高レベルの知識を提供し、これらのスキルに関連付けられた価値関数が接続する手段を提供する方法を示しています。この知識は特定の物理環境に必要な基礎です。
研究者らは、大規模言語モデル (LLM) とロボットの物理的なタスクを組み合わせるときに、この原理を使用しました。LLM に命令を単に解釈させるだけでなく、ユーザーはそれを使用することもできます。単一のアクションが高レベルの指示全体を完了するのに役立つ確率を評価します。簡単に言えば、各アクションには言語の説明を含めることができ、プロンプト言語モデルを使用してこれらのアクションにスコアを付けることができます。さらに、各アクションに対応するアフォーダンス関数がある場合、現在の状態 (学習値関数など) からその成功の可能性を定量化することができます。 2 つの確率値の積は、ロボットが指示に役立つアクションを正常に完了できる確率です。この確率に従って一連のアクションを並べ替え、最も高い確率を持つアクションを選択します。
以下の例は、リンゴを手に入れるのを手伝うロボットを示しています:
以上が上海交通大学の卒業生が最優秀論文賞を受賞、ロボット工学の最高峰カンファレンスCoRL 2022の賞も発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。