検索
ホームページテクノロジー周辺機器AIロボットにあなたの「ここにいます」を感知させます。清華大学のチームは何百万ものシナリオを使用して、人間と機械の普遍的なハンドオーバーを作成します。

清華大学学際情報研究所の研究者らは、ロボットがユニバーサルビジョンベースの人間と機械の引き継ぎ戦略を学習できるようにすることを目的とした「GenH2R」と呼ばれるフレームワークを提案した。この戦略により、ロボットは多様な形状と複雑な動作軌道を持つさまざまな物体をより確実に捕捉できるようになり、人間とコンピューターのインタラクションに新たな可能性をもたらします。この研究は、人工知能分野の発展に重要なブレークスルーをもたらし、現実のシナリオでのロボットの応用に大きな柔軟性と適応性をもたらします。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

身体化インテリジェンス (身体化 AI) の時代の到来に伴い、私たちは知的体が環境と積極的に対話することを期待しています。この過程では、ロボットを人間の生活環境に統合し、人間と対話する(ヒューマン・ロボット・インタラクション)ことが重要になっています。私たちは、人間の行動と意図を理解し、人間の期待に最も応える方法で人間のニーズに応え、人間を身体化された知能の中心に置く方法 (人間中心の身体化 AI) を考える必要があります。重要なスキルの 1 つは、一般化可能な人間からロボットへのハンドオーバーであり、これにより、ロボットが人間とより適切に連携して、料理、家の整理整頓、家具の組み立てなどのさまざまな一般的な日常業務を完了できるようになります。

大規模モデルの爆発的な開発は、大量の高品質データからの大規模学習が一般知能に移行する可能性があることを示しています。では、一般知能は巨大ロボットによって取得できるのでしょうかデータと大規模な戦略の模倣? 人間と機械の引き継ぎスキル?しかし、現実世界でのロボットと人間の間の大規模な対話型学習は危険で費用がかかることを考えると、機械は人間に害を及ぼす可能性が高くなります。 シミュレーション環境で学習し、キャラクターシミュレーションと動的把握動作計画を使用して、大量の多様なロボット学習データを自動的に提供し、これらのデータを実際のロボットに適用します。この学習ベースの手法は「Sim-to」と呼ばれます。 -Real Transfer」は、ロボットと人間の間の協調的なインタラクション能力を大幅に向上させ、より高い信頼性を実現します。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

そこで、シミュレーション、デモンストレーション、模倣の 3 つの観点から始めて「GenH2R」フレームワークが提案されました。エンドツーエンドのアプローチに基づいて、あらゆる把持方法、あらゆるハンドオーバー軌道、あらゆるオブジェクト形状に対する普遍的なハンドオーバーを初めて学習

: 1) 「GenH2R-Sim」環境で数百万レベルを提供 さまざまな複雑なシミュレーション生成が容易な引継ぎシナリオ、2) 視覚と行動の連携に基づく一連の自動化された専門家デモンストレーション (Expert Demonstration) 生成プロセスの導入、3) 4D 情報と予測支援 (点群時間) に基づく模倣学習の使用 (Imitation Learning) ) 方法。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

SOTA メソッド (CVPR2023 ハイライト) と比較して、さまざまなテスト セットにおける GenH2R のメソッドの平均成功率は 14% 増加し、時間は 13% 短縮され、実際にはマシン 実験ではパフォーマンスがより堅牢になります。

紙のアドレス: https://arxiv.org/abs/2401.00929让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接


紙のホームページ: https://GenH2R.github.io

  • #紙のビデオ: https://youtu.be/BbphK5QlS1Y
  • #メソッドの紹介
  • #まだレベルをクリアしていないプレイヤーを助けるために、「シミュレーション環境」の詳細について学びましょう。 (GenH2R-Sim)」のパズルの解き方。

高品質で大規模な人間の手オブジェクト データセットを生成するために、GenH2R-Sim 環境は、把握ポーズと動作軌跡の両方の観点からシーンをモデル化します。

GenH2R-Sim は、把握姿勢に関して、ShapeNet から豊富な 3D オブジェクト モデルを導入し、引き継ぎに適した 3266 個の日常オブジェクトを選択し、器用な把握の生成手法 (DexGraspNet) を使用します。人間の手で物体を掴むシーンが合計 100 万件生成されました。動きの軌跡に関しては、GenH2R-Sim は複数の制御点を使用して複数の滑らかなベジェ曲線を生成し、人間の手や物体の回転を導入して、手で運ばれた物体のさまざまな複雑な動きの軌跡をシミュレートします。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

GenH2R-Sim の 100 万シーンでは、モーション軌跡 (1,000 対 100 万) やオブジェクトの数 (20) の点でも最新作をはるかに上回っています。 vs 3266)、また、実際の状況に近いインタラクティブな情報(ロボットアームが対象物に十分近づくと、人間は動きを止めて引き継ぎが完了するのを待つなど)も導入しています。単純な軌跡再生よりも。シミュレーションによって生成されたデータは完全に現実的ではありませんが、実験結果によると、大規模なシミュレーション データは小規模な実際のデータよりも学習に適しています。

#B. 蒸留に有益な専門家事例の大規模な生成

大規模なデータに基づく人間の手と物体の動きの軌跡データ、GenH2R は多数の専門家の例を自動的に生成します。 GenH2R が求める「専門家」は、改良されたモーション プランナー (OMG プランナーなど) です。これらのメソッドは非学習で、制御に最適化されており、視覚点群に依存しません。多くの場合、いくつかのシーン状態 (ターゲットの掴み位置など) が必要です。オブジェクトの)。)。その後のビジュアル ポリシー ネットワークが学習に有益な情報を確実に抽出できるようにするために、重要なのは、「専門家」によって提供される例にビジョンとアクションの相関関係があることを確認することです。計画中に最終着地点がわかっている場合、ロボット アームは視覚を無視して最終位置に直接計画を立てて「待ち続ける」ことができます。これにより、ロボットのカメラが物体を認識できなくなる可能性があります。この例は、下流の視覚戦略ネットワーク; 物体の位置に基づいてロボットアームの計画を頻繁に変更すると、ロボットアームが不連続に動いたり、奇妙な形状になったりして、合理的な把握を完了できなくなる可能性があります。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

蒸留に適したエキスパートのサンプルを生成するために、GenH2R では Landmark Planning を導入しています。人間の手の動きの軌跡は、ランドマークを分割マークとして、軌跡の滑らかさと距離に応じて複数のセグメントに分割されます。各セグメントでは、人間の手の軌道は滑らかで、専門家の手法によりランドマーク ポイントに向かって計画されます。このアプローチにより、視覚とアクションの相関性とアクションの連続性の両方が保証されます。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

C. 予測支援型 4D 模倣学習ネットワーク

に基づく大規模な専門家の例では、GenH2R は模倣学習手法を使用して 4D ポリシー ネットワークを構築し、観察された時系列点群情報をジオメトリとモーションに分解します。各フレームの点群について、前のフレームの点群と反復最近接点アルゴリズムの間の姿勢変換が計算されて、各点の流れ情報が推定され、各フレームの点群がすべて動きの特性を持つようになります。次に、PointNet を使用して点群の各フレームをエンコードし、最終的に必要な 6D 自己中心アクションをデコードするだけでなく、オブジェクトの将来の姿勢の予測も出力し、将来の手やオブジェクトの動きを予測するポリシー ネットワークの能力を強化します。 。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

より複雑な 4D バックボーン (Transformer ベースなど) とは異なり、このネットワーク アーキテクチャは推論速度が速く、オブジェクトの受け渡しに適しています。この種の人間とコンピューターの対話シナリオでは、低遅延が必要であると同時に、タイミング情報を効果的に利用して、簡素さと効率性のバランスを実現できます。

#実験

A. シミュレーション環境実験

GenH2R とSOTA 手法をさまざまな設定で比較しましたが、GenH2R-Sim で小規模な実データをトレーニングに使用する手法と比較して、大規模なシミュレーション データをトレーニングに使用する手法は、大きな利点 (さまざまなテスト セットでの成功率) を達成できます。平均で 14% 増加し、時間は 13% 短縮されます)。

実際のデータ テスト セット s0 では、GenH2R メソッドはより複雑なオブジェクトを正常に引き渡すことができ、グリッパーがオブジェクトに近い場合に頻繁に姿勢を調整する必要がないように、事前に姿勢を調整できます。物体: ###############

シミュレーション データ テスト セット t0 (GenH2R-sim によって導入) では、GenH2R のメソッドは、より合理的な進入軌道を達成するために、物体の将来の姿勢を予測できます。

#実際のデータ テスト セット t1 (GenH2R-sim は HOI4D から導入され、以前の研究の s0 テスト セットより約 7 倍大きい) では、GenH2R のメソッドを目に見えないものに一般化できます。さまざまな幾何学的形状を持つ現実世界のオブジェクト。 让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

B. 実機実験

GenH2R は、学習した戦略を実世界のロボット アームに同時に展開しますそして「シミュレーションからリアルへ」のジャンプを完了します。

より複雑な運動軌跡 (回転など) の場合、GenH2R の戦略はより強い適応性を示し、より複雑な形状の場合、GenH2R の方法はより強い適応性を示します。

##GenH2R は、さまざまなハンドオーバー オブジェクトの実機テストとユーザー調査を完了し、強力な堅牢性を実証しています。

让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

#実験や方法の詳細については、論文のホームページを参照してください。

チーム紹介让机器人感知你的「Here you are」,清华团队使用百万场景打造通用人机交接

この論文は、清華大学 3DVICI 研究室、上海人工知能研究所、上海 Qizhi Research Institute からのものです。清華大学の学生、Wang Zifan (共著)、Chen Junyu (共著)、Chen Ziqing と Xie Pengwei が担当し、講師は Yi Li と Chen Rui です。

清華大学の 3 次元ビジョン コンピューティングおよび機械知能研究所 (略称 3DVICI 研究所) は、清華大学学際情報研究所の下にある人工知能研究所です。イ・リー教授。 3DVICI Lab は、人工知能における一般的な 3 次元視覚とインテリジェント ロボット インタラクションに関する最先端の課題を目指しており、その研究方向性は身体化された知覚、インタラクションの計画と生成、人間と機械のコラボレーションなどをカバーしており、アプリケーションと密接に関連しています。ロボット工学、仮想現実、自動運転などの分野。このチームの研究目標は、インテリジェント エージェントが 3 次元世界を理解し、対話できるようにすることであり、その結果は主要なトップ コンピュータ会議やジャーナルで発表されています。

以上がロボットにあなたの「ここにいます」を感知させます。清華大学のチームは何百万ものシナリオを使用して、人間と機械の普遍的なハンドオーバーを作成します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
从VAE到扩散模型:一文解读以文生图新范式从VAE到扩散模型:一文解读以文生图新范式Apr 08, 2023 pm 08:41 PM

1 前言在发布DALL·E的15个月后,OpenAI在今年春天带了续作DALL·E 2,以其更加惊艳的效果和丰富的可玩性迅速占领了各大AI社区的头条。近年来,随着生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型(Diffusion models)的出现,深度学习已向世人展现其强大的图像生成能力;加上GPT-3、BERT等NLP模型的成功,人类正逐步打破文本和图像的信息界限。在DALL·E 2中,只需输入简单的文本(prompt),它就可以生成多张1024*1024的高清图像。这些图像甚至

找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了找不到中文语音预训练模型?中文版 Wav2vec 2.0和HuBERT来了Apr 08, 2023 pm 06:21 PM

Wav2vec 2.0 [1],HuBERT [2] 和 WavLM [3] 等语音预训练模型,通过在多达上万小时的无标注语音数据(如 Libri-light )上的自监督学习,显著提升了自动语音识别(Automatic Speech Recognition, ASR),语音合成(Text-to-speech, TTS)和语音转换(Voice Conversation,VC)等语音下游任务的性能。然而这些模型都没有公开的中文版本,不便于应用在中文语音研究场景。 WenetSpeech [4] 是

普林斯顿陈丹琦:如何让「大模型」变小普林斯顿陈丹琦:如何让「大模型」变小Apr 08, 2023 pm 04:01 PM

“Making large models smaller”这是很多语言模型研究人员的学术追求,针对大模型昂贵的环境和训练成本,陈丹琦在智源大会青源学术年会上做了题为“Making large models smaller”的特邀报告。报告中重点提及了基于记忆增强的TRIME算法和基于粗细粒度联合剪枝和逐层蒸馏的CofiPruning算法。前者能够在不改变模型结构的基础上兼顾语言模型困惑度和检索速度方面的优势;而后者可以在保证下游任务准确度的同时实现更快的处理速度,具有更小的模型结构。陈丹琦 普

解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉Transformer解锁CNN和Transformer正确结合方法,字节跳动提出有效的下一代视觉TransformerApr 09, 2023 pm 02:01 PM

由于复杂的注意力机制和模型设计,大多数现有的视觉 Transformer(ViT)在现实的工业部署场景中不能像卷积神经网络(CNN)那样高效地执行。这就带来了一个问题:视觉神经网络能否像 CNN 一样快速推断并像 ViT 一样强大?近期一些工作试图设计 CNN-Transformer 混合架构来解决这个问题,但这些工作的整体性能远不能令人满意。基于此,来自字节跳动的研究者提出了一种能在现实工业场景中有效部署的下一代视觉 Transformer——Next-ViT。从延迟 / 准确性权衡的角度看,

Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Stable Diffusion XL 现已推出—有什么新功能,你知道吗?Apr 07, 2023 pm 11:21 PM

3月27号,Stability AI的创始人兼首席执行官Emad Mostaque在一条推文中宣布,Stable Diffusion XL 现已可用于公开测试。以下是一些事项:“XL”不是这个新的AI模型的官方名称。一旦发布稳定性AI公司的官方公告,名称将会更改。与先前版本相比,图像质量有所提高与先前版本相比,图像生成速度大大加快。示例图像让我们看看新旧AI模型在结果上的差异。Prompt: Luxury sports car with aerodynamic curves, shot in a

​什么是Transformer机器学习模型?​什么是Transformer机器学习模型?Apr 08, 2023 pm 06:31 PM

译者 | 李睿审校 | 孙淑娟​近年来, Transformer 机器学习模型已经成为深度学习和深度神经网络技术进步的主要亮点之一。它主要用于自然语言处理中的高级应用。谷歌正在使用它来增强其搜索引擎结果。OpenAI 使用 Transformer 创建了著名的 GPT-2和 GPT-3模型。自从2017年首次亮相以来,Transformer 架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。它们已被用于时间序列预测。它们是 DeepMind 的蛋白质结构预测模型 AlphaFold

五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药五年后AI所需算力超100万倍!十二家机构联合发表88页长文:「智能计算」是解药Apr 09, 2023 pm 07:01 PM

人工智能就是一个「拼财力」的行业,如果没有高性能计算设备,别说开发基础模型,就连微调模型都做不到。但如果只靠拼硬件,单靠当前计算性能的发展速度,迟早有一天无法满足日益膨胀的需求,所以还需要配套的软件来协调统筹计算能力,这时候就需要用到「智能计算」技术。最近,来自之江实验室、中国工程院、国防科技大学、浙江大学等多达十二个国内外研究机构共同发表了一篇论文,首次对智能计算领域进行了全面的调研,涵盖了理论基础、智能与计算的技术融合、重要应用、挑战和未来前景。论文链接:​https://spj.scien

AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军AI模型告诉你,为啥巴西最可能在今年夺冠!曾精准预测前两届冠军Apr 09, 2023 pm 01:51 PM

说起2010年南非世界杯的最大网红,一定非「章鱼保罗」莫属!这只位于德国海洋生物中心的神奇章鱼,不仅成功预测了德国队全部七场比赛的结果,还顺利地选出了最终的总冠军西班牙队。不幸的是,保罗已经永远地离开了我们,但它的「遗产」却在人们预测足球比赛结果的尝试中持续存在。在艾伦图灵研究所(The Alan Turing Institute),随着2022年卡塔尔世界杯的持续进行,三位研究员Nick Barlow、Jack Roberts和Ryan Chan决定用一种AI算法预测今年的冠军归属。预测模型图

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PhpStorm Mac バージョン

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール