ホームページ >テクノロジー周辺機器 >AI >リー・フェイフェイの起業家としての方向性を理解したいですか?ロボティクス + 3D に関する論文のリストはこちらです

リー・フェイフェイの起業家としての方向性を理解したいですか?ロボティクス + 3D に関する論文のリストはこちらです

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBオリジナル: 2024-08-16 16:37:33691ブラウズ

80 多篇论文搞懂「机器人+3D」研究进展。

前段时间，多家媒体报道称，著名 AI 学者、斯坦福大学教授李飞飞的创业公司 World Labs 在短短三个月内已经完成了两轮融资，其中最新一轮融资中筹到了约 1 亿美元，公司估值已超过 10 亿美元，成为新晋独角兽。

World Labs 的发展方向聚焦于「空间智能」，即开发能够理解三维物理世界的模型，模拟物体的物理特性、空间位置和功能。李飞飞认为「空间智能」是 AI 发展的关键一环，她的团队正在斯坦福大学实验室里训练计算机和机器人在三维世界中采取行动，例如使用大型语言模型让一个机械臂根据口头指令执行开门、做三明治等任务。（详情请参见《李飞飞解读创业方向「空间智能」，让 AI 真正理解世界》）

リー・フェイフェイの起業家としての方向性を理解したいですか?ロボティクス + 3D に関する論文のリストはこちらです

^{为了解释「空间智能」这一概念，李飞飞展示了一张猫伸出爪子将玻璃杯推向桌子边缘的图片。她表示，在一瞬间，人类大脑可以评估「这个玻璃杯的几何形状，它在三维空间中的位置，它与桌子、猫和所有其他东西的关系」，然后预测会发生什么，并采取行动加以阻止。}

其实，除了李飞飞，现在有很多研究团队都在关注 3D 视觉 + 机器人这一方向。这些团队认为，当前 AI 存在的很多局限都是因为模型缺乏对于 3D 世界的深刻理解。如果要补全这一拼图，势必要在 3D 视觉方向投入更多的研究精力。此外，3D 视觉提供了对环境的深度感知和空间理解能力，这对于机器人在复杂三维世界中的导航、操作和决策至关重要。

那么，有没有一份系统的研究资料可以供这一方向的研究者参考呢？本站最近就找到了一份：

项目链接：https://github.com/zubair-irshad/Awesome-Robotics-3D

这个名叫「Awesome-Robotics-3D」的 GitHub 存储库总共收集了 80 多篇「3D 视觉 + 机器人」方向的论文，大部分论文都给出了相应的论文、项目、代码链接。

这些论文可以分为以下几个主题：

策略学习
预训练
VLM 和 LLM
表示
模拟、数据集和基准

这些论文既有 arXiv 预印本，也有 RSS、ICRA、IROS、CORL 等机器人学顶会以及 CVPR、ICLR、ICML 等计算机视觉、机器学习领域的顶会论文，含金量非常高。

各パートの論文リストは以下のとおりです:

1、戦略学習

2、事前トレーニング

3、VLMとLLM

4. 表現

5. シミュレーション、データセット、ベンチマーク

さらに、著者は参照できる 2 つのレビュー論文も提供しています。

論文 1: LLM が 3D 世界に足を踏み入れるとき: マルチモーダル大規模言語モデルによる 3D タスクの調査とメタ分析
論文リンク: https://arxiv.org/pdf/2405.10255

論文の紹介: この論文では、LLM による 3D データの処理、理解、生成を可能にする方法論の包括的な概要を提供し、コンテキスト内学習などの LLM の独自の利点をステップバイステップで強調します。推論、オープンな語彙能力、幅広い世界知識、これらの利点は、身体化された人工知能システムにおける空間理解と相互作用を大幅に進歩させると期待されています。この研究では、点群から神経放射線場 (NeRF) までのさまざまな 3D データ表現方法をカバーし、3D シーンの理解、説明の生成、質問応答と対話のための LLM との統合、および次のような空間タスクのための LLM ベースのエージェントを調査しています。推論、計画、ナビゲーション。さらに、この論文では 3D と言語を統合するための他の方法について簡単にレビューします。この論文は、これらの研究のメタ分析を通じて、達成された重要な進歩を明らかにし、3D-LLM の可能性を最大限に活用するための新しい方法を開発する必要性を強調しています。

この調査をサポートするために、著者は、このトピックに関連する論文を整理してリストするためのプロジェクトページを設立しました: https://github.com/ActiveVisionLab/Awesome-LLM-3D

Paper 2: 3-D Vision-Based Robot Manipulation の包括的な研究
論文リンク: https://ieeexplore.ieee.org/document/9541299

論文の紹介: この記事は包括的ですロボット制御分野における 3D ビジョンの進歩、特に人間の知能を模倣し、ロボットにより柔軟な作業能力を与える点が分析されます。この記事では、従来のロボット制御が通常依存している 2D ビジョンシステムとその限界について説明し、乱雑な背景での一般的なオブジェクト認識、オクルージョン推定、人間のような柔軟性など、オープンワールドで 3D ビジョンシステムが直面する課題を指摘しています。コントロール。この記事では、3D データの取得と表現、ロボットのビジョンキャリブレーション、3D オブジェクトの検出/認識、6 自由度の姿勢推定、把握推定、動作計画などの主要なテクノロジについて説明します。さらに、いくつかの公開データセット、評価基準、比較分析、現在の課題も紹介されています。最後に、この記事ではロボット制御の関連応用分野を調査し、将来の研究の方向性と未解決の問題について説明します。

興味のある読者は、プロジェクトのリンクをクリックして学習を始めることができます。

以上がリー・フェイフェイの起業家としての方向性を理解したいですか?ロボティクス + 3D に関する論文のリストはこちらですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

github 人工智能 https

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：copilot 履歴を表示する方法次の記事：copilot 履歴を表示する方法

続きを見る