ホームページ  >  記事  >  テクノロジー周辺機器  >  李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

WBOY
WBOYオリジナル
2024-08-07 17:06:41796ブラウズ
李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した
AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この記事の筆頭著者は、スタンフォード大学の大学院生である蔡文暁で、以前は東南大学で学士号を取得していました。 1年生の得点。彼の研究対象には、マルチモーダルな大規模モデルと身体化されたインテリジェンスが含まれます。この研究は、上海交通大学訪問と北京知源人工知能研究所でのインターンシップ中に完了しました。彼の指導教員は、この記事の責任著者である趙博教授でした。

以前、リー・フェイフェイ先生は空間インテリジェンスの概念を提案し、それに応えて、上海交通大学、スタンフォード大学、知源大学、北京大学、オックスフォード大学、東達大学の研究者らが大規模空間モデルSpatialBotを提案しました。また、トレーニング データ SpatialQA とテスト リスト SpatialBench を提案し、マルチモーダルな大規模モデルが一般シナリオと具体化されたシナリオで深さと空間を理解できるようにしようとしました。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

  • 論文タイトル: SpatialBot: Precise Depth Understanding with Vision Language Models
  • 論文リンク: https://arxiv.org/abs/2406.13642
  • プロジェクトホームページ: https://github. com/BAAI-DCAI/SpatialBot

身体化された知能のピックアンドプレイスタスクでは、機械の爪がターゲットオブジェクトに触れたかどうかを判断する必要があります。遭遇したら爪を閉じて掴むことができます。ただし、この Berkerly UR5 デモンストレーション データセット シーンでは、GPT-4o や人間ですら、単一の RGB 画像から機械の爪がターゲット オブジェクトに触れたかどうかを判断できません。たとえば、深度情報の助けを借りて、深度マップを直接取得できます。もしそうなら、GPT-4o は深度マップを理解できないため、判断できません。

SpatialBot は、RGB 深度の理解を通じて機械の爪と対象オブジェクトの深度値を正確に取得することができ、それによって空間概念の理解を生み出します。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

具体化されたシーンの SpatialBot デモ:

1. 人間 (カメラ) の視点から、右側のティーカップを掴みます 李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した 2. 中央のティーカップを掴みます 李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した
身体化された知性への必要な道として、大きなモデルに空間を理解させるにはどうすればよいでしょうか?

点群は比較的高価であり、双眼カメラは使用中に頻繁にキャリブレーションを行う必要があります。対照的に、深度カメラは手頃な価格で広く使用されています。一般的なシナリオでは、そのようなハードウェア機器がなくても、大規模な教師なしトレーニング深度推定モデルはすでに比較的正確な深度情報を提供できます。したがって、著者らは、空間的に大きなモデルへの入力として RGBD を使用することを提案しています。

現在の技術的なルートの問題点は何ですか?

  1. 既存のモデルは深度マップ入力を直接理解できません。たとえば、画像エンコーダ CLIP/SigLIP は、深度マップをまったく参照せずに RGB 画像でトレーニングされます。
  2. 既存の大規模モデル データセットのほとんどは、RGB のみを使用して分析し、回答することができます。したがって、既存のデータが単に RGBD 入力に変更された場合、モデルは知識を深度マップに積極的にインデックス付けしません。モデルが深度マップを理解し、深度情報を使用できるようにするには、特別に設計されたタスクと QA が必要です。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

                                  三个层次的 SpatialQA,逐步引导模型理解深度图、使用深度信息
 
如何引导模型理解和使用深度信息,理解空间?

作者提出具有三个层次的 SpatialQA 数据集。

  1. 在 low level 引导模型理解深度图,引导从深度图直接获取信息;
  2. 在 middle level 让模型将 depth 与 RGB 对齐;
  3. 在 high level 设计多个深度相关任务,标注了 50k 的数据,让模型在理解深度图的基础上,使用深度信息完成任务。任务包括:空间位置关系,物体大小,物体接触与否,机器人场景理解等。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

                                     示例对话

SpatialBot 包含什么?

1. 借鉴 agent 中的思想,SpatialBot 在需要时,可以通过 API 获取准确的深度信息。在深度信息获取、远近关系比较的任务上,可以达到 99%+ 的准确率。
2. 针对空间理解任务,作者公布了 SpatialBench 榜单。通过精心设计和标注 QA,测试模型深度理解能力。SpatialBot 在榜单上展示了和 GPT-4o 接近的能力。

模型如何理解深度图?

1. 输入模型的深度图:为了兼顾室内室外任务,需要统一的深度图编码方式。室内的抓取、导航任务可能需要毫米级的精确度,室外的场景不需要这么精准,却可能需要 100 米以上的深度值范围。传统视觉任务中会用 Ordinal Encoding 来编码,但是 ordinal 的值无法进行加减运算。为了尽可能保留所有深度信息,SpatialBot 直接使用以毫米为单位的 metric depth,范围为 1mm~131m,使用 uint24 或三通道的 uint8 来保留这些值。
2. 为了精准的获取深度信息,借鉴 agents 中的思想,SpatialBot 在认为有必要的时候,会以点的形式调用 DepthAPI,获取准确的深度值。若想获取物体的深度,SpatialBot 会先思考物体的 bounding box 是什么,然后用 bounding box 的中心点调用 API。
3. SpatialBot 使用物体的中心点、深度平均、最大和最小四个值来描述深度。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

                                SpatialBot 和 DepthAPI 架构

SpatialBot 在通用场景和具身场景效果如何?

1. SpatialBot 基于 3B 到 8B 的多个 base LLM。通过在 SpatialQA 中学习空间知识,SpatialBot 在常用 MLLM 数据集 (MME、MMBench 等) 上同样展示了显著的效果提升。
2. 在 Open X-Embodiment、作者收集的机器人抓取数据等具身任务上,SpatialBot 同样展示了惊人效果。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

                                SpatialBot 通用场景对比实验

数据如何标注?

精心设计了关于空间理解的问题,比如深度、远近关系、上下左右前后位置关系、大小关系,并且包含了具身中的重要问题,比如两个物体是否接触。

在测试集 SpatialBench 中,首先人工思考问题、选项和答案。为了扩大测试集大小,也使用 GPT 以同样的流程标注。

训练集 SpatialQA 包含三方面: 

  1. 直接理解深度图,让模型看深度图,分析深度的分布,猜测其中可能包含的物体; 
  2. 空间关系理解和推理;
  3. 机器人场景理解:描述 Open X-Embodiment 和本文收集的机器人数据中的场景、包含的物体、可能的任务,并人工标注物体、机器人的 bounding box。

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

                                     空间关系理解

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

                                   Open X-Embodiment 机器人场景理解

李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案した

深度图理解。在使用 GPT 标注这部分数据时,GPT 会先看到深度图,描述深度图、推理其中可能包含的场景和物体,然后看到 RGB 图,筛选出正确的描述和推理。

以上が李飛飛の「空間知能」の後、上海交通大学、知源大学、北京大学などが大規模空間モデルSpatialBotを提案したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。