ホームページ >テクノロジー周辺機器 >AI >大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場

大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場

PHPz
PHPz転載
2023-09-16 20:13:021280ブラウズ

DriveLM は、データ セットとモデルを含む言語ベースのドライバー プロジェクトです。 DriveLM では、自動運転 (AD) に大規模な言語モデルの推論機能を導入して、意思決定を行い、説明可能な計画を確保します。

DriveLM のデータセットでは、人間が作成した推論ロジックを接続とし​​て使用して、認識、予測、計画を促進します (P3)。私たちのモデルでは、より良い計画結果を生み出すためのマインド マッピング機能を備えた AD ビジュアル言語モデルを提案します。現在、データセットのデモ バージョンをリリースしています。完全なデータセットとモデルは将来リリースされる予定です。

プロジェクト リンク: https://github.com/OpenDriveLab/DriveLM 書き換える必要がある内容は次のとおりです。 プロジェクトリンク: https://github.com/OpenDriveLab/DriveLM

大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場

大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場

Graph とは-of -Thoughts in AD?

データセットの最も興味深い点は、P3 の質問応答 (QA) がグラフ形式の構造で接続されており、各ノードとして QA ペアとその関係が示されていることです。オブジェクトをエッジとして扱います。

純粋な言語の思考ツリーや思考マップと比較して、私たちはマルチモダリティを好みます。 AD ドメインでは、生のセンサー入力から最終的な制御アクションまで、各段階で AD タスクが定義されるため、これを行います

大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場

大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場

とはDriveLM データセットに含まれていますか?

主流の nuScenes データセットに基づいてデータセットを構築します。 DriveLM の中核要素は、フレームベースの P3 QA です。知覚の問題では、モデルがシーン内のオブジェクトを認識する必要があります。予測問題では、モデルがシーン内の重要なオブジェクトの将来の状態を予測する必要があります。計画の問題により、モデルは合理的な計画アクションを実行し、危険なアクションを回避するように促されます。

校正プロセスはどのように行われますか?

  1. キーフレームの選択。クリップ内のすべてのフレームが与えられると、アノテーターは注釈を付ける必要があるキーフレームを選択します。これらの枠組みは、自車の運動状態の変化(車線変更、急停止、停止後の発進など)を伴うことが標準である。
  2. キーオブジェクトの選択。キーフレームが与えられると、アノテーターは周囲の 6 つの画像から主要なオブジェクトをピックアップする必要があります。標準では、これらのオブジェクトは自分の車両 (信号機、道路を横断する歩行者、他の車両) に影響を与えることができる必要があります。
  3. Q&A コメント。これらの主要なオブジェクトを考慮すると、認識、予測、計画に関する単一または複数のオブジェクトの質問が自動的に生成されます。詳細については、デモ データをご覧ください。

以上が大型モデルの「車に乗る」ための重要なステップ: 世界初の言語 + 自動運転オープンソース データセットが登場の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。