ホームページ >テクノロジー周辺機器 >AI >ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法
自動運転車のセンサー レベルでのドメインの変化は、非常に一般的な現象です。たとえば、さまざまなシナリオや場所にある自動運転車は、自己の中にあります。 - 異なる照明や気象条件下での車両の運転、異なるセンサー機器を装備した自動運転車両など、上記すべては自動運転領域における典型的な違いと考えることができます。このドメインの違いが自動運転に課題をもたらします。その主な理由は、古いドメインの知識に依存する自動運転モデルは、追加コストなしでこれまで見たことのない新しいドメインに直接展開することが難しいためです。したがって、この論文では、ドメイン移行のための新しい視点と方法を提供する再構築シミュレーション認識 (ReSimAD) スキームを提案します。具体的には、暗黙的再構成技術を用いて運転シーンにおける古いドメイン知識を取得し、その再構成プロセスの目的は、古いドメインのドメイン関連知識をドメイン不変表現(ドメイン不変表現)に変換する方法を研究することです。たとえば、3D シーンレベルのメッシュ表現 (3D メッシュ表現) はドメイン不変の表現であると考えられます。再構成された結果に基づいて、シミュレーターを使用して、ターゲット ドメインのより現実的なシミュレーション点群を生成します。このステップは、再構成された背景情報とターゲット ドメインのセンサー ソリューションに依存するため、データ収集とラベル付けの時間が短縮されます。その後のセンシングプロセス 新しいドメインデータのコスト。
実験検証部分では、Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE などのさまざまなクロスドメイン設定を検討しました。すべてのクロスドメイン設定はゼロショット実験設定を採用しており、ソース ドメインのバックグラウンド メッシュとシミュレートされたセンサーのみに依存してターゲット ドメイン サンプルをシミュレートし、モデルの汎化機能を向上させます。結果は、ReSimAD がターゲット ドメイン シーンに対する知覚モデルの一般化能力を大幅に向上させ、教師なしドメイン適応手法よりも優れていることを示しています。
を新しい領域 (異なるセンサー設定や目に見えない都市など) に一般化することは困難です。自動運転分野の長期的なビジョンは、モデルがより低コストでドメイン移行を実現できるようにすることです。つまり、ソース ドメインで完全にトレーニングされたモデルを、ソース ドメインとターゲット ドメインのシナリオにうまく適応させることです。ターゲット ドメインがそれぞれ存在します。明らかなデータ分布の違いがある 2 つのドメインがあります。たとえば、ソース ドメインは晴れ、ターゲット ドメインは雨、ソース ドメインは 64 ビーム センサー、ターゲット ドメインは 32 ビーム センサーです。 一般的に使用されるソリューションのアイデア
: 上記のドメインの違いに直面した場合、最も一般的な解決策は、ターゲット ドメインのシナリオのデータを取得してアノテーションを付けることです。この方法により、ドメインの違いをある程度回避できます。違いによるモデルの性能低下が問題ですが、1) データ収集コストと 2) データのラベル付けコストが膨大です。したがって、以下の図に示すように (2 つのベースライン メソッド (a) と (b) を参照)、新しいドメインのデータ収集とデータ アノテーションのコストを軽減するために、シミュレーション エンジンを使用して、いくつかのシミュレートされたデータをレンダリングできます。点群サンプル: これは、シミュレーションから現実への研究作業における一般的なソリューションのアイデアです。もう 1 つのアイデアは、教師なしドメイン適応 (UDA for 3D) です。このタイプの研究の目的は、ラベルのないターゲット ドメイン データ (実際のデータであることに注意してください) のみにさらされる条件下で、ほぼ完全に教師ありの微調整を実現する方法を研究することです。 ) これが達成できれば、ターゲット ドメインのラベル付けコストは確かに節約されますが、UDA 手法では、ターゲット ドメインのデータ分布を特徴付けるために、実際のターゲット ドメイン データを大量に収集する必要があります。図 1: さまざまなトレーニング パラダイムの比較
私たちのアイデア: 上記の 2 つのカテゴリの研究アイデアとは異なり、下図 ((c) ベースライン プロセスを参照) に示すように、私たちはデータ シミュレーションと知覚の統合ルートに取り組んでいます。 virtual と real を組み合わせます。ここで、virtual と real の組み合わせにおけるリアリティとは、大規模なラベル付けされたソース ドメイン データに基づいてドメイン不変表現を構築することを指します。この仮定は、多くのシナリオにとって実際的に重要です。長期にわたる履歴データの蓄積後、次のことができるからです。この種のラベル付きソース ドメイン データが存在すると常に考えますが、一方で、仮想と現実の組み合わせでのシミュレーションは、ソース ドメイン データに基づいてドメイン不変表現を構築する場合、この表現を既存のドメイン データにインポートすることができます。ターゲット ドメイン データのシミュレーションを実行するレンダリング パイプライン。現在のシミュレーションとリアルの研究作業と比較して、私たちの方法は、道路構造、上り坂と下り坂の斜面などの実際の情報を含む実際のシーンレベルのデータによってサポートされています。この情報は、シミュレーションエンジンのみに依存するだけでは取得することが困難です。自体。ターゲット ドメインでデータを取得した後、そのデータを PV-RCNN などの現在の最適な知覚モデルに統合してトレーニングし、ターゲット ドメインでのモデルの精度を検証します。全体的な詳細なワークフローについては、以下の図を参照してください。
図 2 ReSimAD のフローチャート
ReSimAD のフローチャートを図 2 に示します。これには主に a)ポイントツーメッシュ暗黙的再構成プロセス, b) メッシュツーポイント シミュレーション エンジン レンダリング プロセス, c) ゼロサンプルセンシングプロセス。
a) ポイントツーメッシュ暗黙的再構成プロセス: の影響を受けます。 StreetSurf に触発され、実際の多様なストリート シーンの背景と動的な交通流情報を再構築するために LIDAR 再構築のみを使用します。私たちは最初に純粋な点群 SDF 再構成モジュール (LiDAR のみの暗黙的ニューラル再構成、LINR) を設計しました。その利点は、照明の変化、気象条件の変化、カメラのセンシングによって引き起こされるドメインの違いの影響を受けないことです。等。純粋な点群 SDF 再構成モジュールは、LiDAR レイを入力として受け取り、深度情報を予測し、最後にシーンの 3D メッシュ表現を構築します。
具体的には、原点 から方向 で放射された光線 に対して、ボリューム レンダリングを LIDAR に適用して、符号付き距離フィールド (SDF) ネットワークとレンダリング深度 D をトレーニングします。
ここで、 はサンプル ポイント のサンプリング深さ、 は累積透過率 (累積透過率) であり、近似関数を使用して取得されます。 NeuSのレンジモデル。
StreetSurf からインスピレーションを得て、この記事で提案する再構成プロセスのモデル入力は LIDAR レイから取得され、出力は予測深度です。サンプリングされた LIDAR ビーム ごとに、対数 L1 損失を に適用します。これは、近距離モデルと遠距離モデルのレンダリング深度を組み合わせたものです。
ただし、 LINR 手法にはまだいくつかの課題があります。 LIDAR によって取得されるデータは本質的に希薄であるため、単一の LIDAR 点群フレームでは、標準の RGB 画像に含まれる情報の一部しかキャプチャできません。この違いは、効果的なトレーニングに必要な幾何学的詳細を提供する際の深度レンダリングの潜在的な欠点を浮き彫りにします。したがって、結果として再構築されたメッシュ内に多数のアーティファクトが発生する可能性があります。この課題に対処するために、Waymo シーケンス内のすべてのフレームを結合して点群の密度を高めることを提案します。
Waymo データセットの Top LiDAR の垂直視野の制限により、-17.6° ~ 2.4° の範囲の点群を取得するだけでは、周囲の高層ビルの再構成に明らかな制限があります。この課題に対処するために、Side LiDAR の点群を再構築用のサンプリング シーケンスに組み込むソリューションを導入します。自動運転車の前後左右に 4 つのブラインドフィリング レーダーが設置されており、垂直視野は [-90°、30°] に達し、視野範囲が狭いという欠点を効果的に補います。上部のライダー。側面 LIDAR と上部 LIDAR の間の点群密度の違いにより、高層ビル シーンの再構成品質を向上させるために、側面 LIDAR に高いサンプリング ウェイトを割り当てることを選択します。
再構築の品質評価: 動的オブジェクトによって引き起こされるオクルージョンと LIDAR ノイズの影響により、再構築の暗黙的表現にはある程度のノイズが存在する可能性があります。そこで、再構成精度を評価した。旧ドメインから大量の注釈付き点群データを取得できるため、旧ドメインで再レンダリングすることで旧ドメインのシミュレートされた点群データを取得し、再構成されたメッシュの精度を評価できます。二乗平均平方根誤差 (RMSE) と面取り距離 (CD) を使用して、シミュレートされた点群と元の実際の点群を測定します。
それぞれの説明については、配列再構築スコアといくつかの詳細なプロセスについては、元の付録を参照してください。
b) メッシュからポイントへのシミュレーション エンジン レンダリング プロセス : 上記の LINR メソッドを通じて静的背景メッシュを取得した後、Blender Python API を使用して変換します。データは .ply 形式から .fbx 形式の 3D モデル ファイルに変換され、最終的に背景メッシュがアセット ライブラリとしてオープン ソース シミュレーター CARLA にロードされます。
まず、Waymo のアノテーション ファイルを取得して、各トラフィック参加者のバウンディング ボックス カテゴリと 3 次元オブジェクト サイズを取得し、この情報に基づいて、CARLA のデジタル アセット ライブラリで同じカテゴリのトラフィック参加者を検索します。サイズが最も近いデジタル資産がインポートされ、トラフィック参加者モデルとして使用されます。 CARLA シミュレーターで利用可能なシーンの信頼性情報に基づいて、交通シーン内の検出可能なオブジェクトごとに検出ボックス抽出ツールを開発しました。詳細については、PCSim 開発ツールを参照してください。
図 3 さまざまなデータセットにおける交通参加者のオブジェクト サイズ (長さ、幅、高さ) の分布。図 3 からわかるように、この方法を使用してシミュレートされたオブジェクト サイズの分布の多様性は非常に幅広く、KITTI、nuScenes、Waymo、ONCE などの現在公開されているデータ セットを超えています。
ReSimAD 再構築シミュレーション データセット上記の章の導入に従って、Waymo データセットに基づいて 3D シーンレベルのメッシュ データを生成し、上記の評価基準を使用してどの 3D メッシュが Waymo ドメインで高品質であるかを判断します。スコアに基づいて最高の 146 メッシュを選択し、その後のターゲット ドメイン シミュレーション プロセスを実行します。
評価結果
上の表からわかること: UDA と教師なしドメイン アダプテーション (UDA) テクノロジを使用する ReSimAD の主な違いは、前者はモデル ドメイン移行にターゲット ドメイン 実際のシーン のサンプルを使用することです。 ReSimAD の実験設定では、ターゲット ドメイン内の実際の点群データに アクセスできないことが必要です。上の表からわかるように、ReSimAD によって得られたクロスドメインの結果は、UDA メソッドによって得られた結果と同等です。この結果は、商用目的で LIDAR センサーをアップグレードする必要がある場合、私たちの方法によりデータ収集のコストが大幅に削減され、ドメインの違いによるモデルの再トレーニングと再開発のサイクルがさらに短縮できることを示しています。
ReSimAD データは、ターゲット ドメインのコールド スタート データとして使用され、ターゲット ドメインで達成できる効果
ReSimAD を使用して生成されたデータ もう 1 つの利点は、ターゲット ドメインの実際のデータ分布にアクセスすることなく、高性能のターゲット ドメインの精度を取得できることです。このプロセスは、実際には、新しいシナリオにおける自動運転モデルの「コールド スタート」プロセスに似ています。 上の表は、完全に監視されたターゲット ドメインでの実験結果を報告しています。 Oracle は、ラベル付きターゲット ドメイン データの全量でトレーニングされたモデルの結果を表します。一方、SFT は、ベースライン モデルのネットワーク初期化パラメーターが ReSimAD シミュレーション データでトレーニングされた重みによって提供されることを表します。上記の実験表は、ReSimAD メソッドを使用してシミュレートされた点群がより高い初期化重みパラメーターを取得でき、そのパフォーマンスが Oracle の実験設定を超えていることを示しています。 #ReSimAD データは、さまざまなダウンストリーム タスクでの AD-PT 事前トレーニング メソッドのパフォーマンスを使用して、一般的なデータ セットとして使用されます
##検証のために、ReSimAD が 3D 事前トレーニングに役立つより多くの点群データを生成できるかどうか、次の実験を設計しました: AD-PT (自動運転シナリオでバックボーン ネットワークを事前トレーニングするために最近提案された方法) を使用して事前トレーニングします。シミュレートされた点群 3D バックボーンをトレーニングし、ダウンストリームの実際のシーン データを使用して完全なパラメーターを微調整します。
ReSimAD を活用して、点群がより広範囲に分布するデータを生成します。 AD-PT での事前トレーニング結果と公平に比較するために、ReSimAD によって生成されるシミュレートされた点群データの目標量は約
以下に基づいています。 Waymo データセット 再構築されたメッシュと VDBFusion を使用した再構築の視覚的な比較
概要
元のリンク: https://mp.weixin.qq.com/s/pmHFDvS7nXy-6AQBhvVzSw
以上がReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。