ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法-AI-php.cn

ホームページ

テクノロジー周辺機器

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 17, 2024 am 11:33 AM

モデルシーン

以前に書いたものおよび著者の個人的な理解

自動運転車のセンサーレベルでのドメインの変化は、非常に一般的な現象です。たとえば、さまざまなシナリオや場所にある自動運転車は、自己の中にあります。 - 異なる照明や気象条件下での車両の運転、異なるセンサー機器を装備した自動運転車両など、上記すべては自動運転領域における典型的な違いと考えることができます。このドメインの違いが自動運転に課題をもたらします。その主な理由は、古いドメインの知識に依存する自動運転モデルは、追加コストなしでこれまで見たことのない新しいドメインに直接展開することが難しいためです。したがって、この論文では、ドメイン移行のための新しい視点と方法を提供する再構築シミュレーション認識 (ReSimAD) スキームを提案します。具体的には、暗黙的再構成技術を用いて運転シーンにおける古いドメイン知識を取得し、その再構成プロセスの目的は、古いドメインのドメイン関連知識をドメイン不変表現（ドメイン不変表現）に変換する方法を研究することです。たとえば、3D シーンレベルのメッシュ表現 (3D メッシュ表現) はドメイン不変の表現であると考えられます。再構成された結果に基づいて、シミュレーターを使用して、ターゲットドメインのより現実的なシミュレーション点群を生成します。このステップは、再構成された背景情報とターゲットドメインのセンサーソリューションに依存するため、データ収集とラベル付けの時間が短縮されます。その後のセンシングプロセス新しいドメインデータのコスト。

実験検証部分では、Waymo-to-KITTI、Waymo-to-nuScenes、Waymo-to-ONCE などのさまざまなクロスドメイン設定を検討しました。すべてのクロスドメイン設定はゼロショット実験設定を採用しており、ソースドメインのバックグラウンドメッシュとシミュレートされたセンサーのみに依存してターゲットドメインサンプルをシミュレートし、モデルの汎化機能を向上させます。結果は、ReSimAD がターゲットドメインシーンに対する知覚モデルの一般化能力を大幅に向上させ、教師なしドメイン適応手法よりも優れていることを示しています。

論文情報

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

論文タイトル: ReSimAD: ソース再構築と自動運転のためのゼロショット 3D ドメイン転送ターゲットシミュレーション
ICLR-2024は
論文発行者: 上海人工知能研究所、上海交通大学、復旦大学、北杭大学
論文アドレス: https:/// arxiv.org/abs/2309.05527
コードアドレス: シミュレーションデータセットと認識部分、https://github.com/PJLab-ADG/3DTrans#resimad; ソースドメイン再構成部分、https:// github. com/pjlab-ADG/neuralsim; ターゲットドメインシミュレーションパート、https://github.com/PJLab-ADG/PCSim

研究動機#課題

: 3D モデルは自動運転車が周囲を認識するのに役立ちますが、既存のベースラインモデル

を新しい領域 (異なるセンサー設定や目に見えない都市など) に一般化することは困難です。自動運転分野の長期的なビジョンは、モデルがより低コストでドメイン移行を実現できるようにすることです。つまり、ソースドメインで完全にトレーニングされたモデルを、ソースドメインとターゲットドメインのシナリオにうまく適応させることです。ターゲットドメインがそれぞれ存在します。明らかなデータ分布の違いがある 2 つのドメインがあります。たとえば、ソースドメインは晴れ、ターゲットドメインは雨、ソースドメインは 64 ビームセンサー、ターゲットドメインは 32 ビームセンサーです。一般的に使用されるソリューションのアイデア

: 上記のドメインの違いに直面した場合、最も一般的な解決策は、ターゲットドメインのシナリオのデータを取得してアノテーションを付けることです。この方法により、ドメインの違いをある程度回避できます。違いによるモデルの性能低下が問題ですが、1) データ収集コストと 2) データのラベル付けコストが膨大です。したがって、以下の図に示すように (2 つのベースラインメソッド (a) と (b) を参照)、新しいドメインのデータ収集とデータアノテーションのコストを軽減するために、シミュレーションエンジンを使用して、いくつかのシミュレートされたデータをレンダリングできます。点群サンプル: これは、シミュレーションから現実への研究作業における一般的なソリューションのアイデアです。もう 1 つのアイデアは、教師なしドメイン適応 (UDA for 3D) です。このタイプの研究の目的は、ラベルのないターゲットドメインデータ (実際のデータであることに注意してください) のみにさらされる条件下で、ほぼ完全に教師ありの微調整を実現する方法を研究することです。 ) これが達成できれば、ターゲットドメインのラベル付けコストは確かに節約されますが、UDA 手法では、ターゲットドメインのデータ分布を特徴付けるために、実際のターゲットドメインデータを大量に収集する必要があります。

図 1: さまざまなトレーニングパラダイムの比較

私たちのアイデア: 上記の 2 つのカテゴリの研究アイデアとは異なり、下図 ((c) ベースラインプロセスを参照) に示すように、私たちはデータシミュレーションと知覚の統合ルートに取り組んでいます。 virtual と real を組み合わせます。ここで、virtual と real の組み合わせにおけるリアリティとは、大規模なラベル付けされたソースドメインデータに基づいてドメイン不変表現を構築することを指します。この仮定は、多くのシナリオにとって実際的に重要です。長期にわたる履歴データの蓄積後、次のことができるからです。この種のラベル付きソースドメインデータが存在すると常に考えますが、一方で、仮想と現実の組み合わせでのシミュレーションは、ソースドメインデータに基づいてドメイン不変表現を構築する場合、この表現を既存のドメインデータにインポートすることができます。ターゲットドメインデータのシミュレーションを実行するレンダリングパイプライン。現在のシミュレーションとリアルの研究作業と比較して、私たちの方法は、道路構造、上り坂と下り坂の斜面などの実際の情報を含む実際のシーンレベルのデータによってサポートされています。この情報は、シミュレーションエンジンのみに依存するだけでは取得することが困難です。自体。ターゲットドメインでデータを取得した後、そのデータを PV-RCNN などの現在の最適な知覚モデルに統合してトレーニングし、ターゲットドメインでのモデルの精度を検証します。全体的な詳細なワークフローについては、以下の図を参照してください。

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法図 2 ReSimAD のフローチャート

ReSimAD のフローチャートを図 2 に示します。これには主に a)ポイントツーメッシュ暗黙的再構成プロセス, b) メッシュツーポイントシミュレーションエンジンレンダリングプロセス, c) ゼロサンプルセンシングプロセス。

ReSimAD: シミュレーション再構成を意識したパラダイム

a) ポイントツーメッシュ暗黙的再構成プロセス: の影響を受けます。 StreetSurf に触発され、実際の多様なストリートシーンの背景と動的な交通流情報を再構築するために LIDAR 再構築のみを使用します。私たちは最初に純粋な点群 SDF 再構成モジュール (LiDAR のみの暗黙的ニューラル再構成、LINR) を設計しました。その利点は、照明の変化、気象条件の変化、カメラのセンシングによって引き起こされるドメインの違いの影響を受けないことです。等。純粋な点群 SDF 再構成モジュールは、LiDAR レイを入力として受け取り、深度情報を予測し、最後にシーンの 3D メッシュ表現を構築します。

具体的には、原点 ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法から方向で放射された光線に対して、ボリュームレンダリングを LIDAR に適用して、符号付き距離フィールド (SDF) ネットワークとレンダリング深度 D をトレーニングします。

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

ここで、はサンプルポイント ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法のサンプリング深さ、は累積透過率 (累積透過率) であり、近似関数を使用して取得されます。 NeuSのレンジモデル。

StreetSurf からインスピレーションを得て、この記事で提案する再構成プロセスのモデル入力は LIDAR レイから取得され、出力は予測深度です。サンプリングされた LIDAR ビーム ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法ごとに、対数 L1 損失をに適用します。これは、近距離モデルと遠距離モデルのレンダリング深度を組み合わせたものです。

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

ただし、 LINR 手法にはまだいくつかの課題があります。 LIDAR によって取得されるデータは本質的に希薄であるため、単一の LIDAR 点群フレームでは、標準の RGB 画像に含まれる情報の一部しかキャプチャできません。この違いは、効果的なトレーニングに必要な幾何学的詳細を提供する際の深度レンダリングの潜在的な欠点を浮き彫りにします。したがって、結果として再構築されたメッシュ内に多数のアーティファクトが発生する可能性があります。この課題に対処するために、Waymo シーケンス内のすべてのフレームを結合して点群の密度を高めることを提案します。

Waymo データセットの Top LiDAR の垂直視野の制限により、-17.6° ～ 2.4° の範囲の点群を取得するだけでは、周囲の高層ビルの再構成に明らかな制限があります。この課題に対処するために、Side LiDAR の点群を再構築用のサンプリングシーケンスに組み込むソリューションを導入します。自動運転車の前後左右に 4 つのブラインドフィリングレーダーが設置されており、垂直視野は [-90°、30°] に達し、視野範囲が狭いという欠点を効果的に補います。上部のライダー。側面 LIDAR と上部 LIDAR の間の点群密度の違いにより、高層ビルシーンの再構成品質を向上させるために、側面 LIDAR に高いサンプリングウェイトを割り当てることを選択します。

再構築の品質評価: 動的オブジェクトによって引き起こされるオクルージョンと LIDAR ノイズの影響により、再構築の暗黙的表現にはある程度のノイズが存在する可能性があります。そこで、再構成精度を評価した。旧ドメインから大量の注釈付き点群データを取得できるため、旧ドメインで再レンダリングすることで旧ドメインのシミュレートされた点群データを取得し、再構成されたメッシュの精度を評価できます。二乗平均平方根誤差 (RMSE) と面取り距離 (CD) を使用して、シミュレートされた点群と元の実際の点群を測定します。

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

それぞれの説明については、配列再構築スコアといくつかの詳細なプロセスについては、元の付録を参照してください。

b) メッシュからポイントへのシミュレーションエンジンレンダリングプロセス : 上記の LINR メソッドを通じて静的背景メッシュを取得した後、Blender Python API を使用して変換します。データは .ply 形式から .fbx 形式の 3D モデルファイルに変換され、最終的に背景メッシュがアセットライブラリとしてオープンソースシミュレーター CARLA にロードされます。

まず、Waymo のアノテーションファイルを取得して、各トラフィック参加者のバウンディングボックスカテゴリと 3 次元オブジェクトサイズを取得し、この情報に基づいて、CARLA のデジタルアセットライブラリで同じカテゴリのトラフィック参加者を検索します。サイズが最も近いデジタル資産がインポートされ、トラフィック参加者モデルとして使用されます。 CARLA シミュレーターで利用可能なシーンの信頼性情報に基づいて、交通シーン内の検出可能なオブジェクトごとに検出ボックス抽出ツールを開発しました。詳細については、PCSim 開発ツールを参照してください。

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法図 3 さまざまなデータセットにおける交通参加者のオブジェクトサイズ (長さ、幅、高さ) の分布。図 3 からわかるように、この方法を使用してシミュレートされたオブジェクトサイズの分布の多様性は非常に幅広く、KITTI、nuScenes、Waymo、ONCE などの現在公開されているデータセットを超えています。

ReSimAD 再構築シミュレーションデータセット

Waymo をソースドメインデータとして使用し、Waymo 上で再構築してより現実的な 3D メッシュを取得します。同時に、KITTI、nuScenes、ONCE をターゲットドメインシナリオとして使用し、これらのターゲットドメインシナリオで私たちの方法によって達成されるゼロショットパフォーマンスを検証します。

上記の章の導入に従って、Waymo データセットに基づいて 3D シーンレベルのメッシュデータを生成し、上記の評価基準を使用してどの 3D メッシュが Waymo ドメインで高品質であるかを判断します。スコアに基づいて最高の 146 メッシュを選択し、その後のターゲットドメインシミュレーションプロセスを実行します。

評価結果

ResimAD データセットのいくつかの視覚化例を以下に示します。

評価結果

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

実験的Chapter

実験設定

ベースラインの選択: 提案された ReSimAD を 3 つの典型的なクロスドメインベースラインと比較します。 a) データシミュレーションのベースラインb) シミュレーションエンジンのセンサーパラメーター設定を変更することによるデータシミュレーションのベースライン; c) ドメインアダプテーション (UDA) ベースライン.

メトリクス: We Align 3D クロスドメインオブジェクトの現在の評価基準検出では、BEV ベースの AP と 3D ベースの AP をそれぞれ評価指標として使用します。
パラメータ設定: 詳細については論文を参照してください。

実験結果

ここでは主な実験結果のみを示します。さらに詳しい結果論文については、お問い合わせください。

3 つのクロスドメイン設定における PV-RCNN/PV-RCNN の 2 つのモデルの適応パフォーマンス

上の表からわかること: UDA と教師なしドメインアダプテーション (UDA) テクノロジを使用する ReSimAD の主な違いは、前者はモデルドメイン移行にターゲットドメイン 実際のシーン のサンプルを使用することです。 ReSimAD の実験設定では、ターゲットドメイン内の実際の点群データにアクセスできないことが必要です。上の表からわかるように、ReSimAD によって得られたクロスドメインの結果は、UDA メソッドによって得られた結果と同等です。この結果は、商用目的で LIDAR センサーをアップグレードする必要がある場合、私たちの方法によりデータ収集のコストが大幅に削減され、ドメインの違いによるモデルの再トレーニングと再開発のサイクルがさらに短縮できることを示しています。

ReSimAD データは、ターゲットドメインのコールドスタートデータとして使用され、ターゲットドメインで達成できる効果

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

ReSimAD を使用して生成されたデータもう 1 つの利点は、ターゲットドメインの実際のデータ分布にアクセスすることなく、高性能のターゲットドメインの精度を取得できることです。このプロセスは、実際には、新しいシナリオにおける自動運転モデルの「コールドスタート」プロセスに似ています。

上の表は、完全に監視されたターゲットドメインでの実験結果を報告しています。 Oracle は、ラベル付きターゲットドメインデータの全量でトレーニングされたモデルの結果を表します。一方、SFT は、ベースラインモデルのネットワーク初期化パラメーターが ReSimAD シミュレーションデータでトレーニングされた重みによって提供されることを表します。上記の実験表は、ReSimAD メソッドを使用してシミュレートされた点群がより高い初期化重みパラメーターを取得でき、そのパフォーマンスが Oracle の実験設定を超えていることを示しています。

#ReSimAD データは、さまざまなダウンストリームタスクでの AD-PT 事前トレーニングメソッドのパフォーマンスを使用して、一般的なデータセットとして使用されます

##検証のために、ReSimAD が 3D 事前トレーニングに役立つより多くの点群データを生成できるかどうか、次の実験を設計しました: AD-PT (自動運転シナリオでバックボーンネットワークを事前トレーニングするために最近提案された方法) を使用して事前トレーニングします。シミュレートされた点群 3D バックボーンをトレーニングし、ダウンストリームの実際のシーンデータを使用して完全なパラメーターを微調整します。 ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

ReSimAD を活用して、点群がより広範囲に分布するデータを生成します。 AD-PT での事前トレーニング結果と公平に比較するために、ReSimAD によって生成されるシミュレートされた点群データの目標量は約

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法以下に基づいています。 Waymo データセット再構築されたメッシュと VDBFusion を使用した再構築の視覚的な比較

ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法概要

この作業では、は、ゼロサンプルのターゲットドメインモデル転送タスクを実験する方法を検討することにコミットしています。このタスクでは、モデルがソースドメインの事前トレーニング済みモデルを、ソースドメインのサンプルデータ情報にさらされることなくターゲットドメインシーンに正常に移行する必要があります。ターゲットドメイン。これまでの研究とは異なり、ソースドメインの暗黙的再構成とターゲットドメインの多様性シミュレーションに基づく3Dデータ生成技術を初めて検討し、この技術がデータ分布にさらされることなくより良いモデルを達成できることを検証しました。移行パフォーマンスは、一部の教師なしドメイン適応 (UDA) 方法よりもさらに優れています。

元のリンク: https://mp.weixin.qq.com/s/pmHFDvS7nXy-6AQBhvVzSw ReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法

以上がReSimAD: 仮想データを通じて知覚モデルの汎化パフォーマンスを向上させる方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。