ホームページ >テクノロジー周辺機器 >AI >TimePillars: 純粋な LiDAR 3D 検出ルートはどこに拡張できますか? 200mを直接カバー!
LiDAR 点群点に基づく 3D オブジェクト検出は非常に古典的な問題であり、学界と産業界の両方が精度、速度、堅牢性を向上させるためにさまざまなモデルを提案してきました。ただし、屋外環境が複雑なため、屋外点群に対する物体検出のパフォーマンスはあまり良くありません。 LIDAR 点群は本質的にまばらです。この問題を的を絞った方法で解決するにはどうすればよいでしょうか?この論文は、時系列情報の集約に基づいて情報を抽出するという独自の答えを示しています。
この論文では主に、自動運転が直面する重要な課題、つまり周囲の環境を 3 次元で正確に確立する方法について説明します。表現。これは自動運転車の信頼性と安全性を確保するために重要です。特に、自動運転車は、車両や歩行者などの周囲の物体を認識し、それらの位置、サイズ、方向を正確に判断できる必要があります。通常、このタスクを達成するには、ディープ ニューラル ネットワークを使用して LiDAR データを処理します。
現在の研究は主に、一度に 1 つのセンサー スキャンからのデータを使用する単一フレーム手法に焦点を当てています。この方法は従来のベンチマークで優れたパフォーマンスを発揮し、最大 75 メートルの距離にある物体を検出します。ただし、LIDAR 点群のまばらさは、長距離では特に顕著です。したがって、研究者らは、長距離検出を 1 回のスキャンだけに依存するだけでは、たとえば最大 200 メートルの距離までは十分ではないと考えています。したがって、今後の研究では、この課題に対処することに焦点を当てる必要があります。
この問題を解決するには、点群集約を使用する方法があります。これは、一連の LIDAR スキャン データを連結して、より高密度の入力を取得することです。ただし、このアプローチは計算コストが高く、ネットワーク内の集約を最大限に活用できません。計算コストを削減し、情報をより有効に活用するには、再帰的手法の使用を検討してください。再帰的メソッドは時間の経過とともに情報を蓄積し、現在の入力と以前の集計結果を繰り返し融合することで、より正確な出力を生成します。この手法により、計算効率が向上するだけでなく、履歴情報を有効活用して予測精度を向上させることができます。再帰的手法は点群集約問題に幅広く応用でき、満足のいく結果が得られています。
記事では、検出範囲を拡大するために、スパース畳み込み、アテンション モジュール、3D 畳み込みなどの高度な操作を採用できることにも言及しました。ただし、これらの操作では通常、ターゲット ハードウェアの互換性の問題は無視されます。ニューラル ネットワークを展開してトレーニングする場合、使用されるハードウェアは、サポートされる操作と遅延が大きく異なることがよくあります。たとえば、Nvidia Orin DLA などのターゲット ハードウェアは、スパース コンボリューションやアテンションなどの操作をサポートしていないことがよくあります。さらに、3D 畳み込みなどのレイヤーの使用は、リアルタイムのレイテンシー要件により、多くの場合実現できません。これは、2D 畳み込みなどの単純な演算を使用する必要性を強調しています。
この論文では、新しい時間再帰モデル TimePillars を提案しています。これは、共通のターゲット ハードウェアでサポートされている一連の操作を尊重し、2D 畳み込みに依存し、ポイントピラー (Pillar) 入力表現と畳み込み再帰ユニットに基づいています。 。自己動き補償は、単一の畳み込みと補助学習の助けを借りて、再帰ユニットの隠れ状態に適用されます。この操作の正確さを保証するために補助タスクを使用することは、アブレーション研究を通じて適切であることが示されています。この論文では、パイプライン内の再帰的モジュールの最適な配置についても調査し、ネットワークのバックボーンと検出ヘッドの間に配置すると最高のパフォーマンスが得られることを明確に示しています。この論文では、新しくリリースされた Zenseact Open Dataset (ZOD) について、TimePillars メソッドの有効性を実証しています。シングルフレームおよびマルチフレームのポイントアンドピラー ベースラインと比較して、TimePillars は、特に重要な自転車と歩行者のカテゴリにおける長距離 (最大 200 メートル) の検出において、評価パフォーマンスの大幅な向上を実現します。最後に、TimePillars はマルチフレーム ポイント ピラーよりも遅延が大幅に低いため、リアルタイム システムに適しています。
この論文では、3D LIDAR オブジェクト検出タスクを解決するために、TimePillars と呼ばれる新しい時間再帰モデルを提案し、共通のターゲット ハードウェアによってサポートされる一連の操作を検討します。実験により、TimePillars は長距離検出において単一フレームおよびマルチフレームのポイントピラー ベースラインよりも大幅に優れたパフォーマンスを達成することが証明されました。さらに、この論文では、Zenseact オープン データセット上の 3D LIDAR 物体検出モデルのベンチマークも初めて実行しています。 ただし、この論文の限界は、LIDAR データのみに焦点を当てており、他のセンサー入力を考慮しておらず、そのアプローチが単一の最先端のベースラインに基づいていることです。それにもかかわらず、著者らは、自分たちのフレームワークが一般的である、つまり、ベースラインに対する将来の改善が全体的なパフォーマンスの改善につながると信じています。
このペーパーの「入力前処理」セクションでは、著者は「柱状化」と呼ばれる手法を使用して、入力ポイントのクラウド データを処理します。従来のボクセル化とは異なり、この方法では点群を垂直方向の柱状構造に分割し、垂直方向 (z 軸) の高さを一定に保ちながら水平方向 (x 軸と y 軸) のみに分割します。この処理方法の利点は、ネットワーク入力サイズの一貫性を維持でき、効率的な処理のために 2D 畳み込みを使用できることです。このようにして、点群データを効率的に処理し、後続のタスクにより正確で信頼性の高い入力を提供できます。
ただし、Pillarisation には多くの空の列が生成され、データが非常にまばらになるという問題が 1 つあります。この問題を解決するために、この論文では動的ボクセル化技術の使用を提案しています。この手法により、各列のポイント数を事前に定義する必要がなくなり、各列での切り捨てや塗りつぶしの操作が不要になります。代わりに、点群データ全体が、必要な合計点数 (ここでは 200,000 点に設定) に一致するように処理されます。この前処理方法の利点は、情報の損失が最小限に抑えられ、生成されたデータ表現がより安定して一貫性のあるものになることです。
モデル アーキテクチャについて、著者は、ピラー フィーチャー エンコーダー (Pillar Feature Encoder)、2D 畳み込みニューラル ネットワーク (CNN) バックボーン、および検出ヘッドで構成されるニューラル ネットワーク アーキテクチャ。
論文のこの部分では、著者は畳み込み GRU によって出力される隠れ状態特徴を処理する方法について説明します。は、以前はフレームの座標系で表されていました。直接保存して次の予測の計算に使用すると、エゴモーションにより空間的な不一致が発生します。
変換を実行するには、さまざまな手法を適用できます。理想的には、修正されたデータはネットワーク内で変換されるのではなく、ネットワークに供給されます。ただし、これは論文で提案されている方法ではありません。推論プロセスの各ステップで隠れ状態をリセットし、以前の点群を変換し、それらをネットワーク全体に伝播する必要があるからです。これは非効率であるだけでなく、RNN を使用する目的を損なってしまいます。したがって、ループ コンテキストでは、補償を機能レベルで行う必要があります。これにより、仮説的な解決策はより効率的になりますが、問題はより複雑になります。従来の内挿方法を使用して、変換された座標系の特徴を取得できます。
対照的に、この論文は、Chen らの研究に触発されて、畳み込み演算と補助タスクを使用して変換を実行することを提案しています。前述の研究の限られた詳細を考慮して、この論文では、この問題に対するカスタマイズされた解決策を提案しています。
この論文で採用されているアプローチは、追加の畳み込み層を通じて特徴変換を実行するために必要な情報をネットワークに提供することです。 2 つの連続するフレーム間の相対変換行列、つまり特徴を正常に変換するために必要な操作が最初に計算されます。次に、そこから 2D 情報 (回転と変換部分) を抽出します。
この単純化は、主要な行列定数を回避し、2D (疑似画像) ドメインで機能し、16 個の値を 6 個に減らします。次に、補償対象の隠れた特徴の形状に一致するように行列が平坦化および拡張されます。最初の次元は、変換する必要があるフレームの数を表します。この表現は、隠れたフィーチャーのチャネル次元で潜在的な各ピラーを連結するのに適しています。 最後に、隠れ状態特徴が 2D 畳み込み層に入力され、変換プロセスに適応されます。注意すべき重要な点は、畳み込みを実行しても、変換が行われることが保証されるわけではないということです。チャネル連結は、変換がどのように実行されるかについての追加情報をネットワークに提供するだけです。この場合、学習支援の使用が適切です。トレーニング中、追加の学習目標 (座標変換) が主な目標 (オブジェクト検出) と並行して追加されます。補助タスクは、補償の正確性を保証するために、監視下で変換プロセスを通じてネットワークをガイドすることを目的として設計されており、トレーニング プロセスに限定されています。ネットワークが特徴を正しく変換することを学習すると、その適用性は失われます。したがって、このタスクは推論中に考慮されません。次のセクションでは、影響を比較するためにさらに実験が行われます。
実験実験結果は、Zenseact Open Dataset (ZOD) フレーム データ セットを処理するときに TimePillars モデルが良好にパフォーマンスすることを示しています。 、特にこれは最大 120 メートルの範囲を扱う場合に当てはまります。これらの結果は、さまざまなモーション変換方法での TimePillars のパフォーマンスの違いを強調し、他の方法と比較します。
ベンチマーク モデルの PointPillars とマルチフレーム (MF) PointPillars を比較すると、TimePillars が複数の主要業績評価指標で大幅な改善を達成していることがわかります。特に NuScenes 検出スコア (NDS) では、TimePillars はより高い総合スコアを示し、検出パフォーマンスと測位精度における利点を反映しています。さらに、TimePillars は平均変換誤差 (mATE)、平均スケール誤差 (mASE)、平均方位誤差 (mAOE) においても低い値を達成しており、測位精度と方位推定がより正確であることを示しています。特に注目すべきは、モーション変換に関する TimePillars のさまざまな実装がパフォーマンスに大きな影響を与えることです。畳み込みベースの動き変換 (Conv ベース) を使用する場合、TimePillars は NDS、mATE、mASE、および mAOE で特に優れたパフォーマンスを発揮し、動き補償におけるこの方法の有効性を証明し、検出精度を向上させます。対照的に、内挿法を使用する TimePillars もベースライン モデルより優れていますが、一部の指標では畳み込み法よりも劣ります。平均精度 (mAP) の結果は、TimePillars が車両、自転車、歩行者のカテゴリの検出で優れたパフォーマンスを発揮することを示しています。特に、自転車や歩行者などのより困難なカテゴリを処理する場合、そのパフォーマンスの向上はより顕著です。処理周波数 (f (Hz)) の観点から見ると、TimePillars はシングルフレームの PointPillars ほど高速ではありませんが、高い検出性能を維持しながらマルチフレームの PointPillars よりも高速です。これは、TimePillars がリアルタイム処理を維持しながら、長距離検出と動き補償を効果的に実行できることを示しています。言い換えれば、TimePillars モデルは、特にマルチフレーム データを処理し、畳み込みベースの動き変換テクノロジを使用する場合に、長距離検出、動き補償、および処理速度において大きな利点を示します。これらの結果は、自動運転車の 3D LIDAR 物体検出の分野における TimePillars の応用可能性を浮き彫りにしています。
上記の実験結果は、TimePillars モデルが、特にベンチマーク モデルの PointPillars と比較して、さまざまな距離範囲での物体検出パフォーマンスにおいて優れたパフォーマンスを発揮することを示しています。これらの結果は、0 ~ 50 メートル、50 ~ 100 メートル、100 メートル以上の 3 つの主な検出範囲に分類されます。
まず第一に、NuScenes 検出スコア (NDS) と平均精度 (mAP) は全体的なパフォーマンス指標です。 TimePillars は両方の指標で PointPillars よりも優れており、全体的に高い検出能力と測位精度を示しています。具体的には、TimePillars の NDS は 0.723 で、PointPillars の 0.657 よりもはるかに高く、mAP に関しても、TimePillars は 0.570 で PointPillars の 0.475 を大幅に上回っています。
さまざまな距離範囲でのパフォーマンスの比較では、TimePillars が各範囲でより優れたパフォーマンスを発揮していることがわかります。車両カテゴリの場合、0 ~ 50 メートル、50 ~ 100 メートル、および 100 メートルを超える範囲での TimePillars の検出精度は、それぞれ 0.884、0.776、0.591 であり、すべて同じ範囲の PointPillars のパフォーマンスよりも優れています。これは、TimePillars が近距離と遠距離の両方で車両検出の精度が高いことを示しています。 TimePillars は、脆弱な車両 (オートバイ、車椅子、電動スクーターなど) を扱う際にも優れた検出パフォーマンスを実証しました。特に 100 メートル以上の範囲では、TimePillars の検出精度は 0.178 であるのに対し、PointPillars はわずか 0.036 であり、長距離検出において大きな利点を示しています。歩行者検出についても、TimePillars は特に 50 ~ 100 メートルの範囲で優れたパフォーマンスを示し、検出精度は 0.350 でしたが、PointPillars はわずか 0.211 でした。より長い距離 (100 メートル以上) であっても、TimePillars は一定レベルの検出 (精度 0.032) を達成しますが、PointPillars はこの距離では検出能力がゼロです。
これらの実験結果は、さまざまな距離範囲での物体検出タスクの処理における TimePillars の優れたパフォーマンスを強調しています。近距離であろうと、より困難な長距離であろうと、TimePillars は、自動運転車の安全性と効率にとって重要な、より正確で信頼性の高い検出結果を提供します。
まず、TimePillars モデルの主な利点は、長距離の物体検出の有効性です。動的ボクセル化と畳み込み GRU 構造を採用することにより、このモデルは、特に長距離の物体検出において、まばらな LIDAR データをより適切に処理できるようになります。これは、複雑で変化する道路環境で自動運転車を安全に運用するために重要です。さらに、このモデルは、リアルタイム アプリケーションに不可欠な処理速度の面でも優れたパフォーマンスを示します。一方、TimePillars は動き補償に畳み込みベースの方法を採用しており、従来の方法に比べて大幅に改善されています。このアプローチでは、トレーニング中の補助タスクを通じて変換の正確性が保証され、移動オブジェクトを処理する際のモデルの精度が向上します。
ただし、この論文の調査にはいくつかの限界もあります。まず、TimePillars は遠くの物体検出の処理では優れたパフォーマンスを発揮しますが、このパフォーマンスの向上には処理速度がある程度犠牲になる可能性があります。モデルの速度は依然としてリアルタイム アプリケーションに適していますが、シングルフレーム手法と比較すると依然として低下しています。さらに、この論文では主に LiDAR データに焦点を当てており、カメラやレーダーなどの他のセンサー入力は考慮されていないため、より複雑なマルチセンサー環境でのモデルの適用が制限される可能性があります。
つまり、TimePillars は、自動運転車の 3D LIDAR 物体検出、特に長距離検出と動き補償において、大きな利点を示しています。処理速度とマルチセンサー データの処理における制限に若干のトレードオフがあるにもかかわらず、TimePillars は依然としてこの分野で重要な進歩を示しています。
以上がTimePillars: 純粋な LiDAR 3D 検出ルートはどこに拡張できますか? 200mを直接カバー!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。