TimePillars: 純粋な LiDAR 3D 検出ルートはどこに拡張できますか? 200mを直接カバー！-AI-php.cn

ホームページ

テクノロジー周辺機器

TimePillars: 純粋な LiDAR 3D 検出ルートはどこに拡張できますか? 200mを直接カバー！

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jan 24, 2024 am 11:57 AM

安全性オートパイロット

LiDAR 点群点に基づく 3D オブジェクト検出は非常に古典的な問題であり、学界と産業界の両方が精度、速度、堅牢性を向上させるためにさまざまなモデルを提案してきました。ただし、屋外環境が複雑なため、屋外点群に対する物体検出のパフォーマンスはあまり良くありません。 LIDAR 点群は本質的にまばらです。この問題を的を絞った方法で解決するにはどうすればよいでしょうか?この論文は、時系列情報の集約に基づいて情報を抽出するという独自の答えを示しています。

前に書いた

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

この論文では主に、自動運転が直面する重要な課題、つまり周囲の環境を 3 次元で正確に確立する方法について説明します。表現。これは自動運転車の信頼性と安全性を確保するために重要です。特に、自動運転車は、車両や歩行者などの周囲の物体を認識し、それらの位置、サイズ、方向を正確に判断できる必要があります。通常、このタスクを達成するには、ディープニューラルネットワークを使用して LiDAR データを処理します。

現在の研究は主に、一度に 1 つのセンサースキャンからのデータを使用する単一フレーム手法に焦点を当てています。この方法は従来のベンチマークで優れたパフォーマンスを発揮し、最大 75 メートルの距離にある物体を検出します。ただし、LIDAR 点群のまばらさは、長距離では特に顕著です。したがって、研究者らは、長距離検出を 1 回のスキャンだけに依存するだけでは、たとえば最大 200 メートルの距離までは十分ではないと考えています。したがって、今後の研究では、この課題に対処することに焦点を当てる必要があります。

この問題を解決するには、点群集約を使用する方法があります。これは、一連の LIDAR スキャンデータを連結して、より高密度の入力を取得することです。ただし、このアプローチは計算コストが高く、ネットワーク内の集約を最大限に活用できません。計算コストを削減し、情報をより有効に活用するには、再帰的手法の使用を検討してください。再帰的メソッドは時間の経過とともに情報を蓄積し、現在の入力と以前の集計結果を繰り返し融合することで、より正確な出力を生成します。この手法により、計算効率が向上するだけでなく、履歴情報を有効活用して予測精度を向上させることができます。再帰的手法は点群集約問題に幅広く応用でき、満足のいく結果が得られています。

記事では、検出範囲を拡大するために、スパース畳み込み、アテンションモジュール、3D 畳み込みなどの高度な操作を採用できることにも言及しました。ただし、これらの操作では通常、ターゲットハードウェアの互換性の問題は無視されます。ニューラルネットワークを展開してトレーニングする場合、使用されるハードウェアは、サポートされる操作と遅延が大きく異なることがよくあります。たとえば、Nvidia Orin DLA などのターゲットハードウェアは、スパースコンボリューションやアテンションなどの操作をサポートしていないことがよくあります。さらに、3D 畳み込みなどのレイヤーの使用は、リアルタイムのレイテンシー要件により、多くの場合実現できません。これは、2D 畳み込みなどの単純な演算を使用する必要性を強調しています。

この論文では、新しい時間再帰モデル TimePillars を提案しています。これは、共通のターゲットハードウェアでサポートされている一連の操作を尊重し、2D 畳み込みに依存し、ポイントピラー (Pillar) 入力表現と畳み込み再帰ユニットに基づいています。。自己動き補償は、単一の畳み込みと補助学習の助けを借りて、再帰ユニットの隠れ状態に適用されます。この操作の正確さを保証するために補助タスクを使用することは、アブレーション研究を通じて適切であることが示されています。この論文では、パイプライン内の再帰的モジュールの最適な配置についても調査し、ネットワークのバックボーンと検出ヘッドの間に配置すると最高のパフォーマンスが得られることを明確に示しています。この論文では、新しくリリースされた Zenseact Open Dataset (ZOD) について、TimePillars メソッドの有効性を実証しています。シングルフレームおよびマルチフレームのポイントアンドピラーベースラインと比較して、TimePillars は、特に重要な自転車と歩行者のカテゴリにおける長距離 (最大 200 メートル) の検出において、評価パフォーマンスの大幅な向上を実現します。最後に、TimePillars はマルチフレームポイントピラーよりも遅延が大幅に低いため、リアルタイムシステムに適しています。

この論文では、3D LIDAR オブジェクト検出タスクを解決するために、TimePillars と呼ばれる新しい時間再帰モデルを提案し、共通のターゲットハードウェアによってサポートされる一連の操作を検討します。実験により、TimePillars は長距離検出において単一フレームおよびマルチフレームのポイントピラーベースラインよりも大幅に優れたパフォーマンスを達成することが証明されました。さらに、この論文では、Zenseact オープンデータセット上の 3D LIDAR 物体検出モデルのベンチマークも初めて実行しています。ただし、この論文の限界は、LIDAR データのみに焦点を当てており、他のセンサー入力を考慮しておらず、そのアプローチが単一の最先端のベースラインに基づいていることです。それにもかかわらず、著者らは、自分たちのフレームワークが一般的である、つまり、ベースラインに対する将来の改善が全体的なパフォーマンスの改善につながると信じています。

TimePillars の詳しい説明

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

入力前処理

このペーパーの「入力前処理」セクションでは、著者は「柱状化」と呼ばれる手法を使用して、入力ポイントのクラウドデータを処理します。従来のボクセル化とは異なり、この方法では点群を垂直方向の柱状構造に分割し、垂直方向 (z 軸) の高さを一定に保ちながら水平方向 (x 軸と y 軸) のみに分割します。この処理方法の利点は、ネットワーク入力サイズの一貫性を維持でき、効率的な処理のために 2D 畳み込みを使用できることです。このようにして、点群データを効率的に処理し、後続のタスクにより正確で信頼性の高い入力を提供できます。

ただし、Pillarisation には多くの空の列が生成され、データが非常にまばらになるという問題が 1 つあります。この問題を解決するために、この論文では動的ボクセル化技術の使用を提案しています。この手法により、各列のポイント数を事前に定義する必要がなくなり、各列での切り捨てや塗りつぶしの操作が不要になります。代わりに、点群データ全体が、必要な合計点数 (ここでは 200,000 点に設定) に一致するように処理されます。この前処理方法の利点は、情報の損失が最小限に抑えられ、生成されたデータ表現がより安定して一貫性のあるものになることです。

モデルアーキテクチャ

モデルアーキテクチャについて、著者は、ピラーフィーチャーエンコーダー (Pillar Feature Encoder)、2D 畳み込みニューラルネットワーク (CNN) バックボーン、および検出ヘッドで構成されるニューラルネットワークアーキテクチャ。

Pillar Feature Encoder: この部分は、前処理された入力テンソルを Bird's Eye View (BEV) 擬似イメージにマッピングします。動的ボクセル化を使用した後、それに応じて簡略化された PointNet が調整されます。入力は 1D 畳み込み、バッチ正規化、ReLU アクティベーション関数によって処理され、形状のテンソルが取得されます。ここで、はチャネル数を表します。最後の散乱最大レイヤーの前に、最大プーリングがチャネルに適用され、形状の潜在空間が形成されます。初期テンソルはとしてエンコードされ、前の層の後ではになるため、最大プーリング操作は削除されます。
バックボーン: 優れた深度効率により、元のコラム論文で提案された 2D CNN バックボーンアーキテクチャを使用します。潜在空間は 3 つのダウンサンプリングブロック (Conv2D-BN-ReLU) を使用して削減され、3 つのアップサンプリングブロックと転置畳み込みを使用して復元されます。出力形状はです。
メモリユニット: システムのメモリをリカレントニューラルネットワーク (RNN) としてモデル化します。具体的には、ゲート付きリカレントユニットの畳み込みバージョンである畳み込み GRU (convGRU) を使用します。畳み込み GRU の利点は、空間データ特性を維持しながら勾配消失問題を回避し、効率を向上できることです。 LSTM などの他のオプションと比較して、GRU はゲート数が少ないため、トレーニング可能なパラメーターが少なく、メモリ正則化手法 (隠れ状態の複雑さを軽減する) と考えることができます。同様の性質の演算をマージすることにより、必要な畳み込み層の数が減り、ユニットの効率が向上します。
検出ヘッド: SSD (シングルショットマルチボックス検出器) への簡単な変更。 SSD の中心概念、つまり領域提案のないシングルパスは維持されますが、アンカーボックスの使用は排除されます。グリッド内の各セルの予測を直接出力すると、セルのマルチオブジェクト検出機能は失われますが、退屈で不正確なことが多いアンカーボックスパラメーターの調整が回避され、推論プロセスが簡素化されます。線形層は、分類と位置特定 (位置、サイズ、角度) 回帰のそれぞれの出力を処理します。サイズのみ活性化関数(ReLU)を用いて負の値をとらないようにしています。さらに、関連文献とは異なり、この論文では、車両の走行方向の正弦成分と余弦成分を独立して予測し、それらから角度を抽出することにより、直接角度回帰の問題を回避しています。

特徴エゴモーション補償

論文のこの部分では、著者は畳み込み GRU によって出力される隠れ状態特徴を処理する方法について説明します。は、以前はフレームの座標系で表されていました。直接保存して次の予測の計算に使用すると、エゴモーションにより空間的な不一致が発生します。

変換を実行するには、さまざまな手法を適用できます。理想的には、修正されたデータはネットワーク内で変換されるのではなく、ネットワークに供給されます。ただし、これは論文で提案されている方法ではありません。推論プロセスの各ステップで隠れ状態をリセットし、以前の点群を変換し、それらをネットワーク全体に伝播する必要があるからです。これは非効率であるだけでなく、RNN を使用する目的を損なってしまいます。したがって、ループコンテキストでは、補償を機能レベルで行う必要があります。これにより、仮説的な解決策はより効率的になりますが、問題はより複雑になります。従来の内挿方法を使用して、変換された座標系の特徴を取得できます。

対照的に、この論文は、Chen らの研究に触発されて、畳み込み演算と補助タスクを使用して変換を実行することを提案しています。前述の研究の限られた詳細を考慮して、この論文では、この問題に対するカスタマイズされた解決策を提案しています。

この論文で採用されているアプローチは、追加の畳み込み層を通じて特徴変換を実行するために必要な情報をネットワークに提供することです。 2 つの連続するフレーム間の相対変換行列、つまり特徴を正常に変換するために必要な操作が最初に計算されます。次に、そこから 2D 情報 (回転と変換部分) を抽出します。

この単純化は、主要な行列定数を回避し、2D (疑似画像) ドメインで機能し、16 個の値を 6 個に減らします。次に、補償対象の隠れた特徴の形状に一致するように行列が平坦化および拡張されます。最初の次元は、変換する必要があるフレームの数を表します。この表現は、隠れたフィーチャーのチャネル次元で潜在的な各ピラーを連結するのに適しています。最後に、隠れ状態特徴が 2D 畳み込み層に入力され、変換プロセスに適応されます。注意すべき重要な点は、畳み込みを実行しても、変換が行われることが保証されるわけではないということです。チャネル連結は、変換がどのように実行されるかについての追加情報をネットワークに提供するだけです。この場合、学習支援の使用が適切です。トレーニング中、追加の学習目標 (座標変換) が主な目標 (オブジェクト検出) と並行して追加されます。補助タスクは、補償の正確性を保証するために、監視下で変換プロセスを通じてネットワークをガイドすることを目的として設計されており、トレーニングプロセスに限定されています。ネットワークが特徴を正しく変換することを学習すると、その適用性は失われます。したがって、このタスクは推論中に考慮されません。次のセクションでは、影響を比較するためにさらに実験が行われます。

実験

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！実験結果は、Zenseact Open Dataset (ZOD) フレームデータセットを処理するときに TimePillars モデルが良好にパフォーマンスすることを示しています。、特にこれは最大 120 メートルの範囲を扱う場合に当てはまります。これらの結果は、さまざまなモーション変換方法での TimePillars のパフォーマンスの違いを強調し、他の方法と比較します。

ベンチマークモデルの PointPillars とマルチフレーム (MF) PointPillars を比較すると、TimePillars が複数の主要業績評価指標で大幅な改善を達成していることがわかります。特に NuScenes 検出スコア (NDS) では、TimePillars はより高い総合スコアを示し、検出パフォーマンスと測位精度における利点を反映しています。さらに、TimePillars は平均変換誤差 (mATE)、平均スケール誤差 (mASE)、平均方位誤差 (mAOE) においても低い値を達成しており、測位精度と方位推定がより正確であることを示しています。特に注目すべきは、モーション変換に関する TimePillars のさまざまな実装がパフォーマンスに大きな影響を与えることです。畳み込みベースの動き変換 (Conv ベース) を使用する場合、TimePillars は NDS、mATE、mASE、および mAOE で特に優れたパフォーマンスを発揮し、動き補償におけるこの方法の有効性を証明し、検出精度を向上させます。対照的に、内挿法を使用する TimePillars もベースラインモデルより優れていますが、一部の指標では畳み込み法よりも劣ります。平均精度 (mAP) の結果は、TimePillars が車両、自転車、歩行者のカテゴリの検出で優れたパフォーマンスを発揮することを示しています。特に、自転車や歩行者などのより困難なカテゴリを処理する場合、そのパフォーマンスの向上はより顕著です。処理周波数 (f (Hz)) の観点から見ると、TimePillars はシングルフレームの PointPillars ほど高速ではありませんが、高い検出性能を維持しながらマルチフレームの PointPillars よりも高速です。これは、TimePillars がリアルタイム処理を維持しながら、長距離検出と動き補償を効果的に実行できることを示しています。言い換えれば、TimePillars モデルは、特にマルチフレームデータを処理し、畳み込みベースの動き変換テクノロジを使用する場合に、長距離検出、動き補償、および処理速度において大きな利点を示します。これらの結果は、自動運転車の 3D LIDAR 物体検出の分野における TimePillars の応用可能性を浮き彫りにしています。

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！上記の実験結果は、TimePillars モデルが、特にベンチマークモデルの PointPillars と比較して、さまざまな距離範囲での物体検出パフォーマンスにおいて優れたパフォーマンスを発揮することを示しています。これらの結果は、0 ～ 50 メートル、50 ～ 100 メートル、100 メートル以上の 3 つの主な検出範囲に分類されます。

まず第一に、NuScenes 検出スコア (NDS) と平均精度 (mAP) は全体的なパフォーマンス指標です。 TimePillars は両方の指標で PointPillars よりも優れており、全体的に高い検出能力と測位精度を示しています。具体的には、TimePillars の NDS は 0.723 で、PointPillars の 0.657 よりもはるかに高く、mAP に関しても、TimePillars は 0.570 で PointPillars の 0.475 を大幅に上回っています。

さまざまな距離範囲でのパフォーマンスの比較では、TimePillars が各範囲でより優れたパフォーマンスを発揮していることがわかります。車両カテゴリの場合、0 ～ 50 メートル、50 ～ 100 メートル、および 100 メートルを超える範囲での TimePillars の検出精度は、それぞれ 0.884、0.776、0.591 であり、すべて同じ範囲の PointPillars のパフォーマンスよりも優れています。これは、TimePillars が近距離と遠距離の両方で車両検出の精度が高いことを示しています。 TimePillars は、脆弱な車両 (オートバイ、車椅子、電動スクーターなど) を扱う際にも優れた検出パフォーマンスを実証しました。特に 100 メートル以上の範囲では、TimePillars の検出精度は 0.178 であるのに対し、PointPillars はわずか 0.036 であり、長距離検出において大きな利点を示しています。歩行者検出についても、TimePillars は特に 50 ～ 100 メートルの範囲で優れたパフォーマンスを示し、検出精度は 0.350 でしたが、PointPillars はわずか 0.211 でした。より長い距離 (100 メートル以上) であっても、TimePillars は一定レベルの検出 (精度 0.032) を達成しますが、PointPillars はこの距離では検出能力がゼロです。

これらの実験結果は、さまざまな距離範囲での物体検出タスクの処理における TimePillars の優れたパフォーマンスを強調しています。近距離であろうと、より困難な長距離であろうと、TimePillars は、自動運転車の安全性と効率にとって重要な、より正確で信頼性の高い検出結果を提供します。

ディスカッション

纯LiDAR 3D检测路在何方？时序递归TimePillars：直接干到200m！

まず、TimePillars モデルの主な利点は、長距離の物体検出の有効性です。動的ボクセル化と畳み込み GRU 構造を採用することにより、このモデルは、特に長距離の物体検出において、まばらな LIDAR データをより適切に処理できるようになります。これは、複雑で変化する道路環境で自動運転車を安全に運用するために重要です。さらに、このモデルは、リアルタイムアプリケーションに不可欠な処理速度の面でも優れたパフォーマンスを示します。一方、TimePillars は動き補償に畳み込みベースの方法を採用しており、従来の方法に比べて大幅に改善されています。このアプローチでは、トレーニング中の補助タスクを通じて変換の正確性が保証され、移動オブジェクトを処理する際のモデルの精度が向上します。

ただし、この論文の調査にはいくつかの限界もあります。まず、TimePillars は遠くの物体検出の処理では優れたパフォーマンスを発揮しますが、このパフォーマンスの向上には処理速度がある程度犠牲になる可能性があります。モデルの速度は依然としてリアルタイムアプリケーションに適していますが、シングルフレーム手法と比較すると依然として低下しています。さらに、この論文では主に LiDAR データに焦点を当てており、カメラやレーダーなどの他のセンサー入力は考慮されていないため、より複雑なマルチセンサー環境でのモデルの適用が制限される可能性があります。

つまり、TimePillars は、自動運転車の 3D LIDAR 物体検出、特に長距離検出と動き補償において、大きな利点を示しています。処理速度とマルチセンサーデータの処理における制限に若干のトレードオフがあるにもかかわらず、TimePillars は依然としてこの分野で重要な進歩を示しています。

#結論

この研究は、過去のセンサーデータを考慮することが、現在の情報のみを利用するよりも優れていることを示しています。以前の運転環境情報にアクセスすると、LIDAR 点群のまばらな性質に対処でき、より正確な予測につながります。我々は、リカレントネットワークが後者を達成する手段として適していることを実証します。システムメモリを提供すると、広範な処理を通じてより高密度のデータ表現を作成する点群集約手法と比較して、より堅牢なソリューションが実現します。私たちが提案したメソッド TimePillars は、再帰的問題を解決する方法を実装しています。推論プロセスに 3 つの畳み込み層を追加するだけで、重要な結果を達成し、既存の効率とハードウェア統合仕様が確実に満たされるようにするには、基本的なネットワーク構成要素で十分であることを示します。私たちの知る限り、この研究は、新しく導入された Zenseact オープンデータセットでの 3D オブジェクト検出タスクの最初のベンチマーク結果を提供します。私たちの取り組みが将来、より安全で持続可能な道路に貢献できることを願っています。

以上がTimePillars: 純粋な LiDAR 3D 検出ルートはどこに拡張できますか? 200mを直接カバー！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIセラピストがここにいます：あなたが知る必要がある14の画期的なメンタルヘルスツールApr 30, 2025 am 11:17 AM

訓練を受けたセラピストの人間のつながりと直観を提供することはできませんが、多くの人々は、比較的顔のない匿名のAIボットと心配や懸念を共有することを快適に共有していることが研究で示されています。これが常に良いかどうか

食料品の通路にAIを呼びますApr 30, 2025 am 11:16 AM

数十年の技術である人工知能（AI）は、食品小売業界に革命をもたらしています。大規模な効率性の向上とコスト削減から、さまざまなビジネス機能にわたる合理化されたプロセスまで、AIの影響はUndeniablです

あなたの精神を持ち上げるために生成的なAIからPEPの話をするApr 30, 2025 am 11:15 AM

それについて話しましょう。革新的なAIブレークスルーのこの分析は、さまざまなインパクトのあるAIの複雑さを特定して説明するなど、最新のAIで進行中のForbes列のカバレッジの一部です（こちらのリンクを参照）。さらに、私のコンプのために

AI駆動のハイパーパーソナリゼーションがすべてのビジネスにとって必須である理由Apr 30, 2025 am 11:14 AM

プロの画像を維持するには、時折ワードローブの更新が必要です。オンラインショッピングは便利ですが、対面の試練の確実性がありません。私の解決策？ AI駆動のパーソナライズ。衣類の選択をキュレーションするAIアシスタントが想像しています

Duolingoを忘れてください：Google Translateの新しいAI機能は言語を教えていますApr 30, 2025 am 11:13 AM

Google Translateは言語学習機能を追加します Android Authorityによると、App Expert AssemberBugは、Google Translateアプリの最新バージョンには、パーソナライズされたアクティビティを通じてユーザーが言語スキルを向上させるように設計された新しい「実践」モードのテストコードが含まれていることを発見しました。この機能は現在、ユーザーには見えませんが、AssembleDebugはそれを部分的にアクティブにして、新しいユーザーインターフェイス要素の一部を表示できます。アクティブ化すると、この機能は、「ベータ」バッジでマークされた画面の下部に新しい卒業キャップアイコンを追加し、「実践」機能が最初に実験形式でリリースされることを示します。関連するポップアッププロンプトは、「あなたのために調整されたアクティビティを練習してください！」を示しています。つまり、Googleがカスタマイズされたことを意味します

彼らはAIのためにTCP/IPを作成しており、Nandaと呼ばれていますApr 30, 2025 am 11:12 AM

MITの研究者は、AIエージェント向けに設計された画期的なWebプロトコルであるNandaを開発しています。ネットワークエージェントと分散型AIの略であるNandaは、インターネット機能を追加することにより、人類のモデルコンテキストプロトコル（MCP）に基づいて構築され、AI Agenを可能にします

プロンプト：Deepfake Detectionは活況を呈しているビジネスですApr 30, 2025 am 11:11 AM

メタの最新のベンチャー：chatgptに匹敵するAIアプリ Facebook、Instagram、WhatsApp、およびThreadsの親会社であるMetaは、新しいAIを搭載したアプリケーションを立ち上げています。このスタンドアロンアプリであるMeta AIは、OpenaiのChatGptと直接競争することを目指しています。レバー

ビジネスリーダーのためのAIサイバーセキュリティでの次の2年間Apr 30, 2025 am 11:10 AM

AIサイバー攻撃の上昇する潮をナビゲートします最近、人類のためのCISOであるジェイソン・クリントンは、機械間通信が増殖すると、これらの「アイデンティティ」を保護するために、非人間のアイデンティティに結びついた新たなリスクを強調しました。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。