ホームページ >テクノロジー周辺機器 >AI >自動運転の初の純粋な視覚的静的再構築

自動運転の初の純粋な視覚的静的再構築

WBOYオリジナル: 2024-06-02 15:24:40816ブラウズ

自動運転の初の純粋な視覚的静的再構築

純粋に視覚的な注釈ソリューションは、主に視覚に加えて、動的注釈のために GPS、IMU、および車輪速度センサーからのデータを使用します。もちろん、量産シナリオでは、純粋に視覚的なものである必要はありません。一部の量産車両には固体レーダー (AT128) などのセンサーが搭載されています。大量生産の観点からデータの閉ループを作成し、これらすべてのセンサーを使用すると、動的オブジェクトのラベル付けの問題を効果的に解決できます。しかし、私たちの計画には固体レーダーはありません。したがって、この最も一般的な量産ラベルソリューションを紹介します。

純粋に視覚的な注釈ソリューションの中核は、高精度のポーズ再構築にあります。再構築の精度を確保するために、Structure from Motion (SFM) ポーズ再構築スキームを使用します。ただし、従来の SFM、特にインクリメンタル SFM は非常に遅く、計算量は O(n^4) (n はイメージの数) です。この種の再構成効率は、大規模モデルのデータアノテーションには受け入れられません。SFM ソリューションにいくつかの改良を加えました。

改善されたクリップ再構築は主に 3 つのモジュールに分かれています: 1) マルチセンサーデータ、GNSS、IMU、およびホイールスピードメーターを使用して、pose_graph 最適化を構築し、初期ポーズを取得します。このアルゴリズムは Wheel-Imu-GNSS -Odometry と呼ばれます。 WIGO); 2) 画像の特徴抽出とマッチング、および初期 3D ポイントを取得するための初期化されたポーズを直接使用した三角形分割。 3) 最後に、グローバル BA (バンドル調整) が実行されます。一方で、私たちのソリューションはインクリメンタル SFM を回避し、他方では、異なるクリップ間での並列操作を実現できるため、ポーズ再構築の効率が大幅に向上します。既存のインクリメンタル再構築と比較して、10 ～ 20 の効率を達成できます。倍の効率向上。

単一の再構築プロセス中に、私たちのソリューションはいくつかの最適化も行いました。たとえば、学習ベースの特徴 (Superpoint と Superglue) を使用し、1 つは特徴点、もう 1 つはマッチング手法 を使用して、従来の SIFT キーポイントを置き換えました。 NN フィーチャーを学習する利点は、カスタマイズされたニーズに合わせてルールをデータ駆動型で設計できることと、弱いテクスチャや暗い照明状況での堅牢性を向上できることです。キーポイントの検出とマッチングの効率。いくつかの比較実験を行った結果、夜景での NN 特徴の成功率は SFIT の 20% から 80% に比べて約 4 倍高くなることがわかりました。

単一のClipの再構築結果を取得した後、複数のClipを集約します。既存の HDmap マッピング構造マッチング方式とは異なり、集約の精度を確保するために、特徴点レベルの集約を採用しています。つまり、クリップ間の集約制約は特徴点のマッチングを通じて実装されます。この操作は、SLAM のループクロージャ検出に似ています。最初に、GPS を使用していくつかの一致するフレームを決定します。次に、特徴点と説明を使用して画像を照合し、最後にこれらのループクロージャ制約を組み合わせてグローバル BA (バンドル) を構築します。調整）して最適化します。現在、当社のソリューションの精度と RTE インデックスは、既存のビジュアル SLAM ソリューションやマッピングソリューションをはるかに上回っています。

実験: Colmap cuda バージョンを使用し、180 枚の画像、解像度 3848*2168 を使用し、内部パラメーターを手動で設定し、残りはデフォルト設定を使用します。スパース再構成には約 15 分かかり、密再構成全体には非常に時間がかかります。時間 (1-2h)

自動運転の初の純粋な視覚的静的再構築