ホームページ > 記事 > テクノロジー周辺機器 > クラウド上のインテリジェント運転の 3D 再構築の優れた実践
インテリジェント運転技術の継続的な開発により、私たちの移動方法や交通システムが変化しています。 3D 再構築は主要テクノロジーの 1 つとして、インテリジェント運転システムにおいて重要な役割を果たします。自動運転技術の実装と開発には、自動車自体の認識および再構築アルゴリズムに加えて、巨大なクラウド再構築機能のサポートが必要です。火山エンジン マルチメディア ラボラトリーは、業界をリードする自社開発の 3D 再構築技術と強力なクラウドを組み合わせて使用しています。プラットフォームのリソースと機能は、大規模な再構築、自動アノテーション、クラウド上での現実的なシミュレーションなどのシナリオにおける関連テクノロジーの実装と適用に役立ちます。
この記事は、動的および静的シーンにおける火山エンジン マルチメディア研究所の 3D 再構成テクノロジーの原理と実践、および高度なライト フィールド再構成テクノロジーとの組み合わせに焦点を当てており、誰もがどのようにインテリジェントであるかをよりよく理解できるようにします。クラウド上での 3D 再構成により、インテリジェント運転の分野に貢献し、産業の発展を支援します。
走行シーン再構成には、道路環境を点群レベルで三次元再構成する必要があり、従来の三次元再構成技術の適用シナリオと比較して、走行シーン再構成技術は、次のような問題があります:
自動運転分野における再構成アルゴリズムは通常、LIDAR とカメラに基づいた技術的なルートを採用し、GPS と慣性航法で補完します。 LiDAR は、高精度の測距情報を直接取得し、シーン構造を迅速に取得でき、事前ライダーとカメラの共同キャリブレーションを通じて、カメラで取得した画像からレーザー点群に色、セマンティクス、その他の情報を与えることができます。同時に、GPS と慣性航法は測位を支援し、再構築プロセス中の特徴の劣化によって引き起こされるドリフトを軽減します。ただし、マルチライン LIDAR は価格が高いため、通常はエンジニアリング車両に使用され、量産車両に大規模に使用するのは困難です。
これに関して、火山エンジン マルチメディア研究所は、静的シーン再構成、動的物体再構成、および動的物体と静的物体を区別できる神経放射線野再構成技術を含む、一連の純粋に視覚的な運転シーン再構成技術を独自に開発しました。シーン内で、静的なシーンの密な点群を復元し、路面、標識、信号機などの重要な要素を強調表示し、シーン内の移動オブジェクトの位置、サイズ、方向、速度を効果的に推定できます。静的なシーンの再構成に基づいて、神経放射場を使用してシーンを再構成および再生し、自由な透視ローミングを実現し、これをシーン編集およびシミュレーション レンダリングに使用できます。この技術ソリューションは LIDAR に依存せず、デシメートルレベルの相対誤差を達成でき、最小限のハードウェアコストで LIDAR に近い再構成効果を実現します。
ビジュアル再構成テクノロジは、マルチビュー ジオメトリに基づいており、フレーム間の一貫性を保つために再構成されるシーンまたはオブジェクトが必要です。つまり、異なる画像フレームでは静的な状態にあるため、動的オブジェクトは再構成プロセス中に削除する必要があります。シーン内のさまざまな要素の重要性に応じて、密な点群から無関係な点群を削除する必要がありますが、一部の重要な要素の点群は保持されるため、画像を事前に意味的にセグメント化する必要があります。 これに関して、 Volcano Engine マルチメディア ラボでは、AI テクノロジーとマルチビュー ジオメトリの基本原理を組み合わせて、高度な堅牢で正確かつ完全な視覚再構成アルゴリズム フレームワーク。再構成プロセスには、画像前処理、スパース再構成、およびデンス再構成 という 3 つの主要なステップが含まれます。
車載カメラは撮影中動作しているため、露光時間の関係で、車速が増加すると収集画像に重大なモーションブラーが発生します。さらに、帯域幅とストレージ容量を節約するために、画像は送信プロセス中に不可逆的に非可逆圧縮されるため、画質がさらに低下します。この目的を達成するために、Volcano Engine Multimedia Laboratory は、エンドツーエンドのニューラル ネットワークを使用して画像のブレを除去し、モーション ブラーを抑制しながら画質を向上させることができます。ブレ除去前と後の比較を下の図に示します。
ブレ除去前 (左) ブレ除去後 (右)
動的オブジェクトを区別するために、Volcano Engine Multimedia Laboratory Dynamicオプティカルフローに基づく物体認識技術は、ピクセルレベルの動的な物体マスクを取得するために使用されます。後続の静的シーン再構成プロセスでは、動的オブジェクト領域に該当する特徴点が削除され、静的シーンとオブジェクトのみが保持されます。
オプティカル フロー (左) 移動オブジェクト (右)
スパース再構成プロセス中、カメラの位置、方向、およびシーン点群、SLAM アルゴリズム (同時位置特定とマッピング)、および SFM アルゴリズム (Structure from Motion、SfM と呼ばれる) が一般的に使用されます。 SFM アルゴリズムは、リアルタイムのパフォーマンスを必要とせずに、より高い再構成精度を実現できます。ただし、従来の SFM アルゴリズムは通常、各カメラを独立したカメラとして扱いますが、通常、複数のカメラが車両上の異なる方向に配置され、これらのカメラ間の相対位置は実際には固定されています (車両を無視して)。振動によって引き起こされる微妙な変化) 。カメラ間の相対位置制約が無視されると、各カメラの計算された姿勢誤差が比較的大きくなります。さらに、オクルージョンがひどい場合、個々のカメラの姿勢を計算することが困難になります。この点に関して、火山エンジン マルチメディア研究所は、カメラ グループ全体に基づく SFM アルゴリズムを自社開発しました。これは、カメラ間の事前の相対的な姿勢制約を使用して、カメラ グループ全体の姿勢を計算でき、また GPS と慣性も使用します。測位結果を融合してカメラ グループの中心位置を制約すると、姿勢推定の成功率と精度が効果的に向上し、異なるカメラ間の点群の不一致が改善され、点群の階層化が軽減されます。
従来の SFM (左) カメラ グループ SFM (右)
地面の色 単一の欠落したテクスチャのため、従来の視覚的再構成では完全な地面を復元することは困難ですが、車線の境界線、矢印、テキスト/ロゴなどの重要な要素が地面に存在します。研究室では二次曲面を使用して地面にフィットし、地面領域の深度推定と点群融合の実行を支援します。実際の道路表面は理想的な平面ではないことが多いため、平面フィッティングと比較して、二次曲面の方が実際の道路シーンに適しています。以下は、地面をフィッティングするために平面方程式と二次曲面方程式を使用した場合の効果の比較です。
平面方程式 (左) 二次曲面方程式 (右)
レーザー点群を真の値として扱い、これに視覚的な再構成結果を重ね合わせることで、再構成された点群の精度を直感的に測定できます。下の図からわかるように、再構成された点群と真の点群の適合性は非常に高く、測定後の再構成結果の相対誤差は約 15cm です。
火山エンジン マルチメディア研究所の再構成結果 (色) とグラウンド トゥルース点群 (白)
以下は火山エンジン マルチメディアです研究室の視覚再構成アルゴリズムと主流の商用再構成ソフトウェアの効果の比較。商用ソフトウェアと比較して、火山エンジン マルチメディア研究所が独自に開発したアルゴリズムは、道路標識、信号機、電柱、道路上の車線や矢印などの再構築効果が優れていることがわかります。シーン内の点群は非常に高度に復元されていますが、商用ソフトウェアで再構成された点群は非常にまばらであり、路面の広い領域が欠落しています。
某主流商用ソフトウェア(左)Volcano Engine Multimedia Laboratoryのアルゴリズム(右)
画像上の物体に 3D アノテーションを付けるのは非常に困難です。点群が必要です。車両に視覚センサーのみが搭載されている場合でも、目標を取得できます。シーン内のオブジェクト。完全な点群は困難です。特に動的オブジェクトの場合、従来の 3D 再構成技術を使用して高密度の点群を取得することはできません。移動オブジェクトの表現を提供し、4D アノテーションを提供するために、3D バウンディング ボックス (以下、3D Bbox と呼びます) を使用して動的オブジェクトを表現し、シーン内の動的オブジェクトの 3D Bbox の姿勢、サイズ、速度を表現します。モーメントは自社開発の動的再構成アルゴリズムなどを通じて取得され、動的オブジェクト再構成機能を補完します。
#動的再構成パイプライン
車両によって収集された画像の各フレームについて、まずシーン内の動的ターゲットを抽出し、 3D bbox 最初の提案では、2D ターゲット検出を使用する方法と、カメラのポーズを通じて対応する 3D bbox を推定する方法、および 3D ターゲット検出を直接使用する方法の 2 つの方法が提供されています。 2 つの方法はデータに応じて柔軟に選択でき、2D 検出は汎化性が高く、3D 検出はより良好な初期値が得られます。同時に画像の動的領域内の特徴点が抽出されます。初期の 3D bbox 提案と単一フレーム画像の特徴点を取得した後、複数のフレーム間のデータ相関関係を確立します。自社開発のマルチターゲット追跡アルゴリズムを通じてオブジェクト マッチングを確立し、特徴マッチング テクノロジを通じて画像特徴をマッチングします。マッチング関係を取得した後、共通のビュー関係を持つ画像フレームがローカル マップとして作成され、グローバルに一貫したターゲット bbox 推定を解決するための最適化問題が構築されます。具体的には、特徴点マッチングと動的三角測量技術を通じて、動的 3D ポイントが復元され、車両の動きがモデル化され、オブジェクト、3D ポイント、およびカメラ間の観察が共同で最適化されて、最適な推定動的オブジェクト 3D bbox が取得されます。#2d は 3D を生成します (左から 2 番目) 3D ターゲット検出の例
2.3
火山エンジン マルチメディア研究所は、神経放射フィールド技術と大規模シーン モデリング技術を組み合わせています。具体的な実践では、データが最初に処理されます。シーン内の動的オブジェクトは、NeRF 再構成でアーティファクトを引き起こします。独自に開発された動的および静的セグメンテーション、影検出、およびその他のアルゴリズムの助けを借りて、シーン内の一致しない領域が抽出されます。ジオメトリが抽出され、マスクが生成されると同時に、ビデオ修復アルゴリズムを使用して、削除された領域が修復されます。自社開発の 3D 再構成機能を利用して、カメラ パラメーターの推定や疎点群および密集点群の生成など、シーンの高精度の幾何学的再構成が実行されます。さらに、シナリオを分割して単一のトレーニング リソースの消費を削減し、分散トレーニングとメンテナンスを実行できます。神経放射線フィールドのトレーニング プロセス中、大規模な屋外の境界のないシーンに対して、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、トレーニング中にポーズを同時に最適化し、姿勢のレベルに基づいて再構築の精度を向上させました。ハッシュ コーディング。式によりモデルのトレーニング速度が向上し、外観コーディングはさまざまな時点で収集されたシーンの外観の一貫性を向上させるために使用され、mvs の高密度深度情報は幾何学的精度を向上させるために使用されます。チームはHaoMo Zhixingと協力して、シングルチャネルの取得とマルチチャネルを統合したNeRFの再構築を完了し、関連する結果はHaomo AI Dayに発表されました。
動的オブジェクト/シャドウのカリング、塗りつぶし以上がクラウド上のインテリジェント運転の 3D 再構築の優れた実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。