クラウド上のインテリジェント運転の 3D 再構築の優れた実践-AI-php.cn

ホームページ

テクノロジー周辺機器

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

PHPz

Oct 27, 2023 pm 05:13 PM

クラウドコンピューティングインテリジェントな運転

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

インテリジェント運転技術の継続的な開発により、私たちの移動方法や交通システムが変化しています。 3D 再構築は主要テクノロジーの 1 つとして、インテリジェント運転システムにおいて重要な役割を果たします。自動運転技術の実装と開発には、自動車自体の認識および再構築アルゴリズムに加えて、巨大なクラウド再構築機能のサポートが必要です。火山エンジンマルチメディアラボラトリーは、業界をリードする自社開発の 3D 再構築技術と強力なクラウドを組み合わせて使用しています。プラットフォームのリソースと機能は、大規模な再構築、自動アノテーション、クラウド上での現実的なシミュレーションなどのシナリオにおける関連テクノロジーの実装と適用に役立ちます。

この記事は、動的および静的シーンにおける火山エンジンマルチメディア研究所の 3D 再構成テクノロジーの原理と実践、および高度なライトフィールド再構成テクノロジーとの組み合わせに焦点を当てており、誰もがどのようにインテリジェントであるかをよりよく理解できるようにします。クラウド上での 3D 再構成により、インテリジェント運転の分野に貢献し、産業の発展を支援します。

1. 技術的な課題と困難

走行シーン再構成には、道路環境を点群レベルで三次元再構成する必要があり、従来の三次元再構成技術の適用シナリオと比較して、走行シーン再構成技術は、次のような問題があります:

車両走行中の環境要因は複雑で制御できません。さまざまな天候、照明、車両速度、道路状況などが、車両センサーによって収集されるデータに影響を及ぼします。粘着性は再構築技術に影響を与えます。
道路シーンでは、特徴の劣化やテクスチャの損失がよく発生します。たとえば、カメラが豊富な視覚的特徴を持たない画像情報を取得したり、ライダーが類似性の高いシーン構造情報を取得したりする場合です。同時に、路面は再構築における重要な要素の 1 つは、単色であり、十分なテクスチャ情報が欠如しているため、再構築技術に対する要求が高くなります。
車載センサーは多数あります。一般的なものには、カメラ、ライダー、ミリ波レーダー、慣性航法、GPS 測位システム、車輪速度計などが含まれます。複数のセンサーからのデータを融合してより多くのデータを取得する方法その結果、再構築技術が課題となっています。
移動車両、非電動車両、道路上の歩行者などの動的オブジェクトの存在は、従来の再構成アルゴリズムに課題をもたらします。動的オブジェクトを除去する方法は、静的なシーンの再構成に干渉を引き起こします。同時に、動的オブジェクトの位置とサイズも影響を受けます。速度を見積もることもプロジェクトの難しさの 1 つです。

2. 運転シーン再構成技術の紹介

自動運転分野における再構成アルゴリズムは通常、LIDAR とカメラに基づいた技術的なルートを採用し、GPS と慣性航法で補完します。 LiDAR は、高精度の測距情報を直接取得し、シーン構造を迅速に取得でき、事前ライダーとカメラの共同キャリブレーションを通じて、カメラで取得した画像からレーザー点群に色、セマンティクス、その他の情報を与えることができます。同時に、GPS と慣性航法は測位を支援し、再構築プロセス中の特徴の劣化によって引き起こされるドリフトを軽減します。ただし、マルチライン LIDAR は価格が高いため、通常はエンジニアリング車両に使用され、量産車両に大規模に使用するのは困難です。

これに関して、火山エンジンマルチメディア研究所は、静的シーン再構成、動的物体再構成、および動的物体と静的物体を区別できる神経放射線野再構成技術を含む、一連の純粋に視覚的な運転シーン再構成技術を独自に開発しました。シーン内で、静的なシーンの密な点群を復元し、路面、標識、信号機などの重要な要素を強調表示し、シーン内の移動オブジェクトの位置、サイズ、方向、速度を効果的に推定できます。静的なシーンの再構成に基づいて、神経放射場を使用してシーンを再構成および再生し、自由な透視ローミングを実現し、これをシーン編集およびシミュレーションレンダリングに使用できます。この技術ソリューションは LIDAR に依存せず、デシメートルレベルの相対誤差を達成でき、最小限のハードウェアコストで LIDAR に近い再構成効果を実現します。

2.1 静的シーン再構成テクノロジ: 動的な干渉を除去し、静的シーンを復元します

ビジュアル再構成テクノロジは、マルチビュージオメトリに基づいており、フレーム間の一貫性を保つために再構成されるシーンまたはオブジェクトが必要です。つまり、異なる画像フレームでは静的な状態にあるため、動的オブジェクトは再構成プロセス中に削除する必要があります。シーン内のさまざまな要素の重要性に応じて、密な点群から無関係な点群を削除する必要がありますが、一部の重要な要素の点群は保持されるため、画像を事前に意味的にセグメント化する必要があります。 これに関して、 Volcano Engine マルチメディアラボでは、AI テクノロジーとマルチビュージオメトリの基本原理を組み合わせて、高度な堅牢で正確かつ完全な視覚再構成アルゴリズムフレームワーク。再構成プロセスには、画像前処理、スパース再構成、およびデンス再構成 という 3 つの主要なステップが含まれます。

車載カメラは撮影中動作しているため、露光時間の関係で、車速が増加すると収集画像に重大なモーションブラーが発生します。さらに、帯域幅とストレージ容量を節約するために、画像は送信プロセス中に不可逆的に非可逆圧縮されるため、画質がさらに低下します。この目的を達成するために、Volcano Engine Multimedia Laboratory は、エンドツーエンドのニューラルネットワークを使用して画像のブレを除去し、モーションブラーを抑制しながら画質を向上させることができます。ブレ除去前と後の比較を下の図に示します。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

ブレ除去前 (左) ブレ除去後 (右)

動的オブジェクトを区別するために、Volcano Engine Multimedia Laboratory Dynamicオプティカルフローに基づく物体認識技術は、ピクセルレベルの動的な物体マスクを取得するために使用されます。後続の静的シーン再構成プロセスでは、動的オブジェクト領域に該当する特徴点が削除され、静的シーンとオブジェクトのみが保持されます。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

オプティカルフロー (左) 移動オブジェクト (右)

スパース再構成プロセス中、カメラの位置、方向、およびシーン点群、SLAM アルゴリズム (同時位置特定とマッピング)、および SFM アルゴリズム (Structure from Motion、SfM と呼ばれる) が一般的に使用されます。 SFM アルゴリズムは、リアルタイムのパフォーマンスを必要とせずに、より高い再構成精度を実現できます。ただし、従来の SFM アルゴリズムは通常、各カメラを独立したカメラとして扱いますが、通常、複数のカメラが車両上の異なる方向に配置され、これらのカメラ間の相対位置は実際には固定されています (車両を無視して)。振動によって引き起こされる微妙な変化) 。カメラ間の相対位置制約が無視されると、各カメラの計算された姿勢誤差が比較的大きくなります。さらに、オクルージョンがひどい場合、個々のカメラの姿勢を計算することが困難になります。この点に関して、火山エンジンマルチメディア研究所は、カメラグループ全体に基づく SFM アルゴリズムを自社開発しました。これは、カメラ間の事前の相対的な姿勢制約を使用して、カメラグループ全体の姿勢を計算でき、また GPS と慣性も使用します。測位結果を融合してカメラグループの中心位置を制約すると、姿勢推定の成功率と精度が効果的に向上し、異なるカメラ間の点群の不一致が改善され、点群の階層化が軽減されます。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

従来の SFM (左) カメラグループ SFM (右)

地面の色単一の欠落したテクスチャのため、従来の視覚的再構成では完全な地面を復元することは困難ですが、車線の境界線、矢印、テキスト/ロゴなどの重要な要素が地面に存在します。研究室では二次曲面を使用して地面にフィットし、地面領域の深度推定と点群融合の実行を支援します。実際の道路表面は理想的な平面ではないことが多いため、平面フィッティングと比較して、二次曲面の方が実際の道路シーンに適しています。以下は、地面をフィッティングするために平面方程式と二次曲面方程式を使用した場合の効果の比較です。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

平面方程式 (左) 二次曲面方程式 (右)

レーザー点群を真の値として扱い、これに視覚的な再構成結果を重ね合わせることで、再構成された点群の精度を直感的に測定できます。下の図からわかるように、再構成された点群と真の点群の適合性は非常に高く、測定後の再構成結果の相対誤差は約 15cm です。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

火山エンジンマルチメディア研究所の再構成結果 (色) とグラウンドトゥルース点群 (白)

以下は火山エンジンマルチメディアです研究室の視覚再構成アルゴリズムと主流の商用再構成ソフトウェアの効果の比較。商用ソフトウェアと比較して、火山エンジンマルチメディア研究所が独自に開発したアルゴリズムは、道路標識、信号機、電柱、道路上の車線や矢印などの再構築効果が優れていることがわかります。シーン内の点群は非常に高度に復元されていますが、商用ソフトウェアで再構成された点群は非常にまばらであり、路面の広い領域が欠落しています。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

某主流商用ソフトウェア（左）Volcano Engine Multimedia Laboratoryのアルゴリズム（右）

2.2 動的再構成技術:

画像上の物体に 3D アノテーションを付けるのは非常に困難です。点群が必要です。車両に視覚センサーのみが搭載されている場合でも、目標を取得できます。シーン内のオブジェクト。完全な点群は困難です。特に動的オブジェクトの場合、従来の 3D 再構成技術を使用して高密度の点群を取得することはできません。移動オブジェクトの表現を提供し、4D アノテーションを提供するために、3D バウンディングボックス (以下、3D Bbox と呼びます) を使用して動的オブジェクトを表現し、シーン内の動的オブジェクトの 3D Bbox の姿勢、サイズ、速度を表現します。モーメントは自社開発の動的再構成アルゴリズムなどを通じて取得され、動的オブジェクト再構成機能を補完します。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

#動的再構成パイプライン

車両によって収集された画像の各フレームについて、まずシーン内の動的ターゲットを抽出し、 3D bbox 最初の提案では、2D ターゲット検出を使用する方法と、カメラのポーズを通じて対応する 3D bbox を推定する方法、および 3D ターゲット検出を直接使用する方法の 2 つの方法が提供されています。 2 つの方法はデータに応じて柔軟に選択でき、2D 検出は汎化性が高く、3D 検出はより良好な初期値が得られます。同時に画像の動的領域内の特徴点が抽出されます。初期の 3D bbox 提案と単一フレーム画像の特徴点を取得した後、複数のフレーム間のデータ相関関係を確立します。自社開発のマルチターゲット追跡アルゴリズムを通じてオブジェクトマッチングを確立し、特徴マッチングテクノロジを通じて画像特徴をマッチングします。マッチング関係を取得した後、共通のビュー関係を持つ画像フレームがローカルマップとして作成され、グローバルに一貫したターゲット bbox 推定を解決するための最適化問題が構築されます。具体的には、特徴点マッチングと動的三角測量技術を通じて、動的 3D ポイントが復元され、車両の動きがモデル化され、オブジェクト、3D ポイント、およびカメラ間の観察が共同で最適化されて、最適な推定動的オブジェクト 3D bbox が取得されます。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

#2d は 3D を生成します (左から 2 番目) 3D ターゲット検出の例

2.3

NeRF 再構築: フォトリアリスティックなレンダリング、自由な視点暗黙的な再構築にニューラルネットワークを使用し、既存のビューから微分可能なレンダリングモデルを使用レンダリング方法を学ぶフォトリアリスティックな画像レンダリングのための新しい視点からの画像: Neural Radiation Field (NeRF) テクノロジー。同時に、暗黙的再構成には、編集可能で連続空間のクエリを実行できるという特徴があり、自動運転シナリオにおける自動アノテーションやシミュレーションデータ構築などのタスクに使用できます。 NeRF テクノロジーを使用したシーンの再構築は非常に価値があります。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践火山エンジンマルチメディア研究所は、神経放射フィールド技術と大規模シーンモデリング技術を組み合わせています。具体的な実践では、データが最初に処理されます。シーン内の動的オブジェクトは、NeRF 再構成でアーティファクトを引き起こします。独自に開発された動的および静的セグメンテーション、影検出、およびその他のアルゴリズムの助けを借りて、シーン内の一致しない領域が抽出されます。ジオメトリが抽出され、マスクが生成されると同時に、ビデオ修復アルゴリズムを使用して、削除された領域が修復されます。自社開発の 3D 再構成機能を利用して、カメラパラメーターの推定や疎点群および密集点群の生成など、シーンの高精度の幾何学的再構成が実行されます。さらに、シナリオを分割して単一のトレーニングリソースの消費を削減し、分散トレーニングとメンテナンスを実行できます。神経放射線フィールドのトレーニングプロセス中、大規模な屋外の境界のないシーンに対して、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、トレーニング中にポーズを同時に最適化し、姿勢のレベルに基づいて再構築の精度を向上させました。ハッシュコーディング。式によりモデルのトレーニング速度が向上し、外観コーディングはさまざまな時点で収集されたシーンの外観の一貫性を向上させるために使用され、mvs の高密度深度情報は幾何学的精度を向上させるために使用されます。チームはHaoMo Zhixingと協力して、シングルチャネルの取得とマルチチャネルを統合したNeRFの再構築を完了し、関連する結果はHaomo AI Dayに発表されました。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

動的オブジェクト/シャドウのカリング、塗りつぶし

以上がクラウド上のインテリジェント運転の 3D 再構築の優れた実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません