検索
ホームページテクノロジー周辺機器AIクラウド上のインテリジェント運転の 3D 再構築の優れた実践

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

Oct 27, 2023 pm 05:13 PM
クラウドコンピューティングインテリジェントな運転

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

インテリジェント運転技術の継続的な開発により、私たちの移動方法や交通システムが変化しています。 3D 再構築は主要テクノロジーの 1 つとして、インテリジェント運転システムにおいて重要な役割を果たします。自動運転技術の実装と開発には、自動車自体の認識および再構築アルゴリズムに加えて、巨大なクラウド再構築機能のサポートが必要です。火山エンジン マルチメディア ラボラトリーは、業界をリードする自社開発の 3D 再構築技術と強力なクラウドを組み合わせて使用​​しています。プラットフォームのリソースと機能は、大規模な再構築、自動アノテーション、クラウド上での現実的なシミュレーションなどのシナリオにおける関連テクノロジーの実装と適用に役立ちます。

この記事は、動的および静的シーンにおける火山エンジン マルチメディア研究所の 3D 再構成テクノロジーの原理と実践、および高度なライト フィールド再構成テクノロジーとの組み合わせに焦点を当てており、誰もがどのようにインテリジェントであるかをよりよく理解できるようにします。クラウド上での 3D 再構成により、インテリジェント運転の分野に貢献し、産業の発展を支援します。

1. 技術的な課題と困難

走行シーン再構成には、道路環境を点群レベルで三次元再構成する必要があり、従来の三次元再構成技術の適用シナリオと比較して、走行シーン再構成技術は、次のような問題があります:

  1. 車両走行中の環境要因は複雑で制御できません。さまざまな天候、照明、車両速度、道路状況などが、車両センサーによって収集されるデータに影響を及ぼします。粘着性は再構築技術に影響を与えます。
  2. 道路シーンでは、特徴の劣化やテクスチャの損失がよく発生します。たとえば、カメラが豊富な視覚的特徴を持たない画像情報を取得したり、ライダーが類似性の高いシーン構造情報を取得したりする場合です。同時に、路面は再構築における重要な要素の 1 つは、単色であり、十分なテクスチャ情報が欠如しているため、再構築技術に対する要求が高くなります。
  3. 車載センサーは多数あります。一般的なものには、カメラ、ライダー、ミリ波レーダー、慣性航法、GPS 測位システム、車輪速度計などが含まれます。複数のセンサーからのデータを融合してより多くのデータを取得する方法その結果、再構築技術が課題となっています。
  4. 移動車両、非電動車両、道路上の歩行者などの動的オブジェクトの存在は、従来の再構成アルゴリズムに課題をもたらします。動的オブジェクトを除去する方法は、静的なシーンの再構成に干渉を引き起こします。同時に、動的オブジェクトの位置とサイズも影響を受けます。速度を見積もることもプロジェクトの難しさの 1 つです。

2. 運転シーン再構成技術の紹介

自動運転分野における再構成アルゴリズムは通常、LIDAR とカメラに基づいた技術的なルートを採用し、GPS と慣性航法で補完します。 LiDAR は、高精度の測距情報を直接取得し、シーン構造を迅速に取得でき、事前ライダーとカメラの共同キャリブレーションを通じて、カメラで取得した画像からレーザー点群に色、セマンティクス、その他の情報を与えることができます。同時に、GPS と慣性航法は測位を支援し、再構築プロセス中の特徴の劣化によって引き起こされるドリフトを軽減します。ただし、マルチライン LIDAR は価格が高いため、通常はエンジニアリング車両に使用され、量産車両に大規模に使用するのは困難です。

これに関して、火山エンジン マルチメディア研究所は、静的シーン再構成、動的物体再構成、および動的物体と静的物体を区別できる神経放射線野再構成技術を含む、一連の純粋に視覚的な運転シーン再構成技術を独自に開発しました。シーン内で、静的なシーンの密な点群を復元し、路面、標識、信号機などの重要な要素を強調表示し、シーン内の移動オブジェクトの位置、サイズ、方向、速度を効果的に推定できます。静的なシーンの再構成に基づいて、神経放射場を使用してシーンを再構成および再生し、自由な透視ローミングを実現し、これをシーン編集およびシミュレーション レンダリングに使用できます。この技術ソリューションは LIDAR に依存せず、デシメートルレベルの相対誤差を達成でき、最小限のハードウェアコストで LIDAR に近い再構成効果を実現します。

2.1 静的シーン再構成テクノロジ: 動的な干渉を除去し、静的シーンを復元します

ビジュアル再構成テクノロジは、マルチビュー ジオメトリに基づいており、フレーム間の一貫性を保つために再構成されるシーンまたはオブジェクトが必要です。つまり、異なる画像フレームでは静的な状態にあるため、動的オブジェクトは再構成プロセス中に削除する必要があります。シーン内のさまざまな要素の重要性に応じて、密な点群から無関係な点群を削除する必要がありますが、一部の重要な要素の点群は保持されるため、画像を事前に意味的にセグメント化する必要があります。 これに関して、 Volcano Engine マルチメディア ラボでは、AI テクノロジーとマルチビュー ジオメトリの基本原理を組み合わせて、高度な堅牢で正確かつ完全な視覚再構成アルゴリズム フレームワーク。再構成プロセスには、画像前処理、スパース再構成、およびデンス再構成 という 3 つの主要なステップが含まれます。

車載カメラは撮影中動作しているため、露光時間の関係で、車速が増加すると収集画像に重大なモーションブラーが発生します。さらに、帯域幅とストレージ容量を節約するために、画像は送信プロセス中に不可逆的に非可逆圧縮されるため、画質がさらに低下します。この目的を達成するために、Volcano Engine Multimedia Laboratory は、エンドツーエンドのニューラル ネットワークを使用して画像のブレを除去し、モーション ブラーを抑制しながら画質を向上させることができます。ブレ除去前と後の比較を下の図に示します。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

ブレ除去前 (左) ブレ除去後 (右)

動的オブジェクトを区別するために、Volcano Engine Multimedia Laboratory Dynamicオプティカルフローに基づく物体認識技術は、ピクセルレベルの動的な物体マスクを取得するために使用されます。後続の静的シーン再構成プロセスでは、動的オブジェクト領域に該当する特徴点が削除され、静的シーンとオブジェクトのみが保持されます。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

オプティカル フロー (左) 移動オブジェクト (右)

スパース再構成プロセス中、カメラの位置、方向、およびシーン点群、SLAM アルゴリズム (同時位置特定とマッピング)、および SFM アルゴリズム (Structure from Motion、SfM と呼ばれる) が一般的に使用されます。 SFM アルゴリズムは、リアルタイムのパフォーマンスを必要とせずに、より高い再構成精度を実現できます。ただし、従来の SFM アルゴリズムは通常、各カメラを独立したカメラとして扱いますが、通常、複数のカメラが車両上の異なる方向に配置され、これらのカメラ間の相対位置は実際には固定されています (車両を無視して)。振動によって引き起こされる微妙な変化) 。カメラ間の相対位置制約が無視されると、各カメラの計算された姿勢誤差が比較的大きくなります。さらに、オクルージョンがひどい場合、個々のカメラの姿勢を計算することが困難になります。この点に関して、火山エンジン マルチメディア研究所は、カメラ グループ全体に基づく SFM アルゴリズムを自社開発しました。これは、カメラ間の事前の相対的な姿勢制約を使用して、カメラ グループ全体の姿勢を計算でき、また GPS と慣性も使用します。測位結果を融合してカメラ グループの中心位置を制約すると、姿勢推定の成功率と精度が効果的に向上し、異なるカメラ間の点群の不一致が改善され、点群の階層化が軽減されます。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

従来の SFM (左) カメラ グループ SFM (右)

地面の色 単一の欠落したテクスチャのため、従来の視覚的再構成では完全な地面を復元することは困難ですが、車線の境界線、矢印、テキスト/ロゴなどの重要な要素が地面に存在します。研究室では二次曲面を使用して地面にフィットし、地面領域の深度推定と点群融合の実行を支援します。実際の道路表面は理想的な平面ではないことが多いため、平面フィッティングと比較して、二次曲面の方が実際の道路シーンに適しています。以下は、地面をフィッティングするために平面方程式と二次曲面方程式を使用した場合の効果の比較です。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

平面方程式 (左) 二次曲面方程式 (右)

レーザー点群を真の値として扱い、これに視覚的な再構成結果を重ね合わせることで、再構成された点群の精度を直感的に測定できます。下の図からわかるように、再構成された点群と真の点群の適合性は非常に高く、測定後の再構成結果の相対誤差は約 15cm です。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

火山エンジン マルチメディア研究所の再構成結果 (色) とグラウンド トゥルース点群 (白)

以下は火山エンジン マルチメディアです研究室の視覚再構成アルゴリズムと主流の商用再構成ソフトウェアの効果の比較。商用ソフトウェアと比較して、火山エンジン マルチメディア研究所が独自に開発したアルゴリズムは、道路標識、信号機、電柱、道路上の車線や矢印などの再構築効果が優れていることがわかります。シーン内の点群は非常に高度に復元されていますが、商用ソフトウェアで再構成された点群は非常にまばらであり、路面の広い領域が欠落しています。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

某主流商用ソフトウェア(左)Volcano Engine Multimedia Laboratoryのアルゴリズム(右)

2.2 動的再構成技術:

画像上の物体に 3D アノテーションを付けるのは非常に困難です。点群が必要です。車両に視覚センサーのみが搭載されている場合でも、目標を取得できます。シーン内のオブジェクト。完全な点群は困難です。特に動的オブジェクトの場合、従来の 3D 再構成技術を使用して高密度の点群を取得することはできません。移動オブジェクトの表現を提供し、4D アノテーションを提供するために、3D バウンディング ボックス (以下、3D Bbox と呼びます) を使用して動的オブジェクトを表現し、シーン内の動的オブジェクトの 3D Bbox の姿勢、サイズ、速度を表現します。モーメントは自社開発の動的再構成アルゴリズムなどを通じて取得され、動的オブジェクト再構成機能を補完します。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

#動的再構成パイプライン

車両によって収集された画像の各フレームについて、まずシーン内の動的ターゲットを抽出し、 3D bbox 最初の提案では、2D ターゲット検出を使用する方法と、カメラのポーズを通じて対応する 3D bbox を推定する方法、および 3D ターゲット検出を直接使用する方法の 2 つの方法が提供されています。 2 つの方法はデータに応じて柔軟に選択でき、2D 検出は汎化性が高く、3D 検出はより良好な初期値が得られます。同時に画像の動的領域内の特徴点が抽出されます。初期の 3D bbox 提案と単一フレーム画像の特徴点を取得した後、複数のフレーム間のデータ相関関係を確立します。自社開発のマルチターゲット追跡アルゴリズムを通じてオブジェクト マッチングを確立し、特徴マッチング テクノロジを通じて画像特徴をマッチングします。マッチング関係を取得した後、共通のビュー関係を持つ画像フレームがローカル マップとして作成され、グローバルに一貫したターゲット bbox 推定を解決するための最適化問題が構築されます。具体的には、特徴点マッチングと動的三角測量技術を通じて、動的 3D ポイントが復元され、車両の動きがモデル化され、オブジェクト、3D ポイント、およびカメラ間の観察が共同で最適化されて、最適な推定動的オブジェクト 3D bbox が取得されます。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

#2d は 3D を生成します (左から 2 番目) 3D ターゲット検出の例


2.3

NeRF 再構築: フォトリアリスティックなレンダリング、自由な視点暗黙的な再構築にニューラル ネットワークを使用し、既存のビューから微分可能なレンダリング モデルを使用 レンダリング方法を学ぶフォトリアリスティックな画像レンダリングのための新しい視点からの画像: Neural Radiation Field (NeRF) テクノロジー。同時に、暗黙的再構成には、編集可能で連続空間のクエリを実行できるという特徴があり、自動運転シナリオにおける自動アノテーションやシミュレーション データ構築などのタスクに使用できます。 NeRF テクノロジーを使用したシーンの再構築は非常に価値があります。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践火山エンジン マルチメディア研究所は、神経放射フィールド技術と大規模シーン モデリング技術を組み合わせています。具体的な実践では、データが最初に処理されます。シーン内の動的オブジェクトは、NeRF 再構成でアーティファクトを引き起こします。独自に開発された動的および静的セグメンテーション、影検出、およびその他のアルゴリズムの助けを借りて、シーン内の一致しない領域が抽出されます。ジオメトリが抽出され、マスクが生成されると同時に、ビデオ修復アルゴリズムを使用して、削除された領域が修復されます。自社開発の 3D 再構成機能を利用して、カメラ パラメーターの推定や疎点群および密集点群の生成など、シーンの高精度の幾何学的再構成が実行されます。さらに、シナリオを分割して単一のトレーニング リソースの消費を削減し、分散トレーニングとメンテナンスを実行できます。神経放射線フィールドのトレーニング プロセス中、大規模な屋外の境界のないシーンに対して、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、トレーニング中にポーズを同時に最適化し、姿勢のレベルに基づいて再構築の精度を向上させました。ハッシュ コーディング。式によりモデルのトレーニング速度が向上し、外観コーディングはさまざまな時点で収集されたシーンの外観の一貫性を向上させるために使用され、mvs の高密度深度情報は幾何学的精度を向上させるために使用されます。チームはHaoMo Zhixingと協力して、シングルチャネルの取得とマルチチャネルを統合したNeRFの再構築を完了し、関連する結果はHaomo AI Dayに発表されました。

クラウド上のインテリジェント運転の 3D 再構築の優れた実践

動的オブジェクト/シャドウのカリング、塗りつぶし

以上がクラウド上のインテリジェント運転の 3D 再構築の優れた実践の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール