OccNeRF: LIDAR データの監視はまったく必要ありません-AI-php.cn

ホームページ

テクノロジー周辺機器

OccNeRF: LIDAR データの監視はまったく必要ありません

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Feb 07, 2024 pm 09:57 PM

3dオートパイロット

以前書いた＆筆者の個人的要約

近年、自動運転分野における 3D 乗員予測タスクは、その独特な特徴から学界や産業界で広く研究されています。利点に焦点を当てます。このタスクは、周囲環境の 3D 構造を再構築することにより、自動運転の計画とナビゲーションのための詳細な情報を提供します。ただし、現在の主流の方法のほとんどは、ネットワークトレーニングを監視するために、LiDAR 点群に基づいて生成されたラベルに依存しています。最近の OccNeRF 研究で、著者らはパラメータ化された占有フィールドと呼ばれる自己監視型マルチカメラ占有予測方法を提案しました。この方法は、屋外シーンにおける境界の無さの問題を解決し、サンプリング戦略を再編成します。次に、ボリュームレンダリング (ボリュームレンダリング) テクノロジーによって、占有フィールドがマルチカメラデプスマップに変換され、マルチフレームの測光一貫性 (測光誤差) によって管理されます。さらに、この方法は、事前にトレーニングされた公開語彙意味セグメンテーションモデルを利用して 2D 意味ラベルを生成し、職業フィールドに意味情報を与えます。このオープンレキシコンのセマンティックセグメンテーションモデルは、シーン内のさまざまなオブジェクトをセグメント化し、各オブジェクトにセマンティックラベルを割り当てることができます。これらのセマンティックラベルを占有フィールドと組み合わせることで、モデルは環境をより深く理解し、より正確な予測を行うことができます。要約すると、OccNeRF メソッドは、パラメーター化された占有フィールド、ボリュームレンダリング、およびマルチフレームのフォトメトリック一貫性とオープンボキャブラリーのセマンティックセグメンテーションモデルを組み合わせて使用することにより、自動運転シナリオにおける高精度の占有予測を実現します。この手法により、自動運転システムにより多くの環境情報が提供され、自動運転の安全性・信頼性の向上が期待されます。

OccNeRF: LIDAR データの監視はまったく必要ありません

論文リンク: https://arxiv.org/pdf/2312.09243.pdf
コードリンク: https://github.com /LinShan-Bin/OccNeRF

OccNeRF 問題の背景

近年、人工知能技術の急速な発展に伴い、人工知能技術の進歩は大きく進んでいます。自動運転の分野。 3D 認識は自動運転の基礎であり、その後の計画や意思決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャンポイントがまばらなため、実用化は制限されています。対照的に、画像ベースの 3D センシング方法は低コストで効果的であるため、ますます注目を集めています。マルチカメラ 3Dオブジェクト検出は、しばらくの間、3Dシーン理解タスクの主流でしたが、現実世界の無限のカテゴリに対応できず、データロングテール分布の影響##の影響を受けます。

3D 占有予測は、マルチビュー入力を通じて周囲のシーンのジオメトリを直接再構築することで、これらの欠点を十分に補うことができます。既存の手法のほとんどはモデル設計とパフォーマンスの最適化に焦点を当てており、LiDAR 点群によって生成されたラベルに依存してネットワークトレーニングを監視しますが、これは画像ベースのシステムでは利用できません。言い換えれば、トレーニングデータを収集するには高価なデータ収集車両を使用する必要があり、LiDAR 点群支援アノテーションがなければ大量の実データが無駄になるため、3D 占有予測の開発がある程度制限されます。したがって、自己監視型 3D 占有予測を探求することは、非常に価値のある方向性です。

OccNeRF アルゴリズムの詳細説明

次の図は、OccNeRF メソッドの基本プロセスを示しています。モデルはマルチカメラ画像

を入力として受け取り、最初に 2D バックボーンを使用して N 個の写真

の特徴を抽出し、次に単純な投影と双線形補間 ( で) を通じて 3D 特徴を直接取得します。パラメーター化された空間 (以下))、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリュームレンダリングを通じて現在のフレームの深度マップを生成し、前後のフレームを導入して測光損失を計算します。より多くのタイミング情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティックマップも同時にレンダリングし、Open Lexicon Semantic Segmentation Model によって管理されます。

パラメータ化された占有フィールド OccNeRF: LIDAR データの監視はまったく必要ありません

パラメータ化された占有フィールドは、カメラと占有グリッドの間の

知覚範囲のギャップを解決するために提案されています

これ質問。理論的には、カメラは無限の距離にある物体を捉えることができますが、以前の占有予測モデルはより近い空間 (たとえば、40 m 以内) のみを考慮していました。教師あり手法では、モデルは教師信号に基づいて遠くの物体を無視することを学習できますが、教師なし手法では、近くの空間のみが依然として考慮されている場合、画像内に多数の範囲外の物体が存在するとマイナスの影響が生じます。最適化プロセスへの影響。影響。これに基づいて、OccNeRF はパラメーター化された占有フィールドを採用して、無制限の範囲の屋外シーンをモデル化します。

OccNeRF のパラメータ化空間は内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度が維持されますが、外部空間は無限の範囲を表します。具体的には、OccNeRF は 3D 空間内の点の座標に次の変更を加えます:

ここで、は座標です。 # は内部空間に対応する境界値を示す調整可能なパラメータであり、も内部空間が占める割合を示す調整可能なパラメータです。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換を通じて元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みを通じて占有フィールドを取得します。

マルチフレーム深度推定

占有ネットワークをトレーニングするために、OccNeRF はボリュームレンダリングを使用して占有を深度マップに変換し、測光損失関数を通じてそれを監視することを選択します。サンプリング戦略は、深度マップをレンダリングするときに重要です。パラメータ化された空間で、奥行きや視差に基づいて均一にサンプリングすると、サンプリングポイントが内部空間または外部空間で不均一に分布し、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一に直接サンプリングすることを提案します。さらに、OccNeRF はトレーニング中にマルチフレーム深度マップをレンダリングおよび監視します。

下の図は、パラメータ化された空間表現を使用する利点を視覚的に示しています。 (3 行目はパラメータ化された空間を使用し、2 行目は使用しません。)

OccNeRF: LIDAR データの監視はまったく必要ありません

セマンティックラベル生成

OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO) を使用します。 SAM) は 2D セマンティックラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つは

cue word 最適化で、nuScenes 内の曖昧なカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプトワードを最適化するために 3 つの戦略が使用されます。曖昧な単語の置換 (自動車はセダンに置き換えられます)、単語間のマルチワード (人工物は建物、看板、橋に置き換えられます)、および追加情報の導入 (自転車は自転車、自転車に置き換えられます）。 2 つ目は、SAM によって与えられるピクセルごとの信頼度ではなく、Grounding DINO の検出フレームの信頼度に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティックラベル効果は次のとおりです。

OccNeRF: LIDAR データの監視はまったく必要ありません

OccNeRF 実験結果

OccNeRF は nuScenes で実験を実施し、主に多くの実験を完了しました。パースペクティブの自己監視型深度推定および 3D 占有予測タスク。

マルチビュー自己教師あり深度推定

OccNeRF の nuScenes でのマルチビュー自己教師あり深度推定のパフォーマンスを以下の表に示します。 3D モデリングに基づく OccNeRF は、2D 手法を大幅に上回り、SimpleOcc も上回っていることがわかります。これは主に、OccNeRF が屋外シーン向けにモデル化する無制限の空間範囲によるものです。

OccNeRF: LIDAR データの監視はまったく必要ありません論文内のいくつかの視覚化は次のとおりです:

OccNeRF: LIDAR データの監視はまったく必要ありません 3D 占有率予測

OccNeRF in nuScenes 3D 占有予測のパフォーマンスを以下の表に示します。 OccNeRF は注釈付きデータをまったく使用しないため、そのパフォーマンスは依然として教師ありメソッドよりも遅れています。ただし、走行可能な路面や人工物などの一部のカテゴリでは、教師あり手法と同等のパフォーマンスを達成しています。

OccNeRF: LIDAR データの監視はまったく必要ありません # 記事内の視覚化の一部は次のとおりです:

OccNeRF: LIDAR データの監視はまったく必要ありません #概要

多くの自動車メーカーが LiDAR センサーを廃止しようとしている現在、ラベルのない数千の画像データをどのように活用するかが重要な問題です。そして、OccNeRF は私たちに貴重な試みをもたらしてくれました。

元のリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA OccNeRF: LIDAR データの監視はまったく必要ありません

以上がOccNeRF: LIDAR データの監視はまったく必要ありませんの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

迅速なエンジニアリングにおける思考のグラフは何ですかApr 13, 2025 am 11:53 AM

導入迅速なエンジニアリングでは、「思考のグラフ」とは、グラフ理論を使用してAIの推論プロセスを構造化および導く新しいアプローチを指します。しばしば線形sを含む従来の方法とは異なります

Genaiエージェントとの電子メールマーケティングを組織に最適化しますApr 13, 2025 am 11:44 AM

導入おめでとう！あなたは成功したビジネスを運営しています。ウェブページ、ソーシャルメディアキャンペーン、ウェビナー、会議、無料リソース、その他のソースを通じて、毎日5000の電子メールIDを収集します。次の明白なステップはです

Apache Pinotによるリアルタイムアプリのパフォーマンス監視Apr 13, 2025 am 11:40 AM

導入今日のペースの速いソフトウェア開発環境では、最適なアプリケーションパフォーマンスが重要です。応答時間、エラーレート、リソース利用などのリアルタイムメトリックを監視することで、メインに役立ちます

ChatGptは10億人のユーザーにヒットしますか？「わずか数週間で2倍になりました」とOpenai CEOは言いますApr 13, 2025 am 11:23 AM

「ユーザーは何人いますか？」彼は突き出した。「私たちが最後に言ったのは毎週5億人のアクティブであり、非常に急速に成長していると思います」とアルトマンは答えました。「わずか数週間で2倍になったと言った」とアンダーソンは続けた。「私はそのprivと言いました

PIXTRAL -12B：Mistral AI＆＃039;の最初のマルチモーダルモデル-Analytics VidhyaApr 13, 2025 am 11:20 AM

導入 Mistralは、最初のマルチモーダルモデル、つまりPixtral-12B-2409をリリースしました。このモデルは、Mistralの120億個のパラメーターであるNemo 12bに基づいて構築されています。このモデルを際立たせるものは何ですか？これで、画像とTexの両方を採用できます

生成AIアプリケーションのエージェントフレームワーク - 分析VidhyaApr 13, 2025 am 11:13 AM

クエリに応答するだけでなく、情報を自律的に収集し、タスクを実行し、テキスト、画像、コードなどの複数のタイプのデータを処理するAIを搭載したアシスタントがいることを想像してください。未来的に聞こえますか？これでa

金融セクターにおける生成AIの応用Apr 13, 2025 am 11:12 AM

導入金融業界は、効率的な取引と信用の可用性を促進することにより経済成長を促進するため、あらゆる国の発展の基礎となっています。取引の容易さとクレジット

オンライン学習とパッシブアグレッシブアルゴリズムのガイドApr 13, 2025 am 11:09 AM

導入データは、ソーシャルメディア、金融取引、eコマースプラットフォームなどのソースから前例のないレートで生成されています。この連続的な情報ストリームを処理することは課題ですが、

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

PhpStorm Mac バージョン

最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

ドリームウィーバー CS6

ビジュアル Web 開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。