検索
ホームページテクノロジー周辺機器AIFlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

原題: FlashOcc: Fast and Memory-Efficient Occupancy Prediction via Channel-to-Height Plugin

論文リンク: https://arxiv.org/pdf/2311.12058.pdf

著者単位: 大連理工大学 Houmo AI アデレード大学

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

論文のアイデア:

3D ターゲット検出の問題 遍在するロングテールの欠点と、複雑な形状に欠けている機能のため、占有予測は自動運転システムの重要なコンポーネントとなっています。ただし、3 次元のボクセル レベルの表現の処理では、メモリと計算の点で必然的に大幅なオーバーヘッドが発生し、これまでの占有予測方法の展開を妨げています。モデルがより大きく、より複雑になる傾向とは反対に、この論文では、理想的なフレームワークは、高い精度を維持しながら、さまざまなチップ間で導入しやすいものでなければならないと主張しています。この目的を達成するために、この文書では、高精度を維持しながら高速でメモリ効率の高い占有予測を統合するためのプラグアンドプレイ パラダイムである FlashOCC を提案します。特に、当社の FlashOCC は、現代のボクセルレベルの占有予測方法に基づいて 2 つの改善を行っています。まず、特徴が BEV に保存されるため、特徴抽出に効率的な 2D 畳み込み層を使用できるようになります。第二に、BEV の出力ロジットを 3D 空間に促進するために、チャネルから高さへの変換が導入されます。このペーパーでは、FlashOCC を困難な Occ3D-nuScenes ベンチマークのさまざまな占有予測ベースラインに適用し、その有効性を検証するために広範な実験を実施します。結果は、当社のプラグアンドプレイパラダイムが精度、ランタイム効率、メモリコストの点で以前の最先端の方法よりも優れていることを確認し、その導入の可能性を示しています。コードは使用できるようになります。

ネットワーク設計:

サブピクセル畳み込み技術 [26] に触発され、画像のアップサンプリングをチャネルの再配置に置き換えて、チャネルから空間への特徴変換を実現します。この研究では、チャネルから高さへの特徴変換を効率的に達成することを目的としています。 BEV 表現の各ピクセルに高さ次元の対応する柱状オブジェクトに関する情報が含まれる BEV 知覚タスクの開発を考慮して、チャネルから高さへの変換を直感的に利用して BEV の特徴を平坦化します。 。したがって、図 1(a) に示すように、私たちの研究は、新しいモデル アーキテクチャを開発するのではなく、汎用的でプラグ アンド プレイの方法で既存のモデルを強化することに焦点を当てています。具体的には、現代の手法における 3D 畳み込みの代わりに 2D 畳み込みを直接使用し、3D 畳み込み出力から導出された占有ロジットを、2D 畳み込みを通じて取得された BEV レベルの特徴のチャネルから高さへの変換に置き換えます。これらのモデルは、精度と時間消費の間で最適なトレードオフを達成するだけでなく、優れた導入互換性を実証します。

FlashOcc は、非常に高い精度でリアルタイムのルックアラウンド 3D 占有予測を完了することに成功し、この分野での独創的な貢献を示しています。分野。さらに、高価なボクセルレベルの特徴処理を必要とせず、ビュートランスフォーマーや 3D (変形可能) 畳み込み演算子が回避されるため、さまざまな車両プラットフォームに展開するための汎用性が向上します。図 2 に示すように、FlashOcc の入力データはサラウンド画像で構成され、出力は密集占有予測結果です。この記事の FlashOcc は、多用途かつプラグアンドプレイの方法で既存のモデルを強化することに焦点を当てていますが、それでも 5 つの基本モジュールに分けることができます: (1) 2D 画像エンコーダー。マルチカメラ画像から画像特徴を抽出します。 (2) 2D 知覚ビュー画像特徴を 3D BEV 表現にマッピングするのに役立つビュー変換モジュール。 (3) BEV エンコーダ。BEV 機能情報の処理を担当します。 (4) 予測モジュールを占有して、各ボクセルのセグメンテーション ラベルを予測します。 (5) パフォーマンスを向上させるために履歴情報を統合するように設計されたオプションの時間融合モジュール。

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

図 1.(a) は、提案された FlashOcc がプラグ アンド プレイ方式でどのように実装できるかを示しています。最新の手法では、3D-Conv によって処理されたボクセルレベルの 3D 特徴を使用して占有率を予測します。対照的に、私たちのプラグイン置換モデルは、(1) 3D-Conv を 2D-Conv に置き換え、(2) 3D-Conv から導出された占有ロジットをチャネルから高さへの変換に置き換えることによって実装されます。 2D-Conv を介して取得された BEV レベルの特徴の予測。 「Conv」という略語はコンボリューションを表します。 (b) は、精度と、速度、推論メモリ消費量、トレーニング期間などの要素との間のトレードオフを示しています。

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

図 2. この図は FlashOcc の全体的なアーキテクチャを示しており、ズーム機能を使用してカラーで表示するのが最適です。破線のボックスで指定された領域は、交換可能なモジュールの存在を示します。各交換可能なモジュールの特徴形状は、それぞれ 2D 画像、BEV レベル、ボクセル レベルの特徴を表すアイコンによって表されます。水色の領域はオプションの時間融合モジュールに対応しており、その使用は赤いスイッチのアクティブ化によって異なります。

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

図 4 は、3D ボクセル レベルの表現処理とこの記事で提案されているプラ​​グイン置換のアーキテクチャの比較を示しています。

実験結果:

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

#概要:

この記事では、高速でメモリ効率の高い占有予測を実現するために設計された、FlashOCC と呼ばれるプラグ アンド プレイ メソッドを紹介します。この方法では、2D 畳み込みを使用してボクセルベースの占有方法の 3D 畳み込みを直接置き換え、チャネルから高さへの変換を組み合わせて、平坦化された BEV フィーチャを占有ロジットに再形成します。 FlashOCC は、さまざまなボクセルレベルの占有予測方法にわたってその有効性と一般化可能性を実証しています。広範な実験により、この方法が精度、時間消費、メモリ効率、展開の容易さの点で以前の最先端の方法よりも優れていることが実証されています。私たちの知る限り、FlashOCC はサブピクセル パラダイム (チャネルから高さまで) を占有タスクに適用する最初の方法であり、BEV レベルの機能のみを活用し、計算による 3D (変形可能な) 畳み込みやトランスフォーマーの使用を完全に回避します。モジュール。視覚化の結果は、FlashOCC が高さ情報をうまく保持していることを説得力をもって示しています。将来の研究では、この方法は自動運転の認識パイプラインに統合され、効率的なオンチップ展開の実現を目指します。

引用:

Yu, Z., Shu, C.、Deng, J.、Lu, K.、Liu, Z.、Yu, J.、Yang, D.、Li, H.、Chen, Y. (2023). FlashOcc: 高速とメモリ - Channel-to-Height プラグインによる効率的な占有予測。ArXiv. /abs/2311.12058

FlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!

元のリンク: https://mp.weixin.qq.com/ s/JDPlWj8FnZffJZc9PIsvXQ

以上がFlashOcc: 占有予測の新しいアイデア、精度、効率、メモリ使用量の新しい SOTA!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Gemma Scope:AI'の思考プロセスを覗くためのGoogle'の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか?ビジネスインテリジェンスアナリストは誰で、どのようになるか?Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は? - 分析VidhyaSQLに列を追加する方法は? - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

ExcelのCountとCountaとは何ですか? - 分析VidhyaExcelのCountとCountaとは何ですか? - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!ChromeはAIと一緒にここにいます:毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

ai' s Human Side:Wellbeing and the Quadruple bottuntai' s Human Side:Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきである5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境