論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。-AI-php.cn

ホームページ

テクノロジー周辺機器

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

王林

Apr 13, 2023 pm 10:31 PM

オートパイロット

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#BEV 知覚とは正確には何ですか?自動運転の学界と産業界の両方が注目しているBEV認識の側面は何ですか?この記事ではその答えを明らかにします。

自動運転の分野では、知覚モデルに強力な鳥瞰図 (BEV) 表現を学習させることがトレンドになっており、産業界や学界から幅広い注目を集めています。自動運転分野のこれまでのほとんどのモデルは、正面図や斜視図で検出、セグメンテーション、追跡などのタスクを実行することに基づいていましたが、鳥瞰図 (BEV) 表現により、モデルは遮蔽された車両をより適切に識別できるようになります。後続のモジュール (計画、制御など) の開発と展開を容易にします。

BEV 知覚研究は自動運転の分野に多大な潜在的影響を及ぼしており、学術界や産業界からの長期的な注目と投資に値することがわかります。 ?自動運転の学界や産業界のリーダーが注目するBEV認識の内容とは？この記事では、BEVPerception Survey を通じてその答えを明らかにします。

BEVPerception Survey は、上海人工知能研究所の自動運転 OpenDriveLab チーム と SenseTime Research Institute# のコラボレーションです。 ##共同論文「Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe」の実践ツール提示手法をBEVPercptionとPyTorchベースの最新文献研究に分けて解説オープンソース BEV 認識ツールボックス #のセクション。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

紙のアドレス: https://arxiv.org/abs/2209.05324

#プロジェクトアドレス: https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe
要約解釈、技術的解釈BEVP認知調査最新の文献レビュー調査には、主に 3 つの部分 (

BEV カメラ、BEV ライダー、BEV フュージョン

) が含まれています。 BEV カメラは、周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのためのビジョンのみまたはビジョン中心のアルゴリズムを表します。BEV LiDAR は、点群入力の検出またはセグメンテーションタスクを表します。BEV フュージョンは、複数のセンサーからの検出またはセグメンテーションタスクを表します。入力フュージョンメカニズムカメラ、LIDAR、グローバルナビゲーションシステム、オドメトリ、HD マップ、CAN バスなど。

BEV Perception Toolbox

は、BEV カメラに基づく 3D オブジェクト検出用のプラットフォームであり、Waymo データで使用されますJishang は、手動チュートリアルと小規模データセットの実験を実行できる実験プラットフォームを提供します。図 1: BEVPerception 調査フレームワーク

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

具体的には、BEV カメラは次のことを表します。周囲の複数のカメラからの 3D オブジェクト検出またはセグメンテーションのアルゴリズム、BEV LIDAR は、検出またはセグメンテーションタスクを完了するための入力として点群を使用することを表します、BEV フュージョンは、カメラ、LiDAR、GNSS、オドメトリ、HD などの複数のセンサーの出力を入力として使用します-地図、CANバスなどBEVPercption 文献レビュー調査

BEV カメラ

BEV カメラの認識には 2D 特徴抽出が含まれますコンバーター、ビュートランスフォーマー、3D デコーダーの 3 つの部分で構成されます。以下の図は、BEV カメラの認識フローチャートを示しています。ビュー変換では、3D 情報をエンコードするには 2 つの方法があります - 1 つは 2D フィーチャから奥行き情報を予測する方法、もう 1 つは 3D 空間から 2D フィーチャをサンプリングする方法です。

図 2: BEV カメラ認識フローチャート

2D 特徴抽出器については、こちらをご覧ください。 2D 知覚タスクでの豊富な経験は、主な介入トレーニングの形式など、3D 知覚タスクから学ぶことができます。

#ビュー変換モジュール # は、2D 認識システムとは大きく異なる点です。上図に示すように、ビューの変換には 3D 空間から 2D 空間への変換と 2D 空間から 3D 空間への変換の 2 つの方法があり、これら 2 つの変換方法はいずれも 3D で使用されます。システム内の物理に関する事前の知識をスペースに入れたり、監視のために追加の 3D 情報を利用したりできます。すべての 3D 認識メソッドにビュー変換モジュールがあるわけではないことに注意してください。たとえば、一部のメソッドは 2D 空間のフィーチャから 3D 空間のオブジェクトを直接検出します。

3D デコーダ 2D/3D 空間の特徴を受信し、3D 認識結果を出力します。ほとんどの 3D デコーダは、LiDAR ベースの知覚モデルから設計されています。これらの方法は BEV 空間で検出を実行しますが、2D 空間の機能を利用して 3D オブジェクトの位置特定を直接後退させる 3D デコーダがまだいくつかあります。

BEV Lidar

BEV Lidar 認識の一般的なプロセスは、主に 2 つのブランチを組み合わせて点群を変換することです。データをBEV表現に変換します。以下の図は BEV LIDAR センシングのフローチャートを示しており、上のブランチは 3D 空間の点群特徴を抽出して、より正確な検出結果を提供します。下のブランチは 2D 空間で BEV 特徴を抽出し、より効率的なネットワークを提供します。生の点群を操作するポイントベースの方法に加えて、ボクセルベースの方法は、点を離散グリッドにボクセル化し、連続 3D 座標を離散化することでより効率的な表現を提供します。離散ボクセル表現に基づいて、3D 畳み込みまたは 3D スパース畳み込みを使用して点群特徴を抽出できます。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 3: BEV LIDAR センシングのフローチャート

BEV フュージョン

BEV 知覚融合アルゴリズムには、PV 知覚と BEV 知覚の 2 つの方法があり、学術界や産業界に適しています。以下の図は、PV センシングと BEV センシングのフローチャートの比較を示しています。この 2 つの主な違いは、2D から 3D への変換および融合モジュールです。 PV を意識したフローチャートでは、さまざまなアルゴリズムの結果が最初に 3D 空間に変換され、次に事前の知識または手動で設計されたルールを使用して融合されます。 BEV 認識フローチャートでは、PV 特徴マップが BEV パースペクティブに変換され、BEV 空間に融合されて最終結果が得られます。これにより、元の特徴情報が最大限に保持され、過度の手動設計が回避されます。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 4: PV センシング (左) および BEV センシング (右) のフローチャート

BEV センシングモデルに適したデータセット

BEV センシングタスクには多くのデータセットがあります。通常、データセットはさまざまなシーンで構成されており、各シーンの長さはデータセットごとに異なります。次の表は、学術コミュニティで一般的に使用されるデータセットをまとめたものです。 Waymo データセットには、他のデータセットよりも多様なシーンと豊富な 3D 検出ボックスアノテーションがあることがわかります。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。 #表 1: BEV センシングデータセットのリスト

ただし、現在、学術コミュニティ Waymo が開発した BEV 認識タスク用の公的に入手可能なソフトウェアはありません。したがって、Waymo データセット上での BEV センシングタスクの開発を促進したいと考え、Waymo データセットに基づいて開発することを選択しました。

ツールボックス - BEV 認識ツールボックス

BEVFormer は一般的に使用される BEV 認識手法であり、時空間変換機能を使用して、マルチビュー入力からバックボーンネットワークによって抽出された特徴を BEV 特徴に変換します。次に、BEV の特徴が検出ヘッドに入力されて、最終的な検出結果が得られます。 BEVFormer には 2 つの特徴があり、2D 画像特徴から 3D 特徴への正確な変換と、抽出した BEV 特徴をさまざまな検出ヘッドに適用できます。一連の方法を通じて、BEVFormer のビュー変換品質と最終検出パフォーマンスをさらに向上させました。

CVPR 2022 Waymo Challenge で 1 位を獲得した後、 BEVFormer で、Toolbox - BEV Perception Toolbox## を立ち上げました。 # は、使いやすい Waymo Open Dataset データ処理ツールのセットを提供することにより、モデルのパフォーマンスを大幅に向上させる一連の方法 (データ強化、検出ヘッド、損失関数、モデル統合を含むがこれらに限定されない) を統合します。、など）、mmdetection3d や detectron2 など、この分野で広く使用されているオープンソースフレームワークと互換性があります。基本的な Waymo データセットと比較して、BEV 認識ツールボックスは、さまざまなタイプの開発者が使用できるように最適化および使用スキルを向上させます。以下の図は、Waymo データセットに基づく BEV 認識ツールボックスの使用例を示しています。

論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。

#図 5: Waymo データセットに基づくツールボックスの使用例概要

BEVPerception Survey が、ユーザーが高性能の BEV 知覚モデルを簡単に使用できるようにするだけでなく、初心者が BEV 知覚を始めるための良い出発点となることを願っています。モデル。私たちは自動運転分野における研究開発の限界を突破することに尽力しており、自動運転関連研究の現実世界への応用可能性を継続的に探求するために、学術コミュニティと意見を共有し、議論を交換することを楽しみにしています。

以上が論文からコード、最先端の研究から産業実装に至るまで、BEV の認識を包括的に理解します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

在 CARLA自动驾驶模拟器中添加真实智体行为Apr 08, 2023 pm 02:11 PM

arXiv论文“Insertion of real agents behaviors in CARLA autonomous driving simulator“，22年6月，西班牙。由于需要快速prototyping和广泛测试，仿真在自动驾驶中的作用变得越来越重要。基于物理的模拟具有多种优势和益处，成本合理，同时消除了prototyping、驾驶员和弱势道路使用者（VRU）的风险。然而，主要有两个局限性。首先，众所周知的现实差距是指现实和模拟之间的差异，阻碍模拟自主驾驶体验去实现有效的现实世界

特斯拉自动驾驶算法和模型解读Apr 11, 2023 pm 12:04 PM

特斯拉是一个典型的AI公司，过去一年训练了75000个神经网络，意味着每8分钟就要出一个新的模型，共有281个模型用到了特斯拉的车上。接下来我们分几个方面来解读特斯拉FSD的算法和模型进展。01 感知 Occupancy Network特斯拉今年在感知方面的一个重点技术是Occupancy Network (占据网络)。研究机器人技术的同学肯定对occupancy grid不会陌生，occupancy表示空间中每个3D体素（voxel）是否被占据，可以是0/1二元表示，也可以是[0, 1]之间的

一文通览自动驾驶三大主流芯片架构Apr 12, 2023 pm 12:07 PM

当前主流的AI芯片主要分为三类，GPU、FPGA、ASIC。GPU、FPGA均是前期较为成熟的芯片架构，属于通用型芯片。ASIC属于为AI特定场景定制的芯片。行业内已经确认CPU不适用于AI计算，但是在AI应用领域也是必不可少。 GPU方案GPU与CPU的架构对比CPU遵循的是冯·诺依曼架构，其核心是存储程序/数据、串行顺序执行。因此CPU的架构中需要大量的空间去放置存储单元（Cache）和控制单元（Control），相比之下计算单元（ALU）只占据了很小的一部分，所以CPU在进行大规模并行计算

自动驾驶汽车激光雷达如何做到与GPS时间同步?Mar 31, 2023 pm 10:40 PM

gPTP定义的五条报文中，Sync和Follow_UP为一组报文，周期发送，主要用来测量时钟偏差。 01 同步方案激光雷达与GPS时间同步主要有三种方案，即PPS+GPRMC、PTP、gPTPPPS+GPRMCGNSS输出两条信息，一条是时间周期为1s的同步脉冲信号PPS，脉冲宽度5ms~100ms；一条是通过标准串口输出GPRMC标准的时间同步报文。同步脉冲前沿时刻与GPRMC报文的发送在同一时刻，误差为ns级别，误差可以忽略。GPRMC是一条包含UTC时间（精确到秒），经纬度定位数据的标准格

特斯拉自动驾驶硬件 4.0 实物拆解：增加雷达，提供更多摄像头Apr 08, 2023 pm 12:11 PM

2 月 16 日消息，特斯拉的新自动驾驶计算机，即硬件 4.0（HW4）已经泄露，该公司似乎已经在制造一些带有新系统的汽车。我们已经知道，特斯拉准备升级其自动驾驶硬件已有一段时间了。特斯拉此前向联邦通信委员会申请在其车辆上增加一个新的雷达，并称计划在 1 月份开始销售，新的雷达将意味着特斯拉计划更新其 Autopilot 和 FSD 的传感器套件。硬件变化对特斯拉车主来说是一种压力，因为该汽车制造商一直承诺，其自 2016 年以来制造的所有车辆都具备通过软件更新实现自动驾驶所需的所有硬件。事实证

端到端自动驾驶中轨迹引导的控制预测：一个简单有力的基线方法TCPApr 10, 2023 am 09:01 AM

arXiv论文“Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline“， 2022年6月，上海AI实验室和上海交大。当前的端到端自主驾驶方法要么基于规划轨迹运行控制器，要么直接执行控制预测，这跨越了两个研究领域。鉴于二者之间潜在的互利，本文主动探索两个的结合，称为TCP (Trajectory-guided Control Prediction)。具

一文聊聊自动驾驶中交通标志识别系统Apr 12, 2023 pm 12:34 PM

什么是交通标志识别系统？汽车安全系统的交通标志识别系统，英文翻译为：Traffic Sign Recognition，简称TSR，是利用前置摄像头结合模式，可以识别常见的交通标志《限速、停车、掉头等）。这一功能会提醒驾驶员注意前面的交通标志，以便驾驶员遵守这些标志。TSR 功能降低了驾驶员不遵守停车标志等交通法规的可能，避免了违法左转或者无意的其他交通违法行为，从而提高了安全性。这些系统需要灵活的软件平台来增强探测算法，根据不同地区的交通标志来进行调整。交通标志识别原理交通标志识别又称为TS

一文聊聊SLAM技术在自动驾驶的应用Apr 09, 2023 pm 01:11 PM

定位在自动驾驶中占据着不可替代的地位，而且未来有着可期的发展。目前自动驾驶中的定位都是依赖RTK配合高精地图，这给自动驾驶的落地增加了不少成本与难度。试想一下人类开车，并非需要知道自己的全局高精定位及周围的详细环境，有一条全局导航路径并配合车辆在该路径上的位置，也就足够了，而这里牵涉到的，便是SLAM领域的关键技术。什么是SLAMSLAM (Simultaneous Localization and Mapping)，也称为CML (Concurrent Mapping and Localiza

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーションサーバーと統合します。

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、