検索
ホームページテクノロジー周辺機器AIICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

自動運転における多くのタスクは、トップダウン、地図、または鳥瞰図 (BEV) の観点から実行する方が簡単です。自動運転のトピックの多くは地上面に限定されているため、上面図はより実用的な低次元表現であり、関連する障害物や危険を捉えるナビゲーションに最適です。自動運転などのシナリオでは、自由に移動する物体や一度だけ訪れるシーンを処理するために、意味的にセグメント化された BEV マップを瞬時の推定値として生成する必要があります。

画像から BEV マップを推測するには、画像要素と環境内の位置との対応を判断する必要があります。 以前の研究の中には、この変換プロセスをガイドするために高密度深度マップと画像セグメンテーション マップを使用したものや、深度およびセマンティクスを暗黙的に解析する方法を拡張した研究もありました。一部の研究では、カメラの幾何学的事前分布を利用していますが、画像要素と BEV プレーンの間の相互作用を明示的に学習していません。

最近の論文で、サリー大学の研究者は、自動運転の 2D 画像を鳥瞰図に変換するアテンション メカニズムを導入し、モデルの認識精度を向上させました。この研究は、つい最近閉幕した ICRA 2022 会議で優秀論文賞を受賞しました。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

紙のリンク: https://arxiv.org/pdf/2110.00966.pdf

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

##これまでの方法とは異なり、この研究では BEV 変換を「画像から世界へ」の変換問題として扱います の目標は、画像の垂直走査線と BEV の極光線の間の位置合わせを学習することです。したがって、この射影ジオメトリはネットワークに対して暗黙的になります。

研究者らは、アライメント モデルに、注意ベースのシーケンス予測構造である Transformer を採用しました。。これらの注意メカニズムを活用して、画像内の垂直走査線とその極 BEV 投影の間のペアごとの相互作用を明示的にモデル化します。 トランスフォーマーは、オブジェクト、深度、シーンの照明間の相互依存性を推論して、グローバルに一貫した表現を実現できるため、画像から BEV への変換問題に適しています。 研究者らは、Transformer ベースのアライメント モデルを、単眼画像とその固有行列を入力として受け取るエンドツーエンドの学習式に埋め込みました。静的クラスと動的クラスのセマンティック BEV マッピングを予測します。

この論文では、アライメント モデルの周囲の単眼画像からセマンティック BEV マッピングを予測するのに役立つアーキテクチャを構築します。以下の図 1 に示すように、これには 3 つの主要コンポーネントが含まれています: 画像平面上の空間特徴を抽出する標準 CNN バックボーン、画像平面上の特徴を BEV に変換するエンコーダー/デコーダー トランスフォーマー、そして最後にセグメンテーション ネットワーク BEV 特徴をデコードします。セマンティックマップに変換します。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上具体的には、この研究の主な貢献は次のとおりです。

  • (1) 一連の 1D シーケンス-シーケンス変換を使用して、画像から BEV マップを生成します;
  • (2) 主題の構築 限定されたデータ空間認識を備えた効率的な Transformer ネットワーク;
  • # 式 (3) と言語分野における単調な注意の組み合わせは、正確なマッピングのためには、点の下に何があるかを知ることがより重要であることを示しています。両方を使用すると最高のパフォーマンスが得られますが、その上にあるものを知るよりも、パフォーマンスと現在の状態を向上させるために時間的認識を提供することで、軸方向の注意がどのように役立つかを示しています。 - 3 つの大規模なデータセットに関する最新の結果。
  • 実験結果
実験では、研究者はいくつかの評価を行いました。 画像から BEV への変換は、nuScenes データセット上の変換問題として評価されました。単調な注意における後戻りの方向を除去し、長いシーケンスの水平コンテキストの有用性と極位置情報の影響を評価します。最後に、このメソッドを nuScenes、Argoverse、および Lyft データセットでの SOTA メソッドと比較します。

アブレーション実験

以下の表 2 の最初の部分に示すように、研究者らはソフト アテンション (見た目) を比較しました。両方向)、画像の下部を振り返る単調な注意(下を向く)、画像の上部を振り返る(見上げる)単調な注意。

結果は、画像内の点から見下ろしたほうが、見上げるよりも優れていることを示しています。

ローカル テクスチャの手がかりに沿って - これは、人間が都市環境でオブジェクトの距離を決定しようとする方法と一致しており、オブジェクトと地面を使用します。交差点の位置。この結果は、両方向の観察により精度がさらに向上し、深い推論がより識別できることも示しています。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上#長いシーケンスの水平コンテキストの有用性。

ここでの画像から BEV への変換は、一連の 1D シーケンスからシーケンスへの変換として実行されるため、1 つの疑問は、画像全体が BEV に変換されるとどうなるかということです。アテンション マップの生成に必要な二次計算時間とメモリを考慮すると、このアプローチは法外に高価です。ただし、画像全体を使用するコンテキスト上の利点は、画像面の特徴に水平軸の注意を適用することで近似できます。画像ラインを介した軸方向の注意により、垂直走査線のピクセルは長距離の水平コンテキストを持ち、その後、以前と同様に 1D シーケンス間の遷移によって長距離の垂直コンテキストが提供されます。 表 2 の中央部分に示されているように、長いシーケンスの水平コンテキストをマージすることはモデルに利益をもたらしません

、さらにはわずかな影響さえあります。悪影響。これは 2 つの点を示しています: まず、変換された各レイは入力画像の幅全体に関する情報を必要とせず、むしろ、長いシーケンスのコンテキストは、フロントエンドの畳み込みによってすでに集約されたコンテキストと比較して追加情報を提供しません。 。これは、画像全体を使用して変換を実行しても、ベースライン制約式を超えてモデルの精度が改善されないことを示しています。さらに、水平軸の注意の導入によって引き起こされるパフォーマンスの低下は、画像幅のトレーニング シーケンスに注意を使用することが困難であることを意味します。見てわかるように、画像全体を入力シーケンスとして使用してトレーニングすることはより困難になります。 極非依存型変圧器と極適応型変圧器

: 表 2 の最後の部分では、Po-Ag と Po-Ag を比較しています。 . Po - 広告のバリエーション。 Po-Ag モデルには偏光位置情報がありません。イメージ プレーンの Po-Ad には、Transformer エンコーダに追加された極エンコーディングが含まれます。BEV プレーンの場合、この情報はデコーダに追加されます。いずれかの平面に極エンコーディングを追加することは、非依存モデルに追加するよりも有益であり、動的クラスが最も多くの追加を行います。これを両方のプレーンに追加すると、これがさらに強制されますが、静的クラスに最も大きな影響を与えます。 SOTA メソッドとの比較

研究者は、この記事のメソッドをいくつかの SOTA メソッドと比較しました。 以下の表 1 に示すように、空間モデルのパフォーマンスは現在の圧縮 SOTA メソッド STA-S よりも優れており、平均で 15% の相対的な改善が見られます。小規模な動的クラスでは改善がさらに顕著で、バス、トラック、トレーラー、障害物の検出精度はすべて相対的に 35 ~ 45% 向上しています。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

以下の図 2 で得られた定性的結果もこの結論を裏付けており、この記事のモデルは構造の類似性が高く、形状感覚が優れていることを示しています。この違いの一部は、圧縮に使用される全結合層 (FCL) に起因する可能性があります。小さくて遠くにある物体を検出する場合、画像の大部分は冗長なコンテキストになります。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

#さらに、歩行者やその他の物体の一部が車両によって遮られることもよくあります。この場合、完全に接続された層は歩行者を無視し、代わりに車両のセマンティクスを維持する傾向があります。ここで、注意方法は、各放射状の深さを画像とは独立して認識できるため、その利点を示しています。つまり、より深い深さでは歩行者の身体が見えるようになりますが、それ以前の深さでは車両のみに気づくことができます。

以下の表 3 の Argoverse データセットの結果は同様のパターンを示しており、私たちの方法は PON [8] と比較して 30% 改善されています。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

以下の表 4 に示すように、nuScenes と Lyft でのこの方法のパフォーマンスは、LSS [9] や FIERY [20] よりも優れています。 Lyft では正規の train/val 分割がなく、LSS で使用される分割を取得する方法がないため、実際の比較は不可能です。

ICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上

研究の詳細については、元の論文を参照してください。

以上がICRA 2022 優秀論文: 自動運転の 2D 画像を鳥瞰図に変換し、モデル認識精度が 15% 向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール