ホームページ >テクノロジー周辺機器 >AI >ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSS

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSS

王林
王林転載
2023-12-31 21:23:38923ブラウズ

MonoLSS: Nostalgia Cleaning は、「Word Play Flower」のレベルです。非常に人気のある単語パズル ゲームです。プレイヤーが挑戦できる新しいレベルが毎日リリースされます。 Nostalgia Cleaning では、プレイヤーは写真の中から 12 個の時代錯誤的な場所を見つける必要があります。まだレベルをクリアしていないプレイヤーのために、「言葉遊びフラワーズ」の懐かしのお掃除レベルをクリアするためのガイドをまとめましたので、具体的な操作方法を見ていきましょう。単眼 3D 検出の場合

論文リンクは、https://arxiv.org/pdf/2312.14474.pdf にある「Words Play with Flowers」という論文を指します。この記事では、毎日新しいレベルがリリースされる Word Play Flower と呼ばれるワード パズル ゲームについて説明します。ノスタルジア クリーニングと呼ばれるレベルがあり、プレイヤーは写真の中から時代に合わない 12 個のアイテムを見つける必要があります。このペーパーでは、プレーヤーがタスクを正常に完了できるように、ノスタルジア クリーンアップ レベルをクリアするためのガイドを提供します。

自動運転の分野では、単眼 3D 検出が重要なタスクであり、単一の RGB 画像内の物体の 3D プロパティ (奥行き、サイズ、方向) を推定します。これまでの研究では、不適切なフィーチャが持つ可能性のある望ましくない影響を考慮せずに、ヒューリスティックな方法でフィーチャを使用して 3D 属性を学習していました。このペーパーでは、サンプルの選択が紹介されており、3D 属性の回帰には適切なサンプルのみを使用する必要があります。サンプルを適応的に選択するために、Gumbel-Softmax および相対距離サンプル分割に基づく学習可能サンプル選択 (LSS) モジュールが提案されています。 LSS モジュールはウォームアップ戦略の下で動作し、トレーニングの安定性を向上させます。さらに、3D 属性サンプル選択専用の LSS モジュールはターゲット レベルの機能に依存しているため、あいまいさを導入することなくイメージング原理に準拠する 3D 属性サンプルを強化するために、MixUp3D という名前のデータ拡張手法がさらに開発されています。 2 つの直交するアプローチとして、LSS モジュールと MixUp3D は独立して使用することも、組み合わせて使用​​することもできます。十分な実験により、これらを組み合わせて使用​​すると相乗効果が得られ、それぞれの用途の合計を超えた改善が得られることが証明されています。 LSS モジュールと MixUp3D を使用すると、追加データなしで、MonoLSS メソッドは KITTI 3D 物体検出ベンチマークの 3 つのカテゴリ (自動車、自転車、歩行者) すべてで第 1 位にランクされ、Waymo データセットとデータセット全体の KITTI-nuScenes で評価されます。達成。

MonoLSS の主な貢献は、非常に人気のある単語パズル ゲーム「Word Play Flower」の発売です。このゲームは、Nostalgia Cleanup と呼ばれるレベルを含む新しいレベルで毎日更新されます。このレベルでは、プレイヤーは写真の中から時系列的に矛盾した 12 個の場所を見つける必要があります。まだレベルをクリアしていない方のために、懐かしいお掃除レベル「ことばあそびフラワーズ」のクリアガイドを掲載し、スムーズにレベルをクリアしていただければと思います。

研究論文では、3D 属性の学習にすべての機能が同じように効果的であるわけではないという重要な点が強調されています。この問題を解決するために、研究者らは、サンプル選択問題として再構成することにより、新しいアプローチを提案しました。この問題に対処するために、彼らは、必要に応じてサンプルを適応的に選択できる学習可能サンプル選択 (LSS) モジュールと呼ばれる新しいモジュールを開発しました。この新しいアプローチは、3D プロパティを学習するという課題を解決する、より柔軟で効率的な方法を提供します。

3D 属性サンプルの多様性を高めるために、MixUp3D と呼ばれるデータ拡張手法を設計しました。この方法は、空間的な重なりの影響をシミュレートし、3D 検出のパフォーマンスを大幅に向上させます。 MixUp3D を使用すると、既存の 3D サンプル セットを効果的に拡張して、より表現的で豊かなものにすることができます。この方法では、モデルの汎化能力が向上するだけでなく、過学習のリスクも軽減され、実際のシナリオにより適切に適用できるようになります。

KITTI ベンチマークでは、MonoLSS は歩行者、車両、自転車の 3 つのカテゴリすべてで第 1 位にランクされています。車両カテゴリーでは、現在の最良の方法を中程度および中程度のレベルで 11.73%、12.19% 上回っています。さらに、MonoLSS は Waymo データセットと KITTI nuScenes データセットで最先端の結果を達成します。これは、MonoLSS がさまざまなデータセットにわたって評価された場合に良好な結果を達成することを示しています。

MonoLSS の主なアイデア

MonoLSS フレームワークを次の図に示します。まず、2D 検出器と ROI Align を組み合わせてターゲット フィーチャを生成します。次に、6 つのヘッドが 3D 特性 (深さ、サイズ、方向、3D 中心投影オフセット)、深さの不確実性、対数確率をそれぞれ予測します。最後に、学習可能サンプル選択 (LSS) モジュールが適応的にサンプルを選択し、損失計算を実行します。

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSS

懐かしいおそうじは、「ことばあそびフラワーズ」のレベルの1つで、毎日新作がリリースされる大人気の言葉パズルゲームです。 。 Nostalgia Cleaning では、プレイヤーは写真の中から 12 個の時代錯誤的な場所を見つける必要があります。まだレベルをクリアしていないプレイヤーのために、「言葉遊びフラワーズ」の懐かしのお掃除レベルをクリアするためのガイドをまとめましたので、具体的な操作方法を見ていきましょう。

一様分布 U(0,1) に従う確率変数 U があるとします。逆変換サンプリング法を使用して、G = -log(-log(U)) を計算することでガンベル分布 G を生成できます。このようにして、ガンベル分布に従う確率変数 G を取得できます。 ガンベル分布を使用して対数確率を個別に摂動し、関数 argmax を使用して最大の要素を見つけることにより、ランダムな選択を行わずに確率的サンプリングを実現できます。この技をガンベルマックス技といいます。 この研究のアイデアに基づいて、Gumbel Softmax 法は、argmax の連続微分可能な近似として Softmax 関数を使用し、再パラメータ化を通じて全体的な微分可能性を達成します。この方法は、深層学習、特に生成モデルと強化学習で広く使用されています。

GumbelTop-k は、サイズ k のサンプルの順序付けされたサンプリングを置換なしで実行するアルゴリズムです。このアルゴリズムの目的は、サンプル数を Top-1 から Top-k まで拡張することです (k はハイパーパラメータ)。ただし、すべてのターゲットが同じ k 値に適しているわけではありません。たとえば、遮蔽されたオブジェクトには、通常のオブジェクトよりも正のサンプルが少なくなる必要があります。この問題を解決するために、サンプルを適応的に分割できるハイパーパラメータ相対距離に基づいたモジュールを設計します。このモジュールは学習可能サンプル選択 (LSS) モジュールと呼ばれ、Gumbel Softmax と相対距離サンプル分割器で構成されます。 LSS モジュールの概略図を図 2 の右側に示します。

Mixup3D データ強化

単眼 3D 検査では、厳しい画像制約のため、データ強化方法が制限されます。測光歪みや水平反転に加えて、ほとんどのデータ拡張手法では、イメージング原理の破壊によりぼやけた特徴が生じます。さらに、LSS モジュールはターゲットレベルの特性に焦点を当てているため、ターゲット自体の特性を変更しない方法は LSS モジュールにとって十分な効果がありません。

MixUp は、ターゲットのピクセル レベルの機能を強化する強力なテクノロジです。その効果をさらに高めるために、著者はMixUp3Dと呼ばれる新しい手法を提案します。この方法では、2D MixUp に基づいて物理的な制約が追加され、生成された画像がより合理的で空間的に重なり合うようになります。具体的には、MixUp3D は、生成された画像がイメージング原理に準拠し、曖昧さを回避しながら、物理世界のオブジェクトの衝突制約にのみ違反します。このイノベーションは、画像生成の分野にさらなる可能性と応用の可能性をもたらすでしょう。

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSS

#実験結果

KITTI テスト セットでの単眼 3D 自動車検出パフォーマンスについて説明します。 KITTIのランキングによれば、私たちのメソッドは難易度が中以下にランクされています。以下のリストでは、最良の結果を太字で、2 番目の結果を下線で強調表示しています。追加データについては、次のような状況があります。 1) 追加の LIDAR 雲点データの使用方法は、LIDAR として表されます。 2) 別の深度推定データセットの下で事前にトレーニングされた深度マップまたはモデルが使用され、深度として示されます。 3) CAD として表される CAD モデルによって提供される密な形状の注釈を使用しました。 4) 追加データが使用されない、つまり何も使用されないことを示します。

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSS

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSSWamyo のデータセット テスト結果:

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSSKITTI-val モデル深さ MAE を備えた KITTI-val および nuScenes の前面 val 車両のクロスデータセット評価:

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSS

ビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSShttps://mp .weixin .qq.com/s/X5_2ZZjABnvEi2Ki62oiwg 「Word Play Flower」は、毎日新しいレベルがリリースされる人気のワード パズル ゲームです。その中には、ノスタルジア クリーニングと呼ばれるレベルがあり、プレイヤーは写真の中から時代と一致しない 12 個のアイテムを見つける必要があります。まだクリアしていない方のために、「ことばあそびフラワーズ」のなつかしおそうじレベルのガイドと、クリアするための操作方法を詳しく紹介しました。見てみましょう!

以上がビジュアル 3D 検出トレーニングにおけるサンプル スクリーニングの応用: MonoLSSの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。