AIxivコラムは、本サイト上で学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
この記事の筆頭著者、An Zhaochong は現在、セルジュ・ベロンジーの指導の下、コペンハーゲン大学で博士号取得を目指して勉強しています。彼はチューリッヒ工科大学を修士号を取得して卒業し、修士号を取得している間、指導者であるリュック・ヴァン・グール氏の研究室で複数の研究プロジェクトに参加しました。彼の主な研究対象には、シーン理解、少数ショット学習、マルチモーダル学習などがあります。
3D シーンの理解により、人型ロボットが周囲のシーンを「見る」ことが可能になり、車の自動運転機能が運転中に起こり得る状況をリアルタイムで認識できるようになり、よりインテリジェントな行動や反応が可能になります。これらすべてを行うには、多数の 3D シーンに詳細な注釈を付ける必要があり、時間コストとリソース投資が大幅に増加します。
最近、チューリッヒ工科大学と他のチームは、この制限を大幅に改善する数ショット学習方法を提案し、現在の FS-PCS タスクを再検討し、優れた基盤を提供するために 3D シーン認識の分野に新しいベンチマークを導入しました。未来に向けてモデルの設計と開発が新境地を開拓します。
- ペーパーリンク: https://arxiv.org/abs/2403.00592
- コードリンク: https://github.com/ZhaochongAn/COSeg
3D シーンの理解は、自動運転やインテリジェント ロボットなどの分野で重要な役割を果たします。これにより、デバイスが周囲を認識して理解できるようになります。 -次元の世界。従来の完全教師あり学習モデルは特定のカテゴリの認識では良好に機能しますが、これらのモデルは多くの場合、これらの事前定義されたカテゴリの識別に限定されます。これは、新しいオブジェクト カテゴリを認識する必要がある場合は常に、大量の 3D シーン データを収集して詳細に注釈を付ける必要があることを意味します。このプロセスは時間と労力がかかるだけでなく、完全監視の適用を大幅に制限します。現実世界のモデルのアプリケーションの幅広さと柔軟性。 しかし、数ショット学習法の助けを借りて、この状況は大幅に改善されました。フューショット学習は、新しいカテゴリに迅速に適応するために、ラベル付きサンプルをほとんど必要としない手法です。これは、モデルが少数の例で新しい環境を迅速に学習して適応できることを意味し、データの収集と処理のコストを大幅に削減します。この高速かつ柔軟な学習方法により、3D シーン理解テクノロジーが急速に変化する現実世界により適応できるようになり、自動運転や高度なロボット システムなどのさまざまなアプリケーション シナリオに新たな可能性が開かれます。したがって、数ショットの 3D モデルを研究することで、より広い世界で多くの重要なタスクの実用化を効果的に促進できます。 特に、フューショット 3D 点群セマンティック セグメンテーション (FS-PCS) タスクの場合、モデルの入力にはサポート点群と、新しいカテゴリ (サポート マスク) とクエリ点群の注釈が含まれます。モデル は、サポート ポイント クラウドとサポート マスクを利用して新しいカテゴリに関する知識を取得し、それをセグメンテーション クエリ点群に適用して、これらの新しいカテゴリのラベル を予測する必要があります。モデルのトレーニングとテスト中に使用される ターゲット カテゴリは重複しません。これは、テスト中に使用されるカテゴリがすべて新しいカテゴリであり、トレーニング中にモデルによって認識されないことを保証するためです。审 タスクの再検討と修正 図 1. 2 つのシーンの視覚化 (見通しは Door と BOARD)
W 表 1. 見込み漏れがない場合の過去モデルの有無 (W/FG) と性能 (W/O FG) この記事では、現在の FS-PCS タスクを再検討します。現在のタスク設定には 2 つの重大な問題があることがわかりました:
前景漏れ
です: 3D タスクは通常、モデルの入力としてシーン点群内の密な点を均一にサンプリングします。ただし、FS-PCS で使用されるサンプリング方法は均一サンプリングではなく、ターゲット カテゴリ (前景領域) ではより多くの点をサンプリングし、非ターゲット領域 (背景領域) ではより少ない点をサンプリングします。このようにすると、前景に点がより密に分布することになり、前景の漏れの問題が発生します。図 1 に示すように、4 番目と 6 番目の列の入力点群は現在のバイアス サンプリングから取得されており、背景よりも前景領域 (ドアまたはボード) でより密な点分布を示しています。一方、3 番目の列の入力点群は、および 5 番目の列 入力では、補正された整合性サンプリングが使用され、均一な点密度分布が示されています。この問題により、新しいクラスの情報が点群の密度分布によって漏洩されるため、モデルは入力点群の密度差を単純に利用して、より密度の高い領域を前景として予測し、優れた少数ショット パフォーマンスを実現できます。サポートからクエリに知識を伝達する能力の学習に依存しません。したがって、現在の評価- ベンチマークは過去のモデルの実際の性能を反映することはできません。表 1 に示すように、現在の設定で前景漏れを修正した後、過去のモデルは大幅な性能低下を示しました。これは、過去のモデルが一見優れた少数ショット性能を達成するために濃度差に大きく依存していたことを示しています。 2 番目の問題は、疎なポイント分布です。現在の設定では、トレーニングとテスト中にモデルへの入力としてシーンから 2048 個のポイントのみをサンプリングします。このような疎なポイント分布により、入力シーンの明瞭度のセマンティクスが大幅に制限されます。図 1 に示すように、1 行 5 列目では、人間の目ではその領域内のセマンティック カテゴリ ドアと周囲のカテゴリ ウォールを区別するのが困難です。 2行目も対象領域がボードクラスなのかウィンドウなどの別クラスなのか区別がつきにくいです。これらのまばらな入力点群 には、非常に限られたセマンティクス情報
が含まれており、 - 重大な曖昧さ が導入され、シーン内のセマンティクスを効果的にマイニングするモデルの能力が制限されます。 そこで、著者は、これらの問題を修正するために、均一サンプリングを使用し、サンプリング点の数を10倍の20480点に増やすFS-PCSタスクを標準化するための新しい設定を提案しました。図 1 の 3 列目に示されているように、新しい設定での入力には一貫したポイント分布とより明確なセマンティック情報があり、タスクが実際のアプリケーション シナリオに近づきます。
新たに修正された設定の下で、著者は相関最適化セグメンテーション (COSeg) と呼ばれる新しいモデルを導入しました。以前の方法は、
特徴最適化パラダイムに基づいており、サポートまたはクエリの特徴を最適化し、改善された特徴をパラメーターフリー予測モジュールに入力して予測結果を取得することに焦点を当てており、これはサポートとクエリの間の暗黙的モデリングとみなすことができます。クエリ相関 。それどころか、この記事では、サポートとクエリの間の相関をパラメーターを使用してモジュールに直接入力し、モデルを直接整形できるようにする
相関最適化パラダイム
を提案しています。クエリとサポート関係の間の相関関係により、モデルの汎化能力が強化されます。 COSeg では、まず、各クエリ ポイントとサポート プロトタイプの間のクラス固有のマルチプロトタイプ相関 (CMC と呼ばれる) を計算します。これは、すべてのポイントとすべての関係を意味します。カテゴリ間プロトタイプ
。 CMC は、後続のハイパー相関拡張 (HCA) モジュールに入力されます。
HCA モジュールは、2 つの潜在的な関係を利用して相関関係を最適化します。まず、クエリ ポイントはすべて相互に関連しているため、カテゴリ プロトタイプ間の相関にも関連しています。ここから、 ポイントとポイント
の間の関係を取得できます。これは、HCA の相関関係の前半に相当します。ポイントの寸法に注意してください。第 2 に、クエリ ポイントを前景クラスまたは背景クラスに分類することは、ポイントの前景プロトタイプと背景プロトタイプ間の相対相関に依存します。これにより、HCA の後半に対応する前景と背景の間の関係を取得できます。相関関係はカテゴリ次元で注目されます。
さらに、数ショットモデルは基本カテゴリでトレーニングされ、新規カテゴリでテストされるためです。これらのモデルは、テスト シーンに存在するよく知られた基本カテゴリによって簡単に干渉され、新しいカテゴリのセグメンテーションに影響を与えます。この問題を解決するために、この記事では、基本カテゴリのパラメーターなしのプロトタイプ (基本プロトタイプと呼ばれる) を学習することを提案しています。 新しいクラスをセグメント化する場合、基本クラスに属するクエリポイントは背景として予測される必要があります
。したがって、著者はベース プロトタイプを使用して、HCA レイヤー内にベース プロトタイプ キャリブレーション (BPC) モジュールを導入して、ポイント カテゴリと背景カテゴリ間の相関を調整し、それによってベース クラスによって引き起こされる干渉を軽減します。
coseg cosegメソッドの優れたパフォーマンスが、さまざまな少ないショットタスクで最良の結果を達成することを証明しました。この視覚化は、COSeg がより優れたセグメンテーション結果を達成していることも明確に示しています。さらに、著者は、設計の有効性と相関最適化パラダイムの優位性を証明するための広範なアブレーション実験も提供します。
FS-PCSの分野におけるこの記事の研究の貢献は次のとおりです。 まず、著者らは、現在の FS-PCS 設定における 2 つの重要な問題 (前景漏洩と疎点分布) を特定し、これらは過去の手法と比較して評価ベンチマークの精度を低下させます。以前の設定の問題を解決するために、この記事では新しい標準化された設定と評価ベンチマークを紹介します。
さらに、著者は、標準化された FS-PCS 設定の下で、少数ショット タスクにおけるモデルの汎化パフォーマンスを大幅に向上させる
新しい相関最適化パラダイム
を提案しています。この記事のモデルCOSeg は、HCA を組み合わせて効果的な点群相関情報をマイニングし、BPC を組み合わせてバックグラウンド予測を調整
し、すべての数ショット タスクで最高のパフォーマンスを実現します。 この記事で修正された
標準化された設定は、少数ショット 3D セグメンテーション タスクを改善するためのより多くの可能性を開きます
同時に、提案された 新しい相関最適化パラダイムは、将来のモデル設計と、開発
。 FS-PCS 分野の新しいベンチマークとして、この研究は、より多くの研究者に、小サンプル 3D シーンの理解の境界を探索し、拡大するよう促すことが期待されています。 参考として、この分野の発展をさらに促進するための潜在的な研究の方向性として次の点を使用できます:
記事の新しい設定では、COSeg が最高のパフォーマンスを達成していますが、プロトタイプ抽出方法 [1、2] の改善、相関最適化モジュール [3] の改善、各少数ショットのターゲット化など、モデルには改善の余地がまだたくさんあります。 -ショットタスク。
ベース カテゴリの干渉問題を解決することも、少数ショットのパフォーマンスに影響を与える重要な要素です。これは、トレーニングまたはモデル設計 [5,6] の観点から最適化して、ベース カテゴリの干渉をより適切に削減できます。 モデルのトレーニングと推論の効率を向上させます [7]。特に実際のアプリケーションに展開する場合、モデルの効率も重要な考慮事項です。
要約すると、この分野には非常に幅広い展望があり、大多数の研究者にとっては、間違いなく希望とチャンスに満ちた研究分野です。
[1] Lang、Chunbo、et al.「数ショットリモートセンシングセグメンテーションのためのプログレッシブ解析と共通性蒸留。」地球科学とリモートセンシングに関するIEEEトランザクション(2023) ).
[2] Liu、Yuanwei 他「ニューラル情報処理システムの進歩 35 (2022) のための中間プロトタイプ マイニング トランスフォーマー」 [3] Zhang、Canyu、他「階層化されたクラス固有の注意ベースのトランスフォーマー ネットワークによる少数ショット 3D ポイント クラウド セマンティック セグメンテーション。」Proceedings of the AAAI Conference on Artificial Intelligence Vol. 3. .[4] Boudiaf、Malik、他「メタ学習を行わない少数ショットのセグメンテーション: 必要なのは優れた変換推論だけ?」コンピューター ビジョンとパターンに関する IEEE/CVF 会議の議事録2021. [5] Wang、Jiahui 他「コントラスト自己監視と多重解像度アテンションによる少数ショット点群セマンティック セグメンテーション」 2023 IEEE International Conference on Robotics and Automation (ICRA) ). IEEE、2023.[6] Lang、Chunbo、他「セグメント化すべきではないものを学ぶ: コンピューター ビジョンと IEEE/CVF 会議の議事録」 2022.[7] Sun、Yanpeng、他「特異値の微調整: 少数のショットのセグメンテーションは、神経情報処理システムの進歩を必要とする」(2022) ): 37484-37496.以上がCVPR 24|チューリッヒ工科大学とその他のチーム: 小規模サンプルの 3D セグメンテーション タスクを再定義することで、新しいベンチマークにより幅広い改善の可能性が開かれます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。