ホームページ > 記事 > テクノロジー周辺機器 > バリアフリーで旅行も安心! ByteDanceの研究成果がCVPR2022 AVAコンペティションチャンピオンシップで優勝
最近、CVPR2022の各種コンペティションの結果が続々と発表されており、ByteDanceの知的創造AIプラットフォーム「Byte-IC-AutoML」チームが合成データに基づくインスタンスセグメンテーションチャレンジ(Accessibility Vision and Autonomy Challenge)で優勝しました。 、以下 AVA と呼びます。 )、自社開発した Parallel Pre-trained Transformers (PPT) フレームワークを使用して頭角を現し、コンテストの唯一のトラックで優勝者になりました。
紙のアドレス: https:/ /www.php.cn/link/ede529dfcbb2907e9760eea0875cdd12
この AVA コンテストは、ボストン大学とカーネギーメロン大学が共同で主催しています。
コンテストでは、障害のある歩行者と対話する自律システムのデータ サンプルを含むレンダリング エンジンを介して、合成インスタンス セグメンテーション データセットを導き出します。 コンテストの目標は、アクセシビリティに関連する人や物のターゲット検出とインスタンスのセグメンテーションのためのベンチマークと方法を提供することです。
#データセットの視覚化
##コンテストの難しさの分析
Byte-IC-AutoML チームは、Parallel Pre-trained Transformers (PPT) フレームワークを提案しました。これを達成します。このフレームワークは主に 3 つのモジュールで構成されています: 1) 並列大規模事前トレーニング済みトランスフォーマー、2) バランス コピー&ペースト データ強化、3) ピクセル レベルの非最大抑制とモデル融合、
#並列大規模事前トレーニング Transformers最近の事前トレーニングに関する記事の多くは、大規模なデータ セットで事前トレーニングされたモデルがさまざまな下流シナリオにうまく一般化できることを示しています。したがって、チームは
COCOデータ セットを使用して最初にモデルを事前トレーニングします。これにより、自然データと合成データの間のフィールドの偏差を大幅に軽減できます。合成データ シナリオで、ダウンストリームのサンプル数を減らした高速トレーニングに使用できます。モデル レベルでは、ビジョン トランスフォーマーには CNN の帰納的バイアスがなく、事前トレーニングの利点を享受できることを考慮して、チームは UniFormer と CBNetV2 を使用します。 UniFormer は、畳み込みとセルフ アテンションを統合し、ローカル冗長性とグローバル依存性という 2 つの主要な問題を同時に解決し、効率的な特徴学習を実現します。 CBNetV2 アーキテクチャは、複合接続を通じて複数の同一のバックボーン パケットを連結し、高性能の検出器を構築します。モデルのバックボーン特徴抽出器はすべて Swin Transformer です。大規模な事前学習済みTransformerを複数並列配置し、出力結果を統合学習して最終結果を出力します。 #検証データ セットのさまざまなメソッドの mAP
バランス コピー&ペースト データの強化
コピーアンドペースト手法は、オブジェクトをランダムに貼り付けることで、インスタンス セグメンテーション モデルに優れた結果をもたらします (特にロングテール分散下のデータセットの場合)。ただし、この方法ではすべてのカテゴリのサンプルが均等に増加し、カテゴリ分布のロングテール問題を根本的に軽減することはできません。そこでチームは、Balance Copy-Paste データ拡張手法を提案しました。コピー&ペーストのバランスをとれば、カテゴリの有効数に応じてカテゴリが適応的にサンプリングされ、全体的なサンプル品質が向上し、少数のサンプルとロングテール分布の問題が軽減され、最終的にインスタンス セグメンテーションにおけるモデルの mAP が大幅に向上します。
Balance Copy-Paste データ強化テクノロジーによる改善
検証セットでのモデル融合アブレーション実験
モデル融合のテストセットでのアブレーション実験
現在、都市および交通データ セットは、通常の交通機関と歩行者のみを含む、より一般的なシーンです。このデータ セットには、障害者とその行動に関する情報が不足しています。そして、その補助器具の種類は、現在存在するデータセットを使用した検出モデルでは検出できません。
ByteDance Byte-IC-AutoML チームのこの技術ソリューションは、現在の自動運転と街路シーンの理解に広範囲に応用されています。これらの合成データを通じて取得されたモデルは、「 などのまれなカテゴリ」を識別できます。 「車椅子」「車椅子の人」「松葉杖の人」など、人や物をより正確に分類できるだけでなく、現場の誤解につながる判断ミスや判断ミスを防ぐことができます。さらに、このデータ合成方法を通じて、現実世界では比較的まれなカテゴリのデータを構築でき、それにより、より汎用性が高く完全なターゲット検出モデルをトレーニングできます。
Intelligent Creation は、ByteDance のマルチメディア イノベーション技術研究機関であり、総合的なサービス プロバイダーです。コンピュータビジョン、グラフィックス、音声、撮影・編集、特殊効果、クライアント、AIプラットフォーム、サーバーエンジニアリングなどの技術分野をカバーし、最先端のアルゴリズム-エンジニアリングシステム-製品のクローズドループを部門内に導入し、活用を目指しています。このようにして、当社は社内の事業部門と外部の協力顧客に、業界最先端のコンテンツ理解、コンテンツ作成、インタラクティブなエクスペリエンスと消費機能、および業界ソリューションを提供します。チームの技術力は、Volcano Engine を通じて外部の世界に公開されています。
Volcano Engine は ByteDance が所有するクラウド サービス プラットフォームで、ByteDance の急速な発展の中で蓄積された成長手法、技術力、ツールを外部企業に開放し、クラウド基盤、サービスなどを提供します。ビデオやコンテンツの配信、ビッグデータ、人工知能、開発、運用保守は、企業がデジタルアップグレード中に持続的な成長を達成するのに役立ちます。
#
以上がバリアフリーで旅行も安心! ByteDanceの研究成果がCVPR2022 AVAコンペティションチャンピオンシップで優勝の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。