ホームページ >テクノロジー周辺機器 >AI >「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。
オクルージョンは、コンピュータ ビジョンにおける最も基本的でありながら未解決の問題の 1 つです。オクルージョンとは視覚情報の欠如を意味しますが、マシン ビジョン システムは知覚と理解のために視覚情報に依存しており、実際には世界では、オブジェクト間の相互オクルージョンがあらゆる場所で発生します。オックスフォード大学の VGG 研究所の Andrew Zisserman チームの最新の研究では、任意のオブジェクトのオクルージョン完了の問題を体系的に解決し、この問題に対する新しくてより正確な評価データ セットを提案しました。この作品はXプラットフォーム上でMPIボスのマイケル・ブラック氏やCVPRの公式アカウント、南カリフォルニア大学コンピュータサイエンス学部の公式アカウントなどから賞賛された。以下は論文「Amodal Ground Truth and Completion in the Wild」の主な内容です。
#データセットの統計は次のとおりです:
データセットのサンプルは以下のとおりです。
#また、問題を解決するために、著者が抽出した任意のオブジェクトの完全な形状再構成タスク 安定拡散モデルの特徴からオブジェクトの完全な形状に関する事前知識を抽出し、遮蔽されたオブジェクトの非モーダル セグメンテーションを実行します 具体的なアーキテクチャは次のとおりです (SDAmodal) ):
安定拡散機能を使用する動機は、安定拡散には画像を完成させる機能があるため、オブジェクトに関するすべての情報がある程度含まれる可能性があるためです。安定した拡散 多数の画像を使用してトレーニングした後、その機能があらゆる環境のあらゆるオブジェクトを処理する能力を持つことが期待できます。以前の 2 段階のフレームワークとは異なり、SDAmodal は入力としてマークされたオクルージョン マスクを必要としません。SDAmodal は単純な構造を持っていますが、強力なゼロサンプル汎化能力を示します (次の表の設定 F と H を比較してください。COCOA のトレーニングでのみ改善できます)異なるドメインおよび異なるカテゴリの別のデータセット上で); 遮蔽されたオブジェクトの注釈がない場合でも、SDAmodal は、複数のタイプの遮蔽されたオブジェクトをカバーする既存のデータセット COCOA と、新しく提案された MP3D-Amodal データセットを改善できます。 SOTA性能(設定H)を達成しました。
定量的な実験に加えて、定性的な比較にも SDAmodal モデルの利点が反映されています。以下の図からわかります (すべてのモデルはCOCOA トレーニングのみ)、COCOA または別の MP3D-Amodal のいずれからのものでも、さまざまなタイプのオクルージョンされたオブジェクトに対して、SDAmodal は非モーダル セグメンテーションの効果を大幅に向上させることができ、予測された非モーダル マスクは現実に近づきます。
詳細については、原論文をお読みください。
以上が「AI Perspective Eye」でマー賞を 3 回受賞したアンドリューは、あらゆるオブジェクトのオクルージョンと完成の問題を解決するチームを率いています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。