ホームページ > 記事 > テクノロジー周辺機器 > ディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案しています
画像の切り抜きとは、画像内の正確な前景を抽出することを指します。現在の自動手法は、画像内のすべての顕著なオブジェクトを無差別に抽出する傾向があります。この論文では、著者は参照画像マッティング (RIM) と呼ばれる新しいタスクを提案します。これは、与えられた自然言語記述に最もよく一致する、特定のオブジェクトの詳細なアルファ マッティングを抽出することを指します。ただし、おそらく高品質の RIM データセットが不足しているため、一般的な視覚的根拠付け手法はセグメンテーション レベルに限定されています。このギャップを埋めるために、著者らは、柔軟性ロジックと再ラベル付けされた多様なプロパティを備えた、現在公開されている高品質マットの見通しに基づいて合成画像を生成する包括的な画像合成および表現生成エンジンを設計することにより、最初の大規模で挑戦的なデータセットである RefMatte を確立しました。 。
RefMatte は、230 のオブジェクト カテゴリ、47,500 の画像、118,749 の表現領域エンティティ、および 474,996 の表現で構成されており、将来的にさらに簡単に拡張できます。さらに、著者らは、RIM モデルの一般化能力をさらに評価するために、人工的に生成されたフレーズ注釈を使用して 100 枚の自然画像からなる現実世界のテスト セットも構築しました。まず、プロンプトベースと式ベースの 2 つのコンテキストにおける RIM タスクが定義され、次にいくつかの典型的な画像マット化手法と特定のモデル設計がテストされました。これらの結果は、既存の方法の限界と考えられる解決策についての経験的な洞察を提供します。新しいタスク RIM と新しいデータセット RefMatte は、この分野に新しい研究の方向性を切り開き、今後の研究を促進すると考えられています。
論文タイトル: Referring Image Matting
論文アドレス: https://arxiv.org/abs/2206.0514 9
コードアドレス: https://github.com/JizhiziLi/RI M
画像マッティングとは、自然画像の前景のソフトアルファマッティングを抽出することを指し、これはさまざまな下流アプリケーションに有益ですビデオ会議、広告制作、eコマースプロモーションなど。一般的なマット方法は、1) トライマップなどの補助入力ベースの方法、および 2) 手動介入なしで前景を抽出する自動マット方法の 2 つのグループに分類できます。ただし、前者は自動アプリケーション シナリオには適しておらず、後者は通常、人物、動物、またはすべての重要なオブジェクトなどの特定のオブジェクト カテゴリに限定されます。任意のオブジェクトの制御可能な画像マッティングを実行する方法、つまり、与えられた自然言語記述に最もよく一致する特定のオブジェクトのアルファ マッティングを抽出する方法は、まだ検討すべき問題です。
参照表現セグメンテーション (RES)、参照画像セグメンテーション (RIS)、視覚的質問応答 (VQA)、および参照表現理解 (REC) などの言語駆動型タスクが広く研究されています。 ReferIt、Google RefExp、RefCOCO、VGPhraseCut、Cops-Ref などの多くのデータセットに基づいて、これらの分野で大きな進歩が見られました。たとえば、RES メソッドは、自然言語記述によって示される任意のオブジェクトをセグメント化することを目的としています。ただし、データセット内の低解像度の画像と粗いマスクの注釈により、取得されたマスクは詳細が含まれないセグメンテーション レベルに限定されます。したがって、前景オブジェクトの詳細なアルファ マッティングが必要なシーンでは使用される可能性は低いです。
このギャップを埋めるために、著者はこの論文で「Referring Image Matting (RIM)」と呼ばれる新しいタスクを提案します。 RIM は、詳細で高品質なアルファ マッティングとともに、特定の自然言語記述に最もよく一致する画像内の特定の前景オブジェクトを抽出することを指します。上記の 2 つのマッティング方法によって解決されるタスクとは異なり、RIM は、言語記述によって示される画像内の任意のオブジェクトの制御可能な画像マッティングを目的としています。これは産業応用の分野で実用的な意義があり、学術界に新たな研究の方向性を切り開きます。
RIM 研究を推進するために、著者は RefMatte という名前の最初のデータセットを確立しました。このデータセットは、230 のオブジェクト カテゴリ、47,500 の画像、118,749 の表現領域エンティティ、および対応する高品質アルファ マットと 474,996 の表現で構成されています。
具体的には、このデータセットを構築するために、著者はまず AM-2k、P3M-10k、AIM-500、SIM などの多くの一般的なパブリック マッティング データセットを再検討し、すべてのオブジェクトを注意深く検査するために手動でラベルを付けました。 。また、著者らは複数の深層学習ベースの事前トレーニング済みモデルを使用して、人間の性別、年齢、服装の種類など、各エンティティのさまざまな属性を生成します。次に、著者らは、他の前景オブジェクトを考慮して、合理的な絶対位置および相対位置を持つ合成画像を生成するための包括的な構成および表現生成エンジンを設計します。最後に、著者は、豊富な視覚属性を利用してさまざまな言語記述を生成するいくつかの表現ロジック形式を提案します。さらに、著者らは、RIM 法の汎化能力を評価するために、さまざまなオブジェクトと人間の注釈付き表現を含む 100 枚の画像を含む現実世界のテスト セット RefMatte-RW100 を提案します。上の画像はいくつかの例を示しています。
関連タスクにおける最先端の手法の公正かつ包括的な評価を行うために、著者らは、言語記述の形式に応じた 2 つの異なる設定、つまりプロンプトベースの設定で RefMatte 上でそれらのベンチマークを実行しました。式ベースの設定。代表的な方法はセグメンテーション タスク用に特別に設計されているため、RIM タスクに直接適用する場合にはまだギャップがあります。
この問題を解決するために、著者は、RIM 用にカスタマイズする 2 つの戦略を提案しました。つまり、1) CLIPSeg の上に CLIPmat という名前の軽量のカットアウト ヘッダーを慎重に設計し、そのヘッダーを維持しながら高品質のアルファ マッティング結果を生成します。エンドツーエンドのトレーニング可能なパイプライン; 2) セグメンテーション/マッティング結果をさらに改善するために、いくつかの個別の粗い画像ベースのマッティング手法がポストリファイナーとして提供されます。広範な実験結果により、1) RIM タスク研究における提案された RefMatte データセットの価値が実証され、2) 言語記述形式の重要な役割が特定され、3) 提案されたカスタマイズ戦略の有効性が検証されました。
この研究の主な貢献は 3 つあります。 1) RIM と呼ばれる新しいタスクを定義し、与えられた自然言語記述に最もよく一致する特定の前景オブジェクトのアルファマットを特定して抽出することを目的としています; 2) 47,500 枚の画像と 118,749 個の表現領域で構成される最初の大規模データセット RefMatte を確立します高品質のアルファマットと豊かな表現を備えたエンティティ; 3) RefMatte テスト用の 2 つの RIM に合わせた戦略を使用して、代表的な最先端の手法が 2 つの異なる設定でベンチマークされ、いくつかの有用な洞察が得られました。
このセクションでは、RefMatte を構築するパイプライン (セクション 3.1 およびセクション 3.2) とタスク設定 (セクション 3.3 セクション) およびデータセットの統計 (セクション 3.5)。上の画像は RefMatte の例をいくつか示しています。さらに、著者らは、手動でラベル付けされた豊富な言語記述で注釈が付けられた 100 枚の自然画像からなる現実世界のテスト セットを構築しました (セクション 3.4)。
RefMatte データセットの構築に役立つ十分な高品質のマット エンティティを準備するために、作成者は現在利用可能なマット データセットを再検討し、要件を満たすものを除外しました。見通し。次に、すべての候補エンティティにそのカテゴリが手動でラベル付けされ、複数の深層学習ベースの事前トレーニング済みモデルを使用してその属性に注釈が付けられます。
前処理とフィルタリング
画像マット化タスクの性質上、すべての候補エンティティは高解像度であり、アルファマット化と細部が鮮明である必要があります。 。さらに、将来の研究を促進するために、データはオープン ライセンスを通じてプライバシーの懸念なしに一般に公開される必要があります。これらの要件に対して、著者は AM-2k、P3M-10k、および AIM-500 の前景画像をすべて使用しました。具体的には、P3M-10k の場合、作成者は 3 つ以上のスティッキー フォアグラウンド インスタンスを含む画像をフィルタリングして除外し、各エンティティが 1 つのフォアグラウンド インスタンスのみに関連付けられるようにしています。 SIM、DIM、HATT などの他の利用可能なデータセットについては、著者らは人間のインスタンスの中で識別可能な顔を持つ前景画像をフィルタリングして除外します。著者らはまた、低解像度または低品質のアルファマットを含む前景画像をフィルタリングして除外します。最終的なエンティティの総数は 13,187 でした。その後の合成ステップで使用される背景画像については、著者は BG-20k 内のすべての画像を選択しました。
エンティティのカテゴリ名に注釈を付ける
以前の自動切り抜き方法では、画像からすべての顕著な前景オブジェクトを抽出する傾向があったため、エンティティは特定の (カテゴリ) 名を提供しませんでした。 。ただし、RIM タスクの場合は、それを説明するためにエンティティ名が必要です。著者らは、各エンティティにエントリーレベルのカテゴリ名を付けました。これは、人々が特定のエンティティに対して使用する最も一般的な名前を表しています。ここでは、半自動戦略が採用されています。具体的には、著者らは、ResNet-50-FPN バックボーンを備えた Mask RCNN 検出器を使用して、各フォアグラウンド インスタンスのクラス名を自動的に検出してラベル付けし、手動で検査して修正します。 RefMatte には合計 230 のカテゴリがあります。さらに、著者らは WordNet を使用して各カテゴリ名の同義語を生成し、多様性を高めています。著者らは手動で同義語をチェックし、その一部をより合理的な同義語に置き換えました。
エンティティの属性に注釈を付ける
すべてのエンティティが豊富な表現の形成をサポートする豊富な視覚属性を確実に持つようにするために、作成者はすべてのエンティティに色で注釈を付けました。性別、年齢、服装の種類などの人間エンティティの属性。著者らは、そのようなプロパティを生成するために半自動戦略も採用しています。カラーを生成するために、著者らは前景画像のすべてのピクセル値をクラスター化し、最も一般的な値を見つけて、それらを Web カラーの特定の色に一致させます。性別と年齢については、著者は事前トレーニングされたモデルを使用しています。常識に従って、予測年齢に基づいて年齢グループを定義します。衣服の種類については、著者は事前トレーニングされたモデルを使用します。さらに、前景の分類に触発されて、著者らはすべてのエンティティに顕著または重要ではない属性、および透明または不透明の属性を追加します。これらの属性は画像マット化タスクでも重要であるためです。最終的に、すべてのエンティティには少なくとも 3 つの属性があり、人間エンティティには少なくとも 6 つの属性があります。
前のセクションで収集したマット エンティティに基づいて、著者は、RefMatte データ セットを構築するための画像合成エンジンと表現生成エンジンを提案しました。異なるエンティティをどのように配置して合理的な合成画像を形成するか、同時にこれらの合成画像内のエンティティを説明するための意味的に明確で文法的に正しい、豊富で派手な表現を生成するかが RefMatte を構築する鍵であり、課題でもあります。この目的を達成するために、著者らは、合成画像内に異なるエンティティを配置するための 6 つの位置関係を定義し、異なる論理形式を利用して適切な表現を生成します。
画像合成エンジン
エンティティの高解像度を維持しながら適切な位置関係で配置するために、作成者は合成画像エンティティごとに 2 つまたは 3 つを使用します。 。著者は、左、右、上、下、前、後ろの 6 つの位置関係を定義します。それぞれの関係について、最初に前景画像が生成され、BG-20k からの背景画像とアルファ ブレンディングを介して合成されました。具体的には、左、右、上、下の関係について、作成者は、詳細を維持するために、前景インスタンスにオクルージョンがないことを確認します。前後の関係では、前景インスタンス間のオクルージョンは、それらの相対位置を調整することによってシミュレートされます。著者は、それぞれの関係を表す候補語のバッグを用意します。
表現生成エンジン
合成画像内のエンティティに豊富な表現方法を提供するために、著者は、異なる論理の観点からエンティティごとに 3 種類の表現を定義します。式は、 は属性、 はカテゴリ名、 は参照エンティティと関連エンティティの関係を表し、3 つの式の具体例は上図 (a)、( b) および (c) ) を示します。
データセットの分割
データ セットには合計 13,187 のマット エンティティがあり、そのうち 11,799 は構築に使用されますトレーニング セット、テスト セットの場合は 1,388。ただし、ほとんどのエンティティは人間または動物のカテゴリに属しているため、トレーニング セットとテスト セットのカテゴリのバランスが取れていません。具体的には、トレーニング セット内の 11,799 個のエンティティの中には、9,186 人の人間、1,800 匹の動物、および 813 個の物体が含まれています。 1,388 個のエンティティからなるテスト セットには、977 人の人間、200 匹の動物、211 個の物体が含まれています。カテゴリのバランスをとるために、著者らはエンティティを複製して、人間:動物:物体の比率が 5:1:1 になるようにしました。したがって、トレーニング セットには人間 10,550 人、動物 2,110 匹、オブジェクト 2,110 個が含まれ、テスト セットには人間 1,055 人、動物 211 匹、オブジェクト 211 個が含まれます。
RefMatte 用の画像を生成するために、著者はトレーニングまたはテスト分割から 5 人の人間、1 匹の動物、および 1 つの物体のセットを選択し、画像合成エンジンに入力します。トレーニングまたはテスト分割のグループごとに、著者はトレーニング セットを形成するために 20 枚の画像を生成し、テスト セットを形成するために 10 枚の画像を生成しました。左右:上下:表裏の比率は7:2:1となります。各画像内のエンティティの数は 2 または 3 に設定されます。コンテキストに関して、作成者は各エンティティの高解像度を維持するために常に 2 つのエンティティを選択します。このプロセスの後、42,200 枚のトレーニング画像と 2,110 枚のテスト画像が作成されます。エンティティの組み合わせの多様性をさらに高めるために、すべての候補からエンティティと関係をランダムに選択して、さらに 2800 個のトレーニング画像と 390 個のテスト画像を作成します。最後に、トレーニング セットには 45,000 枚の合成画像があり、テスト セットには 2,500 枚の画像があります。
タスク設定
さまざまな形式の言語記述を与えられた RIM メソッドのベンチマークを行うために、著者は RefMatte で 2 つの設定をセットアップしました。
プロンプトベースの設定: この設定のテキスト説明はプロンプトであり、エンティティのエントリ レベルのカテゴリ名です。たとえば、上の図のプロンプトは花、人間、アルパカです。
式ベースの設定: この設定のテキスト記述は、前セクションで生成された基本式、絶対位置式、および相対位置式から選択された式です。いくつかの例は上の画像でも見ることができます。
#RefMatte は合成画像に基づいて構築されているため、合成画像と現実世界の画像の間にドメイン ギャップが存在する可能性があります。実世界の画像に対してトレーニングされた RIM モデルの一般化能力を研究するために、著者はさらに、100 枚の実世界の高解像度画像で構成される RefMatte-RW100 という実世界のテスト セットを確立しました。の 2 ~ 3 つのエンティティです。次に、著者はセクション 3.2 の同じ 3 つの設定に従って表現に注釈を付けます。なお、注釈には著者が自由な表現を加えた。高品質のアルファ切り抜きタグの場合、作成者は Adobe Photoshop や GIMP などの画像編集ソフトウェアを使用して生成します。 RefMatte-RW100 の例をいくつか上に示します。
著者は、表に示すように RefMatte データセットと RefMatte-RW100 テスト セットの統計を計算しました。その上。プロンプトベースの設定の場合、テキストの説明はエントリーレベルのカテゴリ名であるため、作成者は、曖昧な推論を避けるために、同じカテゴリに属する複数のエンティティを含む画像を削除します。したがって、この設定では、トレーニング セットに 30,391 個の画像があり、テスト セットに 1,602 個の画像があります。アルファ カットアウトの数、テキストの説明、カテゴリ、属性、関係をそれぞれ上の表に示します。プロンプトベースの設定では、通常、カテゴリごとに単語が 1 つだけであるため、平均テキスト長は約 1 ですが、式ベースの設定ではそれよりもはるかに長くなります。つまり、RefMatte では約 16.8、RefMatte-RW100 では約 16.8 です。 12.
#作者は、上の画像の RefMatte でプロンプト、プロパティ、および関係のワード クラウドも生成しました。見てわかるように、画像マット化タスクでは人間と動物が非常に一般的であるため、データセットには人間と動物の大部分が含まれています。 RefMatte の最も一般的な属性は男性的、灰色、透明、顕著ですが、関係性のある単語はよりバランスが取れています。
RIM と RIS/RES のタスクの違いにより、RIS/RES メソッドを RIM に直接適用した場合の結果は楽観的ではありません。この問題を解決するために、著者は RIM 用にカスタマイズするための 2 つの戦略を提案します。
1) マッティング ヘッドの追加: 既存のモデルの上に軽量のマッティング ヘッドを設計して、高品質のアルファ マッティングを生成しながら、最終的なパフォーマンスを維持します。ツーエンドのトレーニング可能なパイプライン。具体的には、著者は、CLIPMat と呼ばれる CLIPSeg の上に軽量のマット デコーダを設計しました。
2) マッティング リファイナーの使用: 著者は、セグメンテーションをさらに改善するために、バックエンド リファイナーとして粗い画像に基づく別のマット手法を使用します。上記の方法によるマット化の結果。具体的には、著者らは、画像と粗い画像をカットアウト リファイナーとして入力して、GFM と P3M をトレーニングします。
著者らは、RefMatte テスト セットのヒントベースの設定で MDETR、CLIPSeg、および CLIPMat を評価し、定量的な結果を上の表に示します。 MDETR および CLIPSeg と比較すると、カットアウト リファイナーが使用されているかどうかに関係なく、CLIPMat が最高のパフォーマンスを発揮することがわかります。カットアウト ヘッダーを追加して RIM タスク用に CLIPSeg をカスタマイズする効果を検証します。さらに、2 つのカットアウト リファイナーのいずれかを使用すると、3 つの方法のパフォーマンスをさらに向上させることができます。
著者らはまた、RefMatte テスト セットおよび RefMatte-RW100 の式ベースの設定で 3 つの方法を評価し、定量的な結果を上の表に示しています。 CLIPMat は、RefMatte テスト セットの詳細を保持する優れた機能を再度示しています。 CLIPSeg や CLIPMat などの 1 段階メソッドは、RefMatte-RW100 でテストした場合、2 段階メソッド、つまり MDETR よりも遅れています。これは、MDETR の検出器のクロスモーダル セマンティクスを理解する能力が優れているためと考えられます。
#プロンプト入力フォームの影響を調査するために、著者はさまざまなプロンプト テンプレートのパフォーマンスを評価しました。使用されている従来のテンプレートに加えて、作者は、
この記事では、タスク内のさまざまなタイプの式を紹介しているため、マットのパフォーマンスに対する各タイプの影響を確認できます。上の表に示すように、最もパフォーマンスの高いモデル CLIPMat は RefMatte テスト セットでテストされ、モデル MDETR は RefMatte-RW100 でテストされました。
この論文では、参照画像マッティング (RIM) と呼ばれる新しいタスクを提案し、大規模なデータセット RefMatte を構築します。著者らは、RIM の関連タスクに関して既存の代表的な手法を調整し、RefMatte に関する広範な実験を通じてそのパフォーマンスを測定します。この論文の実験結果は、モデル設計、テキスト記述の影響、合成画像と実際の画像の間の領域ギャップについての有益な洞察を提供します。 RIM 研究は、インタラクティブな画像編集や人間とコンピューターの対話など、多くの実用的なアプリケーションに利益をもたらします。 RefMatte は、この分野の研究を促進します。ただし、合成領域と実際の領域のギャップにより、現実世界の画像への一般化が限定される可能性があります。
以上がディープラーニングには新たな落とし穴が!シドニー大学は、テキストを使用して画像の切り抜きをガイドする、新しいクロスモーダル タスクを提案していますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。