ホームページ  >  記事  >  テクノロジー周辺機器  >  Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

PHPz
PHPz転載
2023-04-12 08:46:021084ブラウズ

近年、ディープラーニングの開発と大規模なデータセットの登場により、ディープラーニングは多くの分野で進歩していますが、「顔の復元」タスクについては体系的な検討がまだ不足しています。

最近、南京大学、オーストラリア国立大学、中山大学、インペリアル・カレッジ・ロンドン、テンセントの研究者らは、深層学習に基づく顔復元技術の研究進捗状況を包括的にレビューし、まとめました。顔復元手法を分類し、ネットワーク アーキテクチャ、損失関数、ベンチマーク データ セットについて議論し、既存の SOTA 手法の系統的なパフォーマンス評価を実施しました。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

ペーパーリンク: https://arxiv.org/abs/2211.02831

リポジトリリンク: https://github. com/TaoWangzj/Awesome-Face-Restoration

この記事は、顔の修復の分野における最初のレビューでもあります。主な貢献は次のとおりです:

1. 顔復元タスクで主な劣化モデルと一般的に使用される評価指標を確認し、顔画像の顕著性の特徴を要約しました;

2. 現在の顔復元の課題、分類を要約しましたおよび既存のアプローチの概要。手法には主に事前分布に基づく深層学習復元手法と事前分布なしの深層学習復元手法の 2 つのカテゴリがあり、

3. 基本的なネットワーク アーキテクチャと手法で使用される基本手法を整理します。ネットワーク モジュール、損失関数、および標準データ セット;

#4. 公開ベンチマーク データ セットでの既存の SOTA メソッドの体系的な実験評価;

5 . 顔復元タスクの今後の発展見通しを分析します。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

記事の全体構成

研究の背景

顔復元 (FR) は、基礎となる視覚における特定の画像復元問題であり、低品質の入力顔画像から高品質の顔画像を復元することを目的としています。一般に、劣化モデルは次のように説明できます。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

ここで、I(lq) は低品質の顔画像、D はノイズと相関がありません。縮退関数、n は加算ガウス ノイズです。劣化関数Dが異なれば、異なる劣化モデルに対応することになる。したがって、FR タスクは、上記の劣化モデルを解く逆プロセスとみなすことができ、次のように表現できます。 ## ここで、劣化関数に応じて、顔復元タスクは主に次の 5 つのカテゴリに分類され、さまざまな劣化モデルに対応します:

1. 顔ノイズ除去タスク (顔ノイズ除去、FDN) : 顔画像からノイズを除去し、高品質の顔を復元します;

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

2. 顔のブレ除去タスク (顔のブレ除去、FDB): 顔画像からブレを除去し、高品質の顔を復元します;

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

# #3. 顔の超解像度(FSR): 低品質の低解像度の顔から高解像度で高品質の顔を復元します;

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

4. 顔アーティファクト除去 (FAR): 顔画像の圧縮プロセス中に発生するアーティファクトを除去し、高品質の顔を復元します。

##5。ブラインドフェイス復元 (BFR): 未知の劣化した低品質の顔を高品質の顔に復元します;

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

顔の特徴

は一般的な自然画像復元タスクとは異なります. 顔画像は強力な構造情報を持っているため, 顔復元タスクは顔画像の事前情報を使用して顔復元プロセスを支援できます. 事前情報は主に次のように分類できます次の 3 つの部分:

人物の属性情報: 性別、年齢、メガネの有無など、下図のように

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

# #person アイデンティティ情報;

#その他の事前情報: 以下の図に示すように、代表的な事前情報には、顔ランドマーク、顔ヒート マップ、顔解析マップ、3D 顔事前情報が含まれます ;

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

顔面修復が直面する主な課題

## 1. 顔面修復自体は、不適切な問題。

低品質の顔画像の劣化タイプと劣化パラメータは事前​​に不明であるため、劣化画像から高品質の顔画像を推定することは不適切な問題となります。

一方、実際のシーンにおける顔画像の劣化は複雑かつ多様です。したがって、この不適切な問題を解決するために効果的かつ堅牢な顔復元モデルを設計する方法は困難です。

#2. 未知の顔の事前情報を探索するのは困難です。

顔の事前情報 (顔のコンポーネントや顔のランドマークなど) は通常、低品質の顔から得られるため、既存の顔復元アルゴリズムでは顔の事前情報を完全に活用することは困難です。画像内の推定された低品質の顔は、事前の推定に不正確さを引き起こす可能性があり、顔復元アルゴリズムのパフォーマンスに直接影響します。

一方、実際のシーンで撮影された顔画像には複雑で多様な劣化タイプが含まれることが多く、顔復元プロセスを支援する前に適切な顔を見つけることは非常に困難です。したがって、合理的な顔事前分布をどのようにマイニングするかは困難です。

#3. 大規模な公開ベンチマーク データセットが不足している。

ディープラーニング技術の発展により、ディープラーニングベースの手法は顔の復元において目覚ましいパフォーマンスを示しています。深層学習ベースの顔復元手法のほとんどは、ネットワークをトレーニングするために大規模なデータセットに大きく依存しています。

ただし、現在の顔復元方法のほとんどは、通常、非公開のデータセットでトレーニングまたはテストされています。したがって、既存の顔面修復方法を直接かつ公平に比較​​することは現時点では困難です。

さらに、高品質で大規模なベンチマークが不足しているため、モデルの可能性が制限されています。ただし、大規模な顔データを取得することは依然として困難であるため、顔復元タスク用の合理的な公開ベンチマーク データセットを構築することは困難です。

#4. 顔復元アルゴリズムは、実際のシナリオでは一般化能力が限られています。

深層学習ベースの手法は顔の復元において優れたパフォーマンスを達成していますが、ほとんどの手法はトレーニングの教師あり戦略に依存しています。

つまり、これらの方法にはペア (低品質画像と高品質画像のペア) のデータセットが必要であり、この条件が満たされない場合、パフォーマンスが大幅に低下します。

一方、現実のシナリオでは、ペアになったサンプルを含む大規模なデータセットを収集することは困難です。したがって、合成データセットでトレーニングされたアルゴリズムは、実際のシナリオでは汎化機能が弱く、実際のシナリオでのモデルの適用性が制限されます。したがって、実際のシナリオにおいて顔アルゴリズムの汎化能力をどのように向上させるかが課題となります。

顔復元手法の概要と分類

これまで、研究者は上記の課題を解決するために多くの顔復元アルゴリズムを提案してきました。以下の図は、深層学習ベースの顔復元手法の簡潔なマイルストーンを示しています。

図に示すように、ディープラーニングに基づく顔復元手法の数は、2015 年以降、年々増加しています。

#これらの顔復元方法は、事前ベースの深層学習復元方法と非事前ベースの深層学習復元方法の 2 つのカテゴリに分類されます。方法。

事前分布に基づく深層学習復元手法は、幾何事前分布に基づく深層学習復元手法、参照事前分布に基づく深さ復元手法、深さ復元手法の 3 つに分類されます。生成事前分布に基づいています。

以下は、代表的な顔復元アルゴリズムを簡単に紹介します。

幾何事前ベースの深層復元手法

この手法は主に、画像内の顔の固有の特徴を使用します。幾何学的形状と空間分布情報を使用して、モデルが徐々に高品質の顔を復元できるようにします。典型的な幾何学的事前分布には、顔のランドマーク、顔のヒート マップ、顔の解析マップ、および顔のコンポーネントが含まれます。代表的な作品は次のとおりです。

SuperFAN: 顔の超解像度タスクと顔のランドマーク位置決めタスクを同時に達成する最初のエンドツーエンドの方法です。

この方法の中心となるアイデアは、共同タスク トレーニング戦略を使用して、ネットワークがより多くの顔の幾何学的情報を学習し、モデルが効率的な顔の超解像度と顔のランドマークの位置決めを達成できるように支援することです。

MTUN: 2 つのブランチ ネットワークを含む顔復元手法です。最初のブランチ ネットワークは顔画像の超解像度を実現するために使用され、2 番目のブランチは顔画像のヒートマップに使用されます。顔の構成を推定します。

この方法は、低品質の顔画像の顔要素情報を使用すると、アルゴリズムの顔復元のパフォーマンスをさらに向上できることを示しています。

PSFR-GAN: マルチスケールプログレッシブネットワークに基づくブラインドフェイス復元手法です。この方法の中心となるアイデアは、マルチスケールの低品質の顔画像と人間解析マップを入力として使用し、セマンティックを意識したスタイル転送を通じて顔の詳細を徐々に復元することです。

参考事前ベースの詳細な復元手法

過去には、顔復元手法は顔の事前推定のために劣化画像のみに依存していましたが、顔画像の劣化過程は通常非常に病的であり、これらの方法では劣化画像のみから正確な顔を事前に取得することはできません。効率的な顔復元を実行するようにモデルをガイドする前に、追加の高品質の顔画像を顔参照として使用します。代表的な作品には、次のものがあります。

GFRNet: このネットワーク モデルは、歪みネットワーク (WarpNet) で構成されます。 ) と再構成ネットワーク (RecNet) を備えています。WarpNet は、基準画像を歪ませる流れ場を生成することで顔の姿勢と表情を修正することを目的とした、歪みガイド情報を提供します。RecNet は、低品質の画像と歪んだガイド情報を入力として受け取ります。

GWAInet: この研究は、敵対的生成方法でトレーニングを使用して高品質の顔画像を生成する GFRNet に基づいて提案されています。 GFRNet、GWAInet はトレーニング段階で顔マーカーに依存しません。このモデルは顔領域全体により多くの注意を払うため、モデルの堅牢性が向上します。

DFDNet: この方法が最初ですK 平均法アルゴリズムを使用して、高品質の画像から知覚的に重要な顔のコンポーネント (つまり、左/右の目、鼻、口) の詳細な辞書を生成し、生成されたコンポーネントの辞書から最も類似したコンポーネントの特徴を選択します。低品質の顔画像に詳細を転送し、モデルが顔復元を実行するようにガイドします。

#敵対的生成ネットワーク (GAN) の急速な発展に伴い、StyleGAN や StytleGAN2 などの事前トレーニングされた顔 GAN モデルがより豊富な顔の事前分布 (ジオメトリや顔のテクスチャなど) を提供できることが研究で判明しました。

そこで、研究者らは GAN で生成された事前の補助モデルを顔の復元に使用し始めました。この作業は、出力と入力の間の距離がしきい値よりも小さくなるまで、事前トレーニングされた StyleGAN の潜在コードを繰り返し最適化し、それによって効率的な顔の超解像度を達成することです。

#GFP- GAN: この研究では、事前トレーニングされた GAN モデルの豊富で多様な事前分布を、ブラインドフェイス復元用のモデルを導く事前生成として使用します。この方法には、主に劣化除去モジュールと、事前トレーニングされた GAN モデルに基づく事前モジュールが含まれていますこれら 2 つのモジュールは、潜在コード接続といくつかのチャネル セグメンテーション空間特徴変換層を通じて効率的な情報転送を実行します。

GPEN: この方法の核となるアイデアは、GAN と DNN のさまざまなフレームワークの利点を効果的に統合して、効率的な顔の復元を実現することです。 GPEN は、まず高品質の顔画像を生成するための GAN モデルを学習し、次にこの事前トレーニングされた GAN モデルをアプリオリ デコーダーとして深い畳み込みネットワークに埋め込み、最後にこの深い畳み込みネットワークを微調整して顔認識を実現します。

非事前ベースのディープ復元手法

ディープラーニングに基づいた顔復元手法は、ほとんどの人が顔の助けを借りて満足のいく顔を復元できますが、しかし、顔の事前分布に依存すると、顔画像を生成するコストがある程度増加します。

この問題を解決するために、別のクラスのメソッドは、エンドツーエンドのネットワーク モデルを設計して、何もせずに低品質の顔画像と高品質の顔画像の間のマッピング関数を直接学習することを目的としています。追加の顔事前分布を導入する必要があります。代表的な作品には次のものがあります。

BCCNN: 顔超解像のための 2 チャネル畳み込みニューラル ネットワーク モデル。これは、特徴抽出器と画像生成器で構成されます。特徴抽出器は低解像度の顔画像から堅牢な顔表現を抽出し、画像生成器は抽出された顔表現を入力顔と適応的に照合します。画像が融合されて高解像度画像が生成されます。 。

HiFaceGAN: この方法は、顔復元問題をセマンティックガイド付き生成問題に変換し、顔復元を実現する HifaceGAN モデルを設計します。このネットワーク モデルは、複数の協調的な抑制モジュールと補助モジュールを含む多段階フレームワークであり、この構造設計により、モデルの縮退事前分布やトレーニング構造への依存が軽減されます。

RestoreFormer: これは、Transformer に基づいたエンドツーエンドの顔復元方法です。主に、コンテキスト情報をモデル化するための全空間注意メカニズムを調査します。

この手法には主に 2 つの主要なアイデアがあります。1 つ目は、破損したクエリと高品質のクエリの間の全空間相互作用を学習するためのマルチヘッド クロスアテンション層を提案することです。キーと値のペア。 2 番目のポイントは、アテンション メカニズムのキーと値のペアが、高品質の顔の特徴を含む高品質の辞書からサンプリングされていることです。

近年のディープラーニングによる顔復元手法の特徴を総合的にまとめたのが次の図です。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

# ここで、Plain は、非事前ベースの深さ復元方法、顔コンポーネント、および幾何事前分布を表します。幾何事前分布に基づく2種類の深度復元手法を表す 基準事前分布は基準事前分布に基づく深さ復元手法を表す 生成事前分布は非事前分布に基づく深さ復元手法を表す Deep CNN、GAN、ViTはそれぞれ深さ畳み込みを使用したモデルを表す ニューラルネットワーク、敵対的生成ネットワーク、Visual Transformer ネットワーク構造。

技術開発レビュー

本セクションでは、ディープラーニングに基づく顔復元手法の技術開発プロセスを、主に以下の観点から総合的にレビューします。ネットワーク モデルの基本アーキテクチャ、使用される基本モジュール、モデルで使用される損失関数、および顔関連のベンチマーク データ セットなど、いくつかの側面を分析します。

#ネットワーク アーキテクチャ

深層学習に基づく顔復元手法の既存のネットワーク アーキテクチャは、主に 3 つのカテゴリに分類されます。 :事前ガイダンスに基づく方法、GANネットワーク構造に基づく方法、ViTネットワーク構造に基づく方法。したがって、このセクションではこれらの開発について説明します。

事前のガイダンスに基づく方法

この種の方法は主に 4 つのタイプに分類できます。事前ガイダンス 事前顔面修復法(Pre-prior 顔面修復法)、ジョイント事前顔面修復法(ジョイント事前顔面修復法)、中間事前(Pre-prior 顔面修復法)法に基づく顔面修復法)、参考事前事前の参照に基づいた顔の復元方法。

上記 4 つの方法の簡潔な構造図は次のとおりです。

修復前に基づく顔この方法では通常、最初に事前推定ネットワーク (顔事前推定ネットワークや事前トレーニングされた顔 GAN モデルなど) を使用して低品質の入力画像から事前に顔を推定し、次にネットワークを使用して事前顔と顔を使用します。画像により高品質の顔が生成されます。

典型的な方法を次の図に示します. 研究者らは、まず入力されたぼやけた顔画像から顔の意味ラベルを抽出し、次にぼやけた画像とface 顔の意味ラベルは同時にぼやけ除去ネットワークに供給され、鮮明な顔画像が生成されます。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#結合事前推定と顔復元方法は、主に顔事前推定間の相補関係を利用します。タスクと顔復元タスク。このタイプの方法は通常、顔復元ネットワークと事前推定ネットワークを共同でトレーニングするため、このタイプの方法では両方のサブタスクの利点が考慮され、顔復元タスクのパフォーマンスを直接向上させることができます。

代表的な手法を下図に示します.研究者らは顔の位置合わせと顔の超解像を組み合わせたネットワークモデルを提案しました.この手法はランドマーク位置と顔の顔を統合して推定します. . 超解像度の顔画像。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#中間事前分布に基づく顔復元法の核となる考え方は、まず次のことです。ネットワークは粗い顔画像を生成し、その粗い画像から顔の事前情報を推定します。これにより、入力された低品質の画像から直接取得するよりも正確な事前情報を取得できます。

代表的な手法を下図に示しますが、研究者らはネットワークの途中で顔の事前推定を行うFSRNetネットワークモデルを提案しました。

具体的には、FSRNet は、最初に粗い SR ネットワークを使用して画像を大まかに復元し、次に細かい SR エンコーダと事前推定ネットワークを使用して、粗い結果画像の事前推定を実行します。最後に、画像のリファインメント機能と以前の情報が同時にファイン SR デコーダに入力され、最終結果が復元されます。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

GAN ネットワーク構造に基づく手法

この種の手法は、プレーン GAN アーキテクチャに基づく手法 (Plain GAN 手法) と、事前学習済み GAN 埋め込み構造に基づく手法 (Pre-trained GAN埋め込み方法)。

これら 2 つのメソッドの簡潔な構造図は次のとおりです。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

通常の GAN アーキテクチャに基づく方法では、通常、ネットワーク モデルに敵対的損失が導入され、その後、敵対的学習戦略を使用して弁別器と生成器 (顔復元ネットワーク) を共同で最適化し、より現実的な人物の顔画像を生成します。

典型的な方法は次の図に示されており、研究者らは 2 つの敵対的生成ネットワークで構成される HLGAN ネットワーク モデルを提案しました。

1 つ目は High-to-Low GAN ネットワークで、高解像度画像の劣化プロセスを学習するためのトレーニングにペアになっていない画像を使用します。最初のネットワークの出力 (つまり、低解像度の顔画像) は、顔の超解像度を達成するために 2 番目の低から高 GAN ネットワークをトレーニングするために使用されます。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

事前トレーニングされた GAN 埋め込み構造に基づくこのメソッドの核となるアイデアは、事前にトレーニングされた GAN 埋め込み構造を使用することです。訓練された顔 GAN モデル (StyleGAN など) を使用して、潜在的な事前学習を顔復元プロセスに統合し、潜在的な事前学習戦略と敵対的学習戦略の助けを借りて効率的な顔復元を実現します。

典型的な方法を以下の図に示します. 研究者らは GFP-GAN モデルを設計しました. このモデルには主に、事前学習済み GAN モデルに基づく劣化除去モジュールとアプリオリ モジュールが含まれています. これら 2 つのモジュールは合格します潜在コード接続といくつかのチャネル セグメンテーション空間特徴変換レイヤーにより、効率的な情報転送が実行されます。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#ViT ネットワーク構造に基づく手法

最近、Visual Transformer (ViT) ネットワーク アーキテクチャは、自然言語処理やコンピュータ ビジョンなどの分野で優れたパフォーマンスを示しており、顔復元タスクにおける Transformer アーキテクチャの応用にも影響を与えています。

典型的な方法は、Swin Transformer に基づいて、顔復元のためのエンドツーエンドの Swin Transformer U-Net (STUNet) ネットワークを提案しました。

STUNet では、トランスフォーマー モジュールはセルフ アテンション メカニズムとシフト ウィンドウ戦略を使用して、顔の復元に有益なより重要な特徴にモデルが焦点を当てるのを支援します。この方法は良好な結果を達成しています。パフォーマンス 。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

# ネットワーク モデルで一般的に使用されるモジュール

顔復元の分野では、研究者は強力な顔復元ネットワークを構築するためにさまざまな種類の基本モジュールを設計してきました。一般的に使用される基本モジュールは下図のとおりで、主に残差モジュール (Residual Block)、Dense モジュール (Dense Block)、アテンション モジュール (チャネル アテンション ブロック、残差チャネル アテンション ブロック、空間アテンション ブロック)、およびトランスフォーマー モジュールが含まれます。 (変圧器ブロック)。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#損失関数

顔復元タスクにおける一般的な損失関数には次のものがあります。主に次のカテゴリがあります: ピクセルごとの損失 (主に L1 および L2 損失を含む)、知覚的損失、敵対的損失、顔固有の損失。さまざまな顔復元方法とその方法で使用される損失関数を次の表にまとめます。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#Dataset

顔復元タスクに関連する公開データセットと関連統計情報は、次のように要約されています:

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

パフォーマンスの比較

この記事では、PSNR/SSIM/MS-SSIM/パフォーマンスにおけるいくつかの代表的な顔復元方法を要約し、テストします。 LPIPS/NIQE など

定量的結果の比較

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#定性的結果の比較

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

#メソッドの複雑さの比較

Wanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。

# 将来開発の方向性

ディープラーニングに基づく顔復元手法は一定の進歩を遂げてきましたが、依然として多くの課題や未解決の問題が残されています。

ネットワーク構造の設計

深層学習に基づく顔復元手法では、ネットワーク構造がパフォーマンスに影響を与える可能性があります。その方法は大きな影響を及ぼします。

たとえば、最近の Transformer ベースのメソッドは、Transformer アーキテクチャの強力な機能によりパフォーマンスが向上していることがよくあります。 GAN ベースの手法を使用すると、より視覚的に好ましい顔画像を生成できます。

したがって、ネットワークを設計するときは、CNN、GAN、ViT などのさまざまな構造から学び、研究する価値があります。

一方、最近の Transformer ベースのモデルには、多くの場合、より大きなパラメータが含まれており、より高い計算コストが必要となるため、エッジ デバイスへの展開が困難になります。

したがって、強力なパフォーマンスを備えた軽量ネットワークをどのように設計するかが、将来の研究の方向性となる可能性があります。

顔のプリアとネットワークの統合

特定の分野における画像復元タスクとして、顔の特徴は次のとおりです。顔の復元タスクに使用されます。モデルを設計するとき、多くの方法は、顔の事前分布を利用して現実的な顔の詳細を復元することを目的としています。

いくつかの方法では、幾何学的事前分布、顔コンポーネント、生成事前分布、または 3D 事前分布を顔復元プロセスに導入しようとしていますが、事前情報をより合理的にネットワークに統合する方法は依然として有望な方向性です。このタスクのために。

さらに、事前トレーニングされた GAN からの事前分布やネットワーク内のデータ統計など、新しい顔関連の事前分布をさらにマイニングすることも、このタスクの別の方向性です。

損失関数と評価指標

顔復元タスクで広く使用されている損失関数には、L1 損失、L2 損失などがあります。表 3 に示すように、損失、知覚的損失、敵対的損失、および顔固有の損失。

既存の手法は通常、単一の損失関数を使用せず、複数の損失関数と対応する重みを組み合わせてモデルをトレーニングします。ただし、モデルのトレーニングをガイドするためのより合理的な損失関数を設計する方法は不明です。

したがって、将来的には、顔の復元を容易にするために、より正確な損失関数 (たとえば、汎用損失関数または顔タスク駆動損失関数) を求めるさらなる研究が期待されます。さらに、損失関数はモデルの評価結果に直接影響を与える可能性があります。表 5、6、7 に示すように、L1 損失と L2 損失は、PSNR、SSIM、MS-SSIM の点でより良い結果が得られる傾向があります。

知覚損失と敵対的損失は、より満足のいく結果を生み出す傾向があります (つまり、高い LPIPS、FID、NIQE 値が生成されます)。したがって、人間と機械の両方の側面を考慮してモデルのパフォーマンスをより合理的に評価できる指標をどのように開発するかも、将来的には非常に重要な方向性となります。

計算オーバーヘッド

既存の顔復元方法では、通常、回復を向上させるためにネットワークの深さまたは幅が大幅に増加します。モデルの計算コストを無視したパフォーマンス。

これらの方法は、計算コストが高いため、モバイル デバイスや組み込みデバイスなど、リソースが限られた環境では使用できません。

たとえば、表 8 に示すように、最先端のメソッド RestoreFormer には 7,237 万のパラメータ ボリュームと 340.80 ギガの MAC 計算ボリュームがあり、導入するのが非常に困難です。現実世界のアプリケーションでは困難です。したがって、計算コストを抑えたモデルを開発することが将来の重要な方向性となります。

画像のブレ除去、画像のノイズ除去、画像のかすみ除去などの他の基礎的な視覚タスクを使用したベンチマーク データセット

顔の修復には標準的な評価ベンチマークがほとんどありません。

たとえば、ほとんどの顔復元手法は通常、プライベート データセット (FFHQ から合成されたトレーニング セット) で実験を実施します。

研究者は、自分が提案した方法に偏ったデータを使用したくなるかもしれません。一方で、公平な比較を行うためには、プライベート データセットを合成したり、他の比較方法を再トレーニングしたりするためのフォローアップ作業に多くの時間がかかります。さらに、最近広く使用されているデータセットはサイズが小さいことが多く、深層学習手法には適していません。

したがって、標準ベンチマーク データ セットを開発することは、顔復元タスクの 1 つの方向性です。将来的には、コミュニティの研究者がより標準的で高品質なベンチマーク データセットを構築することが期待されます。

#ビデオの顔の復元

#携帯電話やカメラなどのモバイル デバイスの普及により、ビデオによる顔の復元はますます重要になっています。ただし、既存の作業は主に画像の顔の復元タスクに焦点を当てており、ビデオ関連の顔の復元作業はあまり一般的ではありません。

一方、ビデオのぶれ除去、ビデオの超解像度、ビデオのノイズ除去などの他の低レベルの視覚タスクは、近年急速に発展しています。

したがって、ビデオによる顔の復元がコミュニティの潜在的な方向性となります。ビデオ顔復元タスクは、次の 2 つの側面から考えることができます。

まず、ベンチマーク データ セットについては、このタスク用に高品質のビデオ データ セットを構築することを検討できます。これにより、ビデオ関連のアルゴリズムの設計と評価を迅速に促進でき、顔復元コミュニティの発展;

第二に、ビデオ復元手法については、連続するビデオフレーム間の空間的および時間的情報を十分に考慮して、ビデオベースの顔復元手法を開発する必要があります。

#現実世界の顔の復元とアプリケーション

## 既存の方法は、ネットワーク モデルをトレーニングするために合成データに依存しています。ただし、訓練されたネットワークは、現実のシナリオでは必ずしも優れた汎化能力を示すとは限りません。

図 19 に示すように、ほとんどの顔復元方法は、現実世界の顔画像に直面した場合にはうまく機能しません。合成データと現実世界のデータの間には、データ領域の大きなギャップがあるためです。

いくつかの方法では、教師なし手法や学習実画像劣化手法など、この問題を解決するための解決策が導入されています。ただし、すべての画像が同様の劣化を受けるという特定の仮定に依然として依存しています。

したがって、現実世界のアプリケーションでは、顔復元タスクの方向性は依然として困難です。

さらに、いくつかの方法では、顔の復元により、顔検証や顔認識などの後続のタスクのパフォーマンスが向上することが示されています。ただし、顔の復元タスクとこれらのタスクをフレームワーク内でどのように組み合わせるかは、今後の研究の方向性でもあります。

その他の関連タスク

上記で説明した顔の復元タスクに加えて、他にも多くの関連タスクがあります。顔のレタッチ、写真スケッチの合成、対面翻訳、顔の復元、色補正、古い写真の復元などの顔復元タスクを実行します。

たとえば、顔の復元は、照合または学習を通じて顔画像の欠落した領域を復元することを目的としています。不足している顔のコンポーネントに対して新しいピクセルを意味的に生成する必要があるだけでなく、顔の構造と外観の一貫性を維持する必要もあります。古い写真の復元は、非常に多様かつ複雑な劣化 (ノイズ、ぼやけ、色あせなど) の古い写真を復元するタスクです。

さらに、一部のタスクは、顔の復元タスクとは異なる、対面翻訳や表情分析など、顔のスタイルの転送に焦点を当てています。

したがって、既存の顔復元手法をこれらの関連タスクに適用することも有望な方向性であり、より多くの応用を引き起こす可能性があります。

参考: https://arxiv.org/a bs/2211.02831

以上がWanzi Interpretation初の「顔復元」レビュー! NTU、孫文、オーストラリア国立大学、インペリアルカレッジ等が共同発表。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。