ホームページ >テクノロジー周辺機器 >AI >ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

PHPz転載: 2023-04-12 12:25:031902ブラウズ

デジタル文化産業の活発な発展に伴い、人工知能技術は画像編集や美化の分野で広く使用され始めています。その中でも、ポートレートの肌の美化は間違いなく最も広く使用され、最も需要のある技術の 1 つです。従来の美容アルゴリズムは、フィルターベースの画像編集テクノロジーを使用して、自動化された肌の再表面化とシミの除去効果を実現しており、ソーシャルネットワーキング、ライブブロードキャスト、その他のシナリオで広く使用されてきました。

しかし、敷居の高いプロの写真業界では、画像解像度と品質基準に対する高い要件があるため、依然として手動のレタッチャーがポートレートの美しさのレタッチにおいて主な生産力となっています。肌のレベリング、シミ取り、美白などの一連の作業。通常、プロのレタッチャーによる高精細ポートレートの美肌処理の平均処理時間は1～2分ですが、広告、映画、テレビなど、より高い精度が要求される分野ではさらに処理時間が長くなります。

インタラクティブエンターテイメントシーンでの肌のリサーフェシングと比較して、広告レベルおよびスタジオレベルの洗練された肌の美化は、アルゴリズムに対してより高い要件と課題をもたらします。一方で、ニキビ、ニキビ跡、そばかす、不均一な肌の色調など、シミにはさまざまな種類があり、アルゴリズムはさまざまなシミを適応的に処理する必要がありますが、一方で、シミを除去する過程で、肌の質感が変化します。肌はできるだけ保存し、質感を保ち、高精度の肌修正を実現する必要があります。最後に重要なことですが、写真機材の継続的な反復により、プロの写真撮影で一般的に使用される画像解像度は 4K、さらには 8K に達しています。アルゴリズムの処理効率に大きな課題をもたらします。

そこで、プロレベルのインテリジェントな美肌の実現を出発点として、高精細画像向けの超微細ローカル画像レタッチアルゴリズムABPNを開発しました。衣類のしわ取り作業などへの応用も実現されています。

論文: https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf
モデル& コード: https://www.modelscope.cn/models/damo/cv_unet_skin-retouching/summary

関連作品

#3.1 伝統美アルゴリズム

#伝統的な美容アルゴリズムの核心は、肌領域のピクセルをより滑らかにし、傷の目立ちを減らし、それによって肌をより滑らかに見せることです。一般的に、既存の美化アルゴリズムは、1) 画像フィルタリングアルゴリズム、2) 画像融合、3) 鮮明化の 3 つのステップに分割できます。全体的なプロセスは次のとおりです。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

画像のエッジを保持しながら肌の領域を滑らかにするために、従来の美容アルゴリズムではまず、エッジ保持フィルター (バイラテラルフィルター、ガイド付きフィルターなど) を使用して画像を処理します。エッジ保存フィルタは、一般的に使用される平均値フィルタやガウスフィルタとは異なり、異なる領域の画素値の変化を考慮し、画素の変化が大きいエッジ部分と変化の大きい中央領域の画素に異なる重みを採用します。緩やかな変化により、画像のエッジを実現します。次に、背景領域に影響を与えないように、通常はセグメンテーション検出アルゴリズムを使用して肌領域を特定し、元の画像と平滑化された画像の融合をガイドします。最後に、シャープニングにより、エッジの顕著さと感覚の明瞭さをさらに高めることができます。次の図は、現在の従来の美容アルゴリズムの効果を示しています。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

##元の画像は unsplash [31]## から取得しています。 ##効果の観点から見ると、従来の美容アルゴリズムには 2 つの大きな問題があります。 1) 欠陥の処理が非適応的であり、さまざまなタイプの欠陥を適切に処理できない。 2）スムージング処理により肌のキメや質感が失われます。これらの問題は、高解像度の画像で特に顕著です。

3.2 既存の深層学習アルゴリズム

さまざまな皮膚領域やさまざまな欠陥の適応的な修正を実現するために、データ駆動型の深層学習アルゴリズムの方が優れたソリューションであるようです。タスクの関連性を考慮して、画像から画像への変換、写真レタッチ、画像修復、および高解像度画像編集という 4 つの既存の方法の、肌を美しくするタスクへの適用可能性について議論および比較しました。

3.2.1 画像から画像への変換

画像から画像への変換タスクは最初に pix2pix [1 ] によって開始されました。これは、多数のコンピュータービジョンタスクをピクセル間の予測タスクに要約し、そのような問題を解決するための条件付き敵対的生成ネットワークに基づく一般的なフレームワークを提案しています。 pix2pix [1] に基づいて、画像変換問題を解決するために、ペア画像を使用する方法 [2, 3, 4, 5] や、ペアになっていない画像を使用する方法 [6,7,8,9] など、さまざまな方法が提案されています。一部の研究は、特定の画像変換タスク (セマンティック画像合成 [2、3、5]、スタイル転送など [9、10、11、12] など) に焦点を当てており、印象的な結果を達成しています。ただし、上記の画像変換のほとんどは、画像から画像への全体的な変換に主に焦点を当てており、局所領域への注意が欠けているため、肌の美化タスクにおけるパフォーマンスが制限されます。

#3.2.2 写真レタッチ

##ディープ畳み込みニューラルネットワークの開発、学習ベースの手法の活用[ 13 、14、15、16]は、近年の画像レタッチの分野で優れた成果を示しています。ただし、ほとんどの画像変換方法と同様に、既存のレタッチアルゴリズムは主に、色、照明、露出など、画像のいくつかの全体的なプロパティを操作することに重点を置いています。局所的な領域のレタッチにはほとんど注意が払われず、肌のレタッチはまさに局所的なレタッチ作業（ローカルフォトレタッチ）であり、背景領域を変更せずに対象領域をレタッチする必要があります。

3.2.4 高解像度画像編集

アダプティブブレンディングピラミッドに基づくローカルレタッチフレームワーク

肌の美しさの本質は画像の編集にあり、他のほとんどの画像変換タスクとは異なり、この編集は部分的なものです。同様の作業には、衣類のシワ取りや製品の修正などがあります。このタイプのローカル画像レタッチタスクには強い共通性があり、その 3 つの主な困難と課題を要約します: 1) ターゲット領域の正確な位置決め。 2) グローバルな一貫性と細部の忠実性を備えたローカル生成 (修正)。 3) 超高解像度画像処理。この目的のために、我々は、超高解像度を達成するために、アダプティブブレンドピラミッド (ABPN: Adaptive Blend Pyramid Network for Real-Time Local Retouching of Ultra High-Resolution Photo, CVPR2022,[27]) に基づくローカルレタッチフレームワークを提案します。画像のレタッチについては、以下でその実装内容を紹介します。

4.1 全体的なネットワーク構造

上の図に示すように、ネットワーク構造は主に、コンテキスト認識ローカル変更レイヤー (LRL) と適応ブレンディングピラミッドレイヤー (BPL) の 2 つの部分で構成されます。 LRL の目的は、グローバルコンテキスト情報とローカルテクスチャ情報を十分に考慮して、ダウンサンプリングされた低解像度画像を局所的に変更し、低解像度変更結果画像を生成することです。さらに、BPL は、LRL で生成された低解像度の結果を高解像度の結果に徐々にアップスケールするために使用されます。その中で、適応ブレンディングモジュール (ABM) とその逆モジュール (R-ABM) を設計し、中間ブレンディング層 Bi を使用して、元の画像と結果画像の間の適応変換と上方拡張を実現し、強力なスケーラビリティを示します。細部まで忠実な機能。顔の変更と服装の変更の 2 つのデータセットで多数の実験を行った結果、私たちの方法が有効性と効率の点で既存の方法よりも大幅に優れていることがわかりました。私たちのモデルは、1 枚のカード P100 上で 4K 超高解像度画像のリアルタイム推論を実現していることは言及する価値があります。以下では、LRL、BPL、ネットワークトレーニング損失をそれぞれ紹介します。

4.2 コンテキスト認識型ローカルレタッチレイヤー

LRL では、パートで述べた 2 つの課題を解決したいと考えています。 3: ターゲットエリアの正確な位置決めと、グローバルな一貫性を備えたローカル生成。図 3 に示すように、LRL は共有エンコーダー、マスク予測ブランチ (MPB)、およびローカル変更ブランチ (LRB) で構成されます。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

一般的に、明示的なターゲット領域を達成するためにマルチタスク構造を使用します。予測、ローカルとのガイダンス修正。その中で、共有エンコーダの構造は、2 つのブランチの共同トレーニングを使用して機能を最適化し、変更ブランチのグローバルセマンティック情報とターゲットのローカル認識を向上させることができます。ほとんどの画像変換方法は、従来のエンコーダ/デコーダ構造を使用して、ターゲットの位置決めと生成を分離することなくローカル編集を直接実装するため、生成効果が制限されます (ネットワークの容量が制限されています)。タスクの分離と相互利益。ローカル変更ブランチ LRB では、空間アテンションメカニズムとフィーチャアテンションメカニズムを同時に使用して、フィーチャの完全な融合と、ターゲット領域のセマンティクスとテクスチャのキャプチャを実現する LAM (図 4) を設計しました。アブレーション実験 (図 6) は、各モジュール設計の有効性を示しています。

4.3 アダプティブブレンドピラミッドレイヤー

LRL は低解像度で実装されています。ローカルレタッチの場合、レタッチを拡張する方法細部の忠実度を高めながら結果を高解像度にできるでしょうか?これがこのパートで解決したい問題です。

4.3.1 アダプティブブレンドモジュール

##画像編集の分野では、レイヤーをブレンドする (ブレンドレイヤー) ことがよくあります。さまざまなモードで画像 (ベースレイヤー) と混合して、コントラスト強調、深め、明るくするなどのさまざまな画像編集タスクを実行するために使用されます。通常、画像とブレンドレイヤワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説が与えられると、次のように 2 つのレイヤをブレンドして画像編集結果を取得できます。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

ここで、 f は固定のピクセルごとのマッピング関数で、通常はブレンディングモードによって決まります。変換機能によって制限されるため、特定のブレンドモードや固定関数 f をさまざまな編集タスクに直接適用することは困難です。データの分散とさまざまなタスクの変換モードによりよく適応するために、画像編集で一般的に使用されるソフトライトモードを利用し、次のようにアダプティブブレンディングモジュール (ABM) を設計しました。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

はハドマール積を表します。とは学習可能なパラメータであり、ネットワーク内のすべての ABM モジュールによって使用され、 R-ABM モジュールによって共有される次のは、すべての値が 1 である定数行列を表します。

4.3.2 逆適応ブレンドモジュール

##、ハイブリッド層 B では、次のように式 3 を解き、逆適応ブレンディングモジュール (R-ABM) を構築します。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説

一般に、次のように使用します。 ABM モジュールと R-ABM モジュールは、混合層を媒介として、画像 I と結果 R の間の適応変換を実現します。低解像度の結果に対して直接畳み込みを使用する場合に比べて、アップサンプリングやその他の演算が上方に拡張されます (例: Pix2PixHD). この目標を達成するためにハイブリッドレイヤーを使用しますが、これには 2 つの利点があります: 1) ローカル修正タスクでは、ハイブリッドレイヤーは主に 2 つの画像間のローカル部分を記録します情報を変換します。軽量ネットワークにより最適化が容易になります。 2) ブレンディングレイヤーは元の画像に直接作用して最終的な修正を行い、画像自体の情報を最大限に活用することで、高度なディテールの忠実度を実現します。

ワンクリックでシミやシワを消す：DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説