ホームページ >テクノロジー周辺機器 >AI >ワンクリックでシミやシワを消す:DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説
デジタル文化産業の活発な発展に伴い、人工知能技術は画像編集や美化の分野で広く使用され始めています。その中でも、ポートレートの肌の美化は間違いなく最も広く使用され、最も需要のある技術の 1 つです。従来の美容アルゴリズムは、フィルターベースの画像編集テクノロジーを使用して、自動化された肌の再表面化とシミの除去効果を実現しており、ソーシャルネットワーキング、ライブブロードキャスト、その他のシナリオで広く使用されてきました。
しかし、敷居の高いプロの写真業界では、画像解像度と品質基準に対する高い要件があるため、依然として手動のレタッチャーがポートレートの美しさのレタッチにおいて主な生産力となっています。肌のレベリング、シミ取り、美白などの一連の作業。通常、プロのレタッチャーによる高精細ポートレートの美肌処理の平均処理時間は1~2分ですが、広告、映画、テレビなど、より高い精度が要求される分野ではさらに処理時間が長くなります。
インタラクティブ エンターテイメント シーンでの肌のリサーフェシングと比較して、広告レベルおよびスタジオ レベルの洗練された肌の美化は、アルゴリズムに対してより高い要件と課題をもたらします。一方で、ニキビ、ニキビ跡、そばかす、不均一な肌の色調など、シミにはさまざまな種類があり、アルゴリズムはさまざまなシミを適応的に処理する必要がありますが、一方で、シミを除去する過程で、肌の質感が変化します。肌はできるだけ保存し、質感を保ち、高精度の肌修正を実現する必要があります。最後に重要なことですが、写真機材の継続的な反復により、プロの写真撮影で一般的に使用される画像解像度は 4K、さらには 8K に達しています。アルゴリズムの処理効率に大きな課題をもたらします。
そこで、プロレベルのインテリジェントな美肌の実現を出発点として、高精細画像向けの超微細ローカル画像レタッチアルゴリズムABPNを開発しました。衣類のしわ取り作業などへの応用も実現されています。
#3.1 伝統美アルゴリズム
#伝統的な美容アルゴリズムの核心は、肌領域のピクセルをより滑らかにし、傷の目立ちを減らし、それによって肌をより滑らかに見せることです。一般的に、既存の美化アルゴリズムは、1) 画像フィルタリング アルゴリズム、2) 画像融合、3) 鮮明化の 3 つのステップに分割できます。全体的なプロセスは次のとおりです。
画像のエッジを保持しながら肌の領域を滑らかにするために、従来の美容アルゴリズムではまず、エッジ保持フィルター (バイラテラル フィルター、ガイド付きフィルターなど) を使用して画像を処理します。エッジ保存フィルタは、一般的に使用される平均値フィルタやガウスフィルタとは異なり、異なる領域の画素値の変化を考慮し、画素の変化が大きいエッジ部分と変化の大きい中央領域の画素に異なる重みを採用します。緩やかな変化により、画像のエッジを実現します。次に、背景領域に影響を与えないように、通常はセグメンテーション検出アルゴリズムを使用して肌領域を特定し、元の画像と平滑化された画像の融合をガイドします。最後に、シャープニングにより、エッジの顕著さと感覚の明瞭さをさらに高めることができます。次の図は、現在の従来の美容アルゴリズムの効果を示しています。
##元の画像は unsplash [31]## から取得しています。 ##効果の観点から見ると、従来の美容アルゴリズムには 2 つの大きな問題があります。 1) 欠陥の処理が非適応的であり、さまざまなタイプの欠陥を適切に処理できない。 2)スムージング処理により肌のキメや質感が失われます。これらの問題は、高解像度の画像で特に顕著です。
3.2 既存の深層学習アルゴリズム
さまざまな皮膚領域やさまざまな欠陥の適応的な修正を実現するために、データ駆動型の深層学習アルゴリズムの方が優れたソリューションであるようです。タスクの関連性を考慮して、画像から画像への変換、写真レタッチ、画像修復、および高解像度画像編集という 4 つの既存の方法の、肌を美しくするタスクへの適用可能性について議論および比較しました。
画像から画像への変換タスクは最初に pix2pix [1 ] によって開始されました。これは、多数のコンピューター ビジョン タスクをピクセル間の予測タスクに要約し、そのような問題を解決するための条件付き敵対的生成ネットワークに基づく一般的なフレームワークを提案しています。 pix2pix [1] に基づいて、画像変換問題を解決するために、ペア画像を使用する方法 [2, 3, 4, 5] や、ペアになっていない画像を使用する方法 [6,7,8,9] など、さまざまな方法が提案されています。一部の研究は、特定の画像変換タスク (セマンティック画像合成 [2、3、5]、スタイル転送など [9、10、11、12] など) に焦点を当てており、印象的な結果を達成しています。ただし、上記の画像変換のほとんどは、画像から画像への全体的な変換に主に焦点を当てており、局所領域への注意が欠けているため、肌の美化タスクにおけるパフォーマンスが制限されます。
3.2.4 高解像度画像編集
アダプティブ ブレンディング ピラミッドに基づくローカル レタッチ フレームワーク
4.1 全体的なネットワーク構造
上の図に示すように、ネットワーク構造は主に、コンテキスト認識ローカル変更レイヤー (LRL) と適応ブレンディング ピラミッド レイヤー (BPL) の 2 つの部分で構成されます。 LRL の目的は、グローバル コンテキスト情報とローカル テクスチャ情報を十分に考慮して、ダウンサンプリングされた低解像度画像を局所的に変更し、低解像度変更結果画像を生成することです。さらに、BPL は、LRL で生成された低解像度の結果を高解像度の結果に徐々にアップスケールするために使用されます。その中で、適応ブレンディング モジュール (ABM) とその逆モジュール (R-ABM) を設計し、中間ブレンディング層 Bi を使用して、元の画像と結果画像の間の適応変換と上方拡張を実現し、強力なスケーラビリティを示します。細部まで忠実な機能。顔の変更と服装の変更の 2 つのデータセットで多数の実験を行った結果、私たちの方法が有効性と効率の点で既存の方法よりも大幅に優れていることがわかりました。私たちのモデルは、1 枚のカード P100 上で 4K 超高解像度画像のリアルタイム推論を実現していることは言及する価値があります。以下では、LRL、BPL、ネットワークトレーニング損失をそれぞれ紹介します。
4.2 コンテキスト認識型ローカル レタッチ レイヤー
LRL では、パートで述べた 2 つの課題を解決したいと考えています。 3: ターゲットエリアの正確な位置決めと、グローバルな一貫性を備えたローカル生成。図 3 に示すように、LRL は共有エンコーダー、マスク予測ブランチ (MPB)、およびローカル変更ブランチ (LRB) で構成されます。
一般的に、明示的なターゲット領域を達成するためにマルチタスク構造を使用します。 予測、ローカルとのガイダンス修正。その中で、共有エンコーダの構造は、2 つのブランチの共同トレーニングを使用して機能を最適化し、変更ブランチのグローバル セマンティック情報とターゲットのローカル認識を向上させることができます。ほとんどの画像変換方法は、従来のエンコーダ/デコーダ構造を使用して、ターゲットの位置決めと生成を分離することなくローカル編集を直接実装するため、生成効果が制限されます (ネットワークの容量が制限されています)。タスクの分離と相互利益。ローカル変更ブランチ LRB では、空間アテンション メカニズムとフィーチャ アテンション メカニズムを同時に使用して、フィーチャの完全な融合と、ターゲット領域のセマンティクスとテクスチャのキャプチャを実現する LAM (図 4) を設計しました。アブレーション実験 (図 6) は、各モジュール設計の有効性を示しています。
4.3 アダプティブ ブレンド ピラミッド レイヤー
LRL は低解像度で実装されています。ローカル レタッチの場合、レタッチを拡張する方法細部の忠実度を高めながら結果を高解像度にできるでしょうか?これがこのパートで解決したい問題です。
##画像編集の分野では、レイヤーをブレンドする (ブレンド レイヤー) ことがよくあります。さまざまなモードで画像 (ベースレイヤー) と混合して、コントラスト強調、深め、明るくするなどのさまざまな画像編集タスクを実行するために使用されます。通常、画像 とブレンド レイヤ が与えられると、次のように 2 つのレイヤをブレンドして画像編集結果 を取得できます。
ここで、 f は固定のピクセルごとのマッピング関数で、通常はブレンディング モードによって決まります。変換機能によって制限されるため、特定のブレンド モードや固定関数 f をさまざまな編集タスクに直接適用することは困難です。データの分散とさまざまなタスクの変換モードによりよく適応するために、画像編集で一般的に使用されるソフト ライト モードを利用し、次のようにアダプティブ ブレンディング モジュール (ABM) を設計しました。
はハドマール積を表します。 と は学習可能なパラメータであり、ネットワーク内のすべての ABM モジュールによって使用され、 R-ABM モジュールによって共有される次の は、すべての値が 1 である定数行列を表します。
##、ハイブリッド層 B では、次のように式 3 を解き、逆適応ブレンディング モジュール (R-ABM) を構築します。
一般に、次のように使用します。 ABM モジュールと R-ABM モジュールは、混合層を媒介として、画像 I と結果 R の間の適応変換を実現します。低解像度の結果に対して直接畳み込みを使用する場合に比べて、アップサンプリングやその他の演算が上方に拡張されます (例: Pix2PixHD). この目標を達成するためにハイブリッド レイヤーを使用しますが、これには 2 つの利点があります: 1) ローカル修正タスクでは、ハイブリッド レイヤーは主に 2 つの画像間のローカル部分を記録します 情報を変換します。軽量ネットワークにより最適化が容易になります。 2) ブレンディング レイヤーは元の画像に直接作用して最終的な修正を行い、画像自体の情報を最大限に活用することで、高度なディテールの忠実度を実現します。
実際には、アダプティブ ハイブリッド モジュールには多くの代替機能や戦略があり、この論文では設計の動機とその他のソリューションについて説明します。図 7 は、我々の方法と他のハイブリッド方法との間のアブレーションの比較を示しています。
#4.3.3 リファイニングモジュール
#4.4 損失関数
#実験結果##5.1 SOTA 手法との比較
5.2 アブレーション実験
##5.3 走行速度と記憶力消費量
#効果表示
#美肌効果表示:
##unsplash からの元の画像 [31]
#元の画像は顔データ セット FFHQ [32]
から取得されます。従来の美容アルゴリズムと比較して、私たちが提案したローカルレタッチフレームワークは、肌の質感と質感を完全に保持しながら肌の欠陥を除去し、繊細でインテリジェントな肌の質感の最適化を実現していることがわかります。さらに、この方法を衣類のしわ取りの分野に拡張し、次のような良好な結果を達成しました。
以上がワンクリックでシミやシワを消す:DAMOアカデミーの高精細ポートレート肌美人モデルABPNの徹底解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。