ホームページ >テクノロジー周辺機器 >AI >その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

WBOY
WBOY転載
2023-10-03 18:17:061348ブラウズ

素晴らしい写真を撮るのがますます簡単になりました。

休日の旅行には写真撮影が欠かせません。しかし、景勝地で撮った写真のほとんどは、背景に何か余分なものがあるか、何かが欠けているかのどちらかで、多かれ少なかれ残念な写真になります。

「完璧な」画像を取得することは、履歴書研究者が長年努力してきた目標の 1 つです。最近、Google Research とコーネル大学の研究者が協力して、「本物の画像補完」テクノロジー、つまり画像補完のための生成モデルである RealFill を提案しました。

RealFill モデルの利点は、少数のシーン参照画像を使用してカスタマイズできることです。これらの参照画像はターゲット画像と位置合わせする必要がなく、表示に関して変更することもできます。角度、照明条件、カメラの絞り、画像スタイルなど、大きな違いがあります。パーソナライゼーションが完了すると、RealFill は、元のシーンに忠実な方法で、視覚的に魅力的なコンテンツでターゲット画像を補完できます。

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

  • # 論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2309.16668

  • # #プロジェクトページのリンク: https://realfill.github.io/
インペイント モデルとアウトペイント モデルは、画像の未知の領域に高品質で妥当な画像コンテンツを生成できるテクノロジですが、これらのモデルによって生成されるコンテンツは必然的に非現実的になります。実際のシーンのコンテキスト情報。対照的に、RealFill はそこに「あるべき」コンテンツを生成し、画像補完の結果をより現実的にします。

著者らは論文の中で、新しい画像補完問題「本物の画像補完」を定義したと指摘しました。従来の生成画像復元 (欠落領域を置き換えるコンテンツは元のシーンと一致しない可能性がある) とは異なり、実画像完成の目標は、「表示されるべきコンテンツ」を使用して、完成したコンテンツを元のシーンに可能な限り忠実に作成することです。 「そこにあるかもしれない」コンテンツでターゲット画像を完成させます。

著者らは、RealFill は、プロセスにさらに条件を追加する (つまり、参照画像を追加する) ことによって、生成画像修復モデルの表現力を拡張する最初の方法であると述べています。

RealFill は、多様で困難な一連のシナリオをカバーする新しい画像補完ベンチマークで、既存の手法を大幅に上回ります。

方法

RealFill の目標は、特定のターゲット イメージの欠落部分を補完するために少数の参照イメージを使用します。具体的には、最大 5 つの参照画像と、同じシーンを大まかにキャプチャしたターゲット画像 (ただし、レイアウトや外観が異なる場合があります) が与えられます。

研究者は、特定のシーンについて、まず、リファレンス画像とターゲット画像で事前トレーニングされた修復拡散モデルを微調整することにより、パーソナライズされた生成モデルを作成します。この微調整プロセスは、微調整モデルが良好な画像事前分布を維持するだけでなく、入力画像内のシーンの内容、照明、およびスタイルも学習するように設計されています。次に、この微調整されたモデルを使用して、標準の拡散サンプリング プロセスを通じてターゲット イメージ内の欠落領域を埋めます。 その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

実用的なアプリケーションの価値を考慮して、このモデルはより困難な問題に特別な注意を払っていることは注目に値します。制約がない場合、ターゲット イメージとリファレンス イメージは、視点、環境条件、カメラの絞り、イメージ スタイル、さらには移動するオブジェクトさえも大きく異なる場合があります。

#実験結果

左の参考画像によると、RealFill はターゲット画像は拡大 (アンクロップ) または修復 (インペイント) され、生成された結果は視覚的に魅力的であるだけでなく、基準画像とターゲット画像が視点、絞り、照明などの側面で異なる場合でも、基準画像と一致します。 、画像スタイル、オブジェクトの動きなど、大きな違いがあります。

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表#RealFill モデルの出力効果。左側に参照イ​​メージがあると、RealFill は右側の対応するターゲット イメージを拡張できます。ホワイト ボックスの内側の領域は既知のピクセルとしてネットワークに提供され、ホワイト ボックスの外側の領域は生成されます。結果は、視点、絞り、照明、画像スタイル、オブジェクトの動きなど、参照画像とターゲット画像の間に大きな違いがある場合でも、RealFill が参照画像に忠実な高品質の画像を生成できることを示しています。出典: 論文

対照実験

研究者らは、RealFill モデルを他のベースライン手法と比較しました。比較すると、RealFill は高品質の結果を生成し、シーンの忠実性と参照イメージとの一貫性の点で優れたパフォーマンスを発揮します。

ペイントバイサンプルは、高レベルのセマンティック情報しかキャプチャできない CLIP 埋め込みに依存しているため、高度なシーン忠実度を実現できません。

安定拡散修復では、一見妥当な結果が生成されますが、プロンプトの表現力が限られているため、最終的に生成される結果は参照イメージと一致しません。

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

RealFill と他の 2 つのベースライン メソッドとの比較。透明な白いマスクで覆われた領域は、ターゲット イメージの未変更の部分です。出典: realfill.github.io

##制限事項

研究者も いくつかの可能性処理速度、視点の変更を処理する機能、基礎となるモデルにとって困難な状況を処理する機能など、RealFill モデルの問題と制限について説明します。具体的には:

RealFill は入力画像に対してグラデーションベースの微調整プロセスを必要とするため、実行が比較的遅くなります。
参照イメージとターゲット イメージ間の視点の変更が非常に大きい場合、特に参照イメージが 1 つしかない場合、RealFill は 3D シーンを復元できないことがよくあります。

RealFill は主にベースの事前トレーニング済みモデルから継承した画像事前分布に依存しているため、安定した拡散モデルなど、ベース モデルにとって困難な状況には対処できません。テキストをうまく処理できません。

その真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表

最後に、著者は協力者に感謝の意を表します:

Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi に感謝します。貴重な議論とフィードバックを提供してくれた Li 、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin、Jon Barron に感謝します。また、Zeya Peng、Rundi Wu、 Shan Nan 氏 (データセットの貢献度の評価)。このプロジェクトに対するフィードバックとサポートをいただいた Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern、Nicole Brichtova に特に感謝します。

詳細については、元の論文を読み、プロジェクトのホームページにアクセスしてください

以上がその真実性は衝撃的です! Googleとコーネル大学が実写画像補完技術RealFillを発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。