その真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表-AI-php.cn

ホームページ

テクノロジー周辺機器

その真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 03, 2023 pm 06:17 PM

業界authentic image completion

素晴らしい写真を撮るのがますます簡単になりました。

休日の旅行には写真撮影が欠かせません。しかし、景勝地で撮った写真のほとんどは、背景に何か余分なものがあるか、何かが欠けているかのどちらかで、多かれ少なかれ残念な写真になります。

「完璧な」画像を取得することは、履歴書研究者が長年努力してきた目標の 1 つです。最近、Google Research とコーネル大学の研究者が協力して、「本物の画像補完」テクノロジー、つまり画像補完のための生成モデルである RealFill を提案しました。

RealFill モデルの利点は、少数のシーン参照画像を使用してカスタマイズできることです。これらの参照画像はターゲット画像と位置合わせする必要がなく、表示に関して変更することもできます。角度、照明条件、カメラの絞り、画像スタイルなど、大きな違いがあります。パーソナライゼーションが完了すると、RealFill は、元のシーンに忠実な方法で、視覚的に魅力的なコンテンツでターゲット画像を補完できます。

その真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表

# 論文を表示するには、次のリンクをクリックしてください: https://arxiv.org/abs/2309.16668

インペイントモデルとアウトペイントモデルは、画像の未知の領域に高品質で妥当な画像コンテンツを生成できるテクノロジですが、これらのモデルによって生成されるコンテンツは必然的に非現実的になります。実際のシーンのコンテキスト情報。対照的に、RealFill はそこに「あるべき」コンテンツを生成し、画像補完の結果をより現実的にします。

著者らは論文の中で、新しい画像補完問題「本物の画像補完」を定義したと指摘しました。従来の生成画像復元 (欠落領域を置き換えるコンテンツは元のシーンと一致しない可能性がある) とは異なり、実画像完成の目標は、「表示されるべきコンテンツ」を使用して、完成したコンテンツを元のシーンに可能な限り忠実に作成することです。「そこにあるかもしれない」コンテンツでターゲット画像を完成させます。

著者らは、RealFill は、プロセスにさらに条件を追加する (つまり、参照画像を追加する) ことによって、生成画像修復モデルの表現力を拡張する最初の方法であると述べています。

RealFill は、多様で困難な一連のシナリオをカバーする新しい画像補完ベンチマークで、既存の手法を大幅に上回ります。

方法

RealFill の目標は、特定のターゲットイメージの欠落部分を補完するために少数の参照イメージを使用します。具体的には、最大 5 つの参照画像と、同じシーンを大まかにキャプチャしたターゲット画像 (ただし、レイアウトや外観が異なる場合があります) が与えられます。

研究者は、特定のシーンについて、まず、リファレンス画像とターゲット画像で事前トレーニングされた修復拡散モデルを微調整することにより、パーソナライズされた生成モデルを作成します。この微調整プロセスは、微調整モデルが良好な画像事前分布を維持するだけでなく、入力画像内のシーンの内容、照明、およびスタイルも学習するように設計されています。次に、この微調整されたモデルを使用して、標準の拡散サンプリングプロセスを通じてターゲットイメージ内の欠落領域を埋めます。

その真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表

実用的なアプリケーションの価値を考慮して、このモデルはより困難な問題に特別な注意を払っていることは注目に値します。制約がない場合、ターゲットイメージとリファレンスイメージは、視点、環境条件、カメラの絞り、イメージスタイル、さらには移動するオブジェクトさえも大きく異なる場合があります。

#実験結果

左の参考画像によると、RealFill はターゲット画像は拡大 (アンクロップ) または修復 (インペイント) され、生成された結果は視覚的に魅力的であるだけでなく、基準画像とターゲット画像が視点、絞り、照明などの側面で異なる場合でも、基準画像と一致します。、画像スタイル、オブジェクトの動きなど、大きな違いがあります。

その真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表

その真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表 #RealFill モデルの出力効果。左側に参照イメージがあると、RealFill は右側の対応するターゲットイメージを拡張できます。ホワイトボックスの内側の領域は既知のピクセルとしてネットワークに提供され、ホワイトボックスの外側の領域は生成されます。結果は、視点、絞り、照明、画像スタイル、オブジェクトの動きなど、参照画像とターゲット画像の間に大きな違いがある場合でも、RealFill が参照画像に忠実な高品質の画像を生成できることを示しています。出典: 論文

対照実験

研究者らは、RealFill モデルを他のベースライン手法と比較しました。比較すると、RealFill は高品質の結果を生成し、シーンの忠実性と参照イメージとの一貫性の点で優れたパフォーマンスを発揮します。

ペイントバイサンプルは、高レベルのセマンティック情報しかキャプチャできない CLIP 埋め込みに依存しているため、高度なシーン忠実度を実現できません。

安定拡散修復では、一見妥当な結果が生成されますが、プロンプトの表現力が限られているため、最終的に生成される結果は参照イメージと一致しません。

^{RealFill と他の 2 つのベースラインメソッドとの比較。透明な白いマスクで覆われた領域は、ターゲットイメージの未変更の部分です。出典: realfill.github.io}

##制限事項

研究者もいくつかの可能性処理速度、視点の変更を処理する機能、基礎となるモデルにとって困難な状況を処理する機能など、RealFill モデルの問題と制限について説明します。具体的には:

RealFill は入力画像に対してグラデーションベースの微調整プロセスを必要とするため、実行が比較的遅くなります。
参照イメージとターゲットイメージ間の視点の変更が非常に大きい場合、特に参照イメージが 1 つしかない場合、RealFill は 3D シーンを復元できないことがよくあります。

RealFill は主にベースの事前トレーニング済みモデルから継承した画像事前分布に依存しているため、安定した拡散モデルなど、ベースモデルにとって困難な状況には対処できません。テキストをうまく処理できません。
最後に、著者は協力者に感謝の意を表します:
Rundi Wu、Qianqian Wang、Viraj Shah、Ethan Weber、Zhengqi に感謝します。貴重な議論とフィードバックを提供してくれた Li 、Kyle Genova、Boyang Deng、Maya Goldenberg、Noah Snavely、Ben Poole、Ben Mildenhall、Alex Rav-Acha、Pratul Srinivasan、Dor Verbin、Jon Barron に感謝します。また、Zeya Peng、Rundi Wu、 Shan Nan 氏 (データセットの貢献度の評価)。このプロジェクトに対するフィードバックとサポートをいただいた Jason Baldridge、Kihyuk Sohn、Kathy Meier-Hellstern、Nicole Brichtova に特に感謝します。
詳細については、元の論文を読み、プロジェクトのホームページにアクセスしてください

以上がその真実性は衝撃的です！ Googleとコーネル大学が実写画像補完技術RealFillを発表の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

踊りましょう：私たちの人間のニューラルネットを微調整するための構造化された動きApr 27, 2025 am 11:09 AM

科学者は、彼らの機能を理解するために、人間とより単純なニューラルネットワーク（C. elegansのものと同様）を広く研究してきました。ただし、重要な疑問が生じます。新しいAIと一緒に効果的に作業するために独自のニューラルネットワークをどのように適応させるのか

新しいGoogleリークは、Gemini AIのサブスクリプションの変更を明らかにしますApr 27, 2025 am 11:08 AM

GoogleのGemini Advanced：Horizonの新しいサブスクリプションティア現在、Gemini Advancedにアクセスするには、1か月あたり19.99ドルのGoogle One AIプレミアムプランが必要です。ただし、Android Authorityのレポートは、今後の変更を示唆しています。最新のGoogle p

データ分析の加速がAIの隠されたボトルネックをどのように解決しているかApr 27, 2025 am 11:07 AM

高度なAI機能を取り巻く誇大宣伝にもかかわらず、エンタープライズAIの展開内に大きな課題が潜んでいます：データ処理ボトルネック。 CEOがAIの進歩を祝う間、エンジニアはクエリの遅い時間、過負荷のパイプライン、

MarkitDown MCPは、任意のドキュメントをマークダウンに変換できます！Apr 27, 2025 am 09:47 AM

ドキュメントの取り扱いは、AIプロジェクトでファイルを開くだけでなく、カオスを明確に変えることです。 PDF、PowerPoint、Wordなどのドキュメントは、あらゆる形状とサイズでワークフローをフラッシュします。構造化された取得

建物のエージェントにGoogle ADKを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:42 AM

Googleのエージェント開発キット（ADK）のパワーを活用して、実際の機能を備えたインテリジェントエージェントを作成します。このチュートリアルは、ADKを使用して会話エージェントを構築し、GeminiやGPTなどのさまざまな言語モデルをサポートすることをガイドします。 w

効果的な問題解決のためにLLMを介したSLMの使用 - 分析VidhyaApr 27, 2025 am 09:27 AM

まとめ： Small Language Model（SLM）は、効率のために設計されています。それらは、リソース不足、リアルタイム、プライバシーに敏感な環境の大手言語モデル（LLM）よりも優れています。特にドメインの特異性、制御可能性、解釈可能性が一般的な知識や創造性よりも重要である場合、フォーカスベースのタスクに最適です。 SLMはLLMSの代替品ではありませんが、精度、速度、費用対効果が重要な場合に理想的です。テクノロジーは、より少ないリソースでより多くを達成するのに役立ちます。それは常にドライバーではなく、プロモーターでした。蒸気エンジンの時代からインターネットバブル時代まで、テクノロジーの力は、問題の解決に役立つ範囲にあります。人工知能（AI）および最近では生成AIも例外ではありません

コンピュータービジョンタスクにGoogle Geminiモデルを使用する方法は？ - 分析VidhyaApr 27, 2025 am 09:26 AM

コンピュータービジョンのためのGoogleGeminiの力を活用：包括的なガイド大手AIチャットボットであるGoogle Geminiは、その機能を会話を超えて拡張して、強力なコンピュータービジョン機能を網羅しています。このガイドの利用方法については、

Gemini 2.0 Flash vs O4-Mini：GoogleはOpenaiよりもうまくやることができますか？Apr 27, 2025 am 09:20 AM

2025年のAIランドスケープは、GoogleのGemini 2.0 FlashとOpenaiのO4-Miniの到着とともに感動的です。数週間離れたこれらの最先端のモデルは、同等の高度な機能と印象的なベンチマークスコアを誇っています。この詳細な比較

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 中国語版

中国語版、とても使いやすい

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、