ホームページ >テクノロジー周辺機器 >AI >たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

PHPzオリジナル: 2024-07-30 16:29:30593ブラウズ

たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

著者の紹介: Song Yiren: シンガポール国立大学 ShowLab の博士課程候補者であり、主な研究方向には画像とビデオの生成が含まれます。 AIセキュリティ。

Huang Shijie: シンガポール国立大学の修士 2 年生。現在、Tiamat AI でアルゴリズムエンジニアのインターンとして働いています。彼の主な研究方向はビジュアル生成です。現在、2025年秋の博士課程入学を募集しています。

最近、lvmin は最新モデル Paints-UNDO を導入しました。この AI 生成ツールは、写真に基づいてペイントプロセス全体を復元できるため、AIGC コミュニティ全体が衝撃を受けました。 Paints-UNDOのデモ。

たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

すでに 1 か月前に、NUS、SJTU、Tiamat、およびその他の機関が共同で同様のタスクに関する作品をリリースしました: ProcessPainter: シーケンスデータからペイントプロセスを学習する。 Paints-UNDO テクニカルレポートはまだリリースされていません。ProcessPainter がそれを実装する方法を見てみましょう。

論文タイトル: ProcessPainter: シーケンスデータからペイントプロセスを学ぶ

たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

論文リンク: https://arxiv.org/pdf/2406.06062

コードリンク: https://github.com /nicolaus-huang/ProcessPainter
絵画の教本を開くと、絵画の段階的な手順が表示されます。しかし、生成AIの時代では、ノイズ除去プロセスによる画像生成は、人間の画家の絵画プロセスとはまったく異なります。AIの絵画プロセスをそのまま絵画教育に使用することはできません。

この問題を解決するために、ProcessPainter は、合成データと人間のペインターのペイントビデオで時間モデルをトレーニングすることにより、拡散モデルが初めてペイントプロセスを生成できるようにします。また、テーマや画家によって絵画のプロセスは大きく異なり、作風も大きく異なります。しかし、絵画のプロセスを研究対象とした研究は現時点ではほとんどありません。論文の著者は、事前にトレーニングされたモーションモデルに基づいて、特定のアーティストの少数のペイントシーケンスで Motion LoRA をトレーニングすることで、アーティストのペイントテクニックを学習しました。

ProcessPainterのコアテクノロジーの徹底した解釈

たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

1. 時間的注意メカニズム (時間的注意)

時間的注意を使用してペイントプロセスの生成を学習することは、ProcessPainter の核となる革新です。絵画シーケンスを生成するための鍵は、シーケンス全体が同じ絵の抽象から具体への変化のプロセスであり、前後のフレームが内容と構成において一貫性があり関連性があることです。この目標を達成するために、著者らは、AnimateDiff から Unet に時間的注意モジュールを導入しました。このモジュールは各拡散層の後に配置され、フレーム間セルフアテンションメカニズムを通じてさまざまなフレームから情報を吸収し、シーケンス全体のスムーズな移行と連続性を確保します。

実験により、このトレーニング戦略によりフレーム間で一貫したペイント効果を維持できることが証明されました。ペイントプロセス生成タスクとビデオ生成タスクの違いは、ペイントプロセスの前後の変化がより激しく、最初のフレームは完成度の低いカラーブロックまたは線画であるのに対し、最後のフレームは完全なペイントであることです。、これはモデルのトレーニングに課題をもたらします。この目的を達成するために、論文の著者はまず、多数の合成データセットでタイミングモジュールを事前トレーニングし、モデルがさまざまな SBR (ストロークベースレンダリング) メソッドの段階的なペイントプロセスを学習できるようにしました。次に、数十人のアーティストのペイントプロセスデータを使用して、ペイント LoRA モデルをトレーニングしました。

2. アートワーク複製ネットワーク

絵画の練習では、作品がどのように描かれるか、そして期待される完成品の効果を達成するために半完成の絵画からどのように改良を続けるかを知りたいと考えています。。これにより、再構築と塗装プロセスの完了という 2 つの作業が行われます。どちらのタスクにも画像入力があることを考慮して、論文の著者はアートワーク複製ネットワークを提案しました。

このネットワーク設計は、任意のフレームの画像入力を処理し、描画プロセスの生成を柔軟に制御できます。以前の制御可能な生成方法と同様に、この論文の著者は、生成された結果内の特定のフレームを参照画像と一致するように制御する ControlNet のバリアントを導入しました。

3. 合成データセットとトレーニング戦略

実際の塗装プロセスデータは入手が難しいため、大規模なトレーニングをサポートするには量が十分ではありません。この目的を達成するために、論文の著者は事前トレーニング用の合成データセットを構築しました。

3 つの合成データメソッドが具体的に使用されます:

1. ペイントの学習を使用して、ストロークをカスタマイズします。ペイントによりペイントシーケンスが生成されます。油絵風と中国画風。

3. 上記のSBR（ストロークベースペイント）手法は、対象画像を粗いものから細かいものまで当てはめていくもので、既にペイントされている部分を上書きして修正することができます。中国の絵画や彫刻は素材の制約上、完成したパーツに大幅な修正ができず、別の領域で塗装工程を完了します。この目的を達成するために、論文の著者は SAM (segment anything) と顕著性検出手法を使用して、空白のキャンバスからサブ領域にコンテンツを 1 つずつ追加し、最初に顕著なオブジェクトを描画し、次にそれらを背景に徐々に拡散させて合成します。塗装工程の動画です。

トレーニングフェーズでは、論文の著者はまず合成データセットでモーションモデルを事前トレーニングし、次にモーションモデルのパラメータをフリーズしてアートワークレプリケーションネットワークをトレーニングしました。ペイント LoRA モデルを微調整する場合、最初のステップは、中途半端なペイントトレーニングセットがモデルの生成品質を損なうことを防ぐために、最終フレームのみを使用して空間アテンション LoRA を微調整することです。

その後、論文の著者は空間的注意 LoRA のパラメータを凍結し、完全なペイントシーケンスを使用して時間的注意 LoRA を微調整しました。推論段階では、テキストからペイントシーケンスを生成するときに、ProcessPainter はアートワークレプリケーションネットワークを使用しません。ペイントプロセスの再構築と完了のタスクでは、ProcessPainter はアートワークレプリケーションネットワークを使用して、フレーム固有の参照入力を受け取ります。生成されたペイントシーケンス内のフレームが入力イメージとできるだけ一致するようにするために、ProcessPainter は DDIM 反転手法を使用して参照イメージの初期ノイズを取得し、UNet 内の特定のフレームの初期ノイズを置き換えます。

ProcessPainter エフェクトの表示

合成データセットでトレーニングされた ProcessPainter ベースモデルは、プロセス内でスタイルの違いを持つペイントシーケンスを生成できます。

少数の人間の画家のペイントシーケンスで Motion Lora を個別にトレーニングすることにより、ProcessPainter は特定のアーティストの絵画プロセスとスタイルを学習できます。たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

参照画像を指定すると、ProcessPainter は完成したアートワークをペイントステップに逆に分解したり、半完成品から完全なペイントを推測したりできます。

たった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。

これらの技術コンポーネントを組み合わせることで、ProcessPainter はテキストからペイントプロセスを生成するだけでなく、参照画像をペイントシーケンスに変換したり、未完成のペイントを完成したりすることもできます。これは間違いなく、美術教育に新しいツールを提供するものであり、AIGC コミュニティに新しい道を切り開くものでもあります。おそらく近い将来、人間の画家の絵を描くプロセスをシミュレートするさまざまな Lora が Civitai に登場するでしょう。

詳細については、原文を読むか、Github プロジェクトのホームページをご覧ください。

以上がたった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

对象 github 算法 https AIGC

声明：

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

前の記事：NVIDIA、人型ロボットの開発を加速する新しいサービス、モデル、コンピューティングプラットフォームを発表次の記事：NVIDIA、人型ロボットの開発を加速する新しいサービス、モデル、コンピューティングプラットフォームを発表

続きを見る