AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
著者の紹介: Song Yiren: シンガポール国立大学 ShowLab の博士課程候補者であり、主な研究方向には画像とビデオの生成が含まれます。 AIセキュリティ。
Huang Shijie: シンガポール国立大学の修士 2 年生。現在、Tiamat AI でアルゴリズム エンジニアのインターンとして働いています。彼の主な研究方向はビジュアル生成です。現在、2025年秋の博士課程入学を募集しています。
最近、lvmin は最新モデル Paints-UNDO を導入しました。この AI 生成ツールは、写真に基づいてペイント プロセス全体を復元できるため、AIGC コミュニティ全体が衝撃を受けました。 Paints-UNDOのデモ。 すでに 1 か月前に、NUS、SJTU、Tiamat、およびその他の機関が共同で同様のタスクに関する作品をリリースしました: ProcessPainter: シーケンス データからペイント プロセスを学習する。 Paints-UNDO テクニカル レポートはまだリリースされていません。ProcessPainter がそれを実装する方法を見てみましょう。
論文タイトル: ProcessPainter: シーケンスデータからペイントプロセスを学ぶ論文リンク: https://arxiv.org/pdf/2406.06062
-
コードリンク: https://github.com /nicolaus-huang/ProcessPainter
- 絵画の教本を開くと、絵画の段階的な手順が表示されます。しかし、生成AIの時代では、ノイズ除去プロセスによる画像生成は、人間の画家の絵画プロセスとはまったく異なります。AIの絵画プロセスをそのまま絵画教育に使用することはできません。
この問題を解決するために、ProcessPainter は、合成データと人間のペインターのペイント ビデオで時間モデルをトレーニングすることにより、拡散モデルが初めてペイント プロセスを生成できるようにします。また、テーマや画家によって絵画のプロセスは大きく異なり、作風も大きく異なります。しかし、絵画のプロセスを研究対象とした研究は現時点ではほとんどありません。論文の著者は、事前にトレーニングされたモーション モデルに基づいて、特定のアーティストの少数のペイント シーケンスで Motion LoRA をトレーニングすることで、アーティストのペイント テクニックを学習しました。 ProcessPainterのコアテクノロジーの徹底した解釈
時間的注意を使用してペイント プロセスの生成を学習することは、ProcessPainter の核となる革新です。絵画シーケンスを生成するための鍵は、シーケンス全体が同じ絵の抽象から具体への変化のプロセスであり、前後のフレームが内容と構成において一貫性があり関連性があることです。この目標を達成するために、著者らは、AnimateDiff から Unet に時間的注意モジュールを導入しました。このモジュールは各拡散層の後に配置され、フレーム間セルフ アテンション メカニズムを通じてさまざまなフレームから情報を吸収し、シーケンス全体のスムーズな移行と連続性を確保します。 実験により、このトレーニング戦略によりフレーム間で一貫したペイント効果を維持できることが証明されました。ペイントプロセス生成タスクとビデオ生成タスクの違いは、ペイントプロセスの前後の変化がより激しく、最初のフレームは完成度の低いカラーブロックまたは線画であるのに対し、最後のフレームは完全なペイントであることです。 、これはモデルのトレーニングに課題をもたらします。この目的を達成するために、論文の著者はまず、多数の合成データ セットでタイミング モジュールを事前トレーニングし、モデルがさまざまな SBR (ストローク ベース レンダリング) メソッドの段階的なペイント プロセスを学習できるようにしました。次に、数十人のアーティストのペイント プロセス データを使用して、ペイント LoRA モデルをトレーニングしました。 絵画の練習では、作品がどのように描かれるか、そして期待される完成品の効果を達成するために半完成の絵画からどのように改良を続けるかを知りたいと考えています。 。これにより、再構築と塗装プロセスの完了という 2 つの作業が行われます。どちらのタスクにも画像入力があることを考慮して、論文の著者はアートワーク複製ネットワークを提案しました。 このネットワーク設計は、任意のフレームの画像入力を処理し、描画プロセスの生成を柔軟に制御できます。以前の制御可能な生成方法と同様に、この論文の著者は、生成された結果内の特定のフレームを参照画像と一致するように制御する ControlNet のバリアントを導入しました。 実際の塗装プロセスデータは入手が難しいため、大規模なトレーニングをサポートするには量が十分ではありません。この目的を達成するために、論文の著者は事前トレーニング用の合成データセットを構築しました。 3 つの合成データ メソッドが具体的に使用されます: 1. ペイントの学習を使用して、ストロークをカスタマイズします。ペイントによりペイント シーケンスが生成されます。油絵風と中国画風。
3. 上記のSBR(ストロークベースペイント)手法は、対象画像を粗いものから細かいものまで当てはめていくもので、既にペイントされている部分を上書きして修正することができます。中国の絵画や彫刻は素材の制約上、完成したパーツに大幅な修正ができず、別の領域で塗装工程を完了します。この目的を達成するために、論文の著者は SAM (segment anything) と顕著性検出手法を使用して、空白のキャンバスからサブ領域にコンテンツを 1 つずつ追加し、最初に顕著なオブジェクトを描画し、次にそれらを背景に徐々に拡散させて合成します。塗装工程の動画です。
トレーニングフェーズでは、論文の著者はまず合成データセットでモーションモデルを事前トレーニングし、次にモーションモデルのパラメータをフリーズしてアートワークレプリケーションネットワークをトレーニングしました。ペイント LoRA モデルを微調整する場合、最初のステップは、中途半端なペイント トレーニング セットがモデルの生成品質を損なうことを防ぐために、最終フレームのみを使用して空間アテンション LoRA を微調整することです。
その後、論文の著者は空間的注意 LoRA のパラメータを凍結し、完全なペイント シーケンスを使用して時間的注意 LoRA を微調整しました。推論段階では、テキストからペイント シーケンスを生成するときに、ProcessPainter はアートワーク レプリケーション ネットワークを使用しません。ペイント プロセスの再構築と完了のタスクでは、ProcessPainter はアートワーク レプリケーション ネットワークを使用して、フレーム固有の参照入力を受け取ります。生成されたペイント シーケンス内のフレームが入力イメージとできるだけ一致するようにするために、ProcessPainter は DDIM 反転手法を使用して参照イメージの初期ノイズを取得し、UNet 内の特定のフレームの初期ノイズを置き換えます。
合成データセットでトレーニングされた ProcessPainter ベース モデルは、プロセス内でスタイルの違いを持つペイント シーケンスを生成できます。 少数の人間の画家のペイント シーケンスで Motion Lora を個別にトレーニングすることにより、ProcessPainter は特定のアーティストの絵画プロセスとスタイルを学習できます。
参照画像を指定すると、ProcessPainter は完成したアートワークをペイント ステップに逆に分解したり、半完成品から完全なペイントを推測したりできます。
これらの技術コンポーネントを組み合わせることで、ProcessPainter はテキストからペイント プロセスを生成するだけでなく、参照画像をペイント シーケンスに変換したり、未完成のペイントを完成したりすることもできます。これは間違いなく、美術教育に新しいツールを提供するものであり、AIGC コミュニティに新しい道を切り開くものでもあります。おそらく近い将来、人間の画家の絵を描くプロセスをシミュレートするさまざまな Lora が Civitai に登場するでしょう。 詳細については、原文を読むか、Github プロジェクトのホームページをご覧ください。 以上がたった 1 枚の絵でペイントプロセスを「復元」できるこのペーパーは、人気の Paints-UNDO よりも早く実現されました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。