ホームページ >テクノロジー周辺機器 >AI >北京大学とスタンフォード大学による新しいオープンソース フレームワークである Pika は、理解力を高めるために LLM を使用することで、複雑なプロンプト ワードの普及モデルをより深く理解できるようにします。
ピカ北京大学とスタンフォード大学が提携、オープンソース最新のテキスト画像生成/編集フレームワーク!
追加のトレーニングを行わなくても、普及モデルはより強力なプロンプト単語理解機能を備えることができます。
非常に長く複雑なプロンプトワードに直面しても、精度はより高く、詳細はより適切に制御され、生成された画像はより自然になります。 最強の画像生成モデルDall・E 3やSDXLを上回る効果。 たとえば、写真の左右に氷と炎の 2 つの層があり、左側に氷山、右側に火山がある必要があります。 SDXL はプロンプト ワードの要件をまったく満たしておらず、Dall·E 3 は火山の詳細を生成しませんでした。 は、プロンプト単語のペアを通じて画像の二次編集を生成することもできます。 これは、インターネット上で激しい議論を巻き起こしたテキスト画像生成/編集フレームワークRPG (Recaption, Plan and Generate) です。
北京大学、スタンフォード大学、ピカが共同開発しました。著者には、北京大学コンピューターサイエンス学部のCui Bin教授、Pikaの共同創設者兼CTOのChenlin Meng氏などが名を連ねています。 現在のフレームワーク コードはオープン ソースであり、さまざまなマルチモーダル大規模モデル (MiniGPT-4 など) および拡散モデル バックボーン ネットワーク (ControlNet など) と互換性があります。 マルチモーダル大規模モデルを使用して強化する長い間、拡散モデルは複雑なプロンプトワードを理解するのが比較的苦手でした。 既存の改善方法の中には、最終結果が不十分であるか、追加のトレーニングが必要なものがあります。 そこで研究チームは、マルチモーダル大規模モデルの理解能力を利用して、拡散モデルの組み合わせと制御性を強化しました。 フレームワークの名前からわかるように、モデルを「再記述、計画、生成」することができます。 この方法の中核となる戦略には 3 つの側面があります:1. マルチモーダル再キャプション : 大規模なモデルを使用する 複雑なテキスト プロンプトを次のように分解する複数のサブプロンプトを作成し、各サブプロンプトをより詳細に再説明して、プロンプトの単語を理解する拡散モデルの能力を向上させます。
2. 思考連鎖計画 (思考連鎖計画): マルチモーダル大規模モデルの思考連鎖推論機能を使用して、画像空間を分割します。各サブ領域は異なるサブキューと一致し、複雑な生成タスクを複数の単純な生成タスクに分割します。
3. 補完的な地域拡散: 空間を分割した後、重複しない領域はサブプロンプトに基づいて画像を生成し、スプライシングを実行します。
最後に、プロンプトワードの要件をよりよく満たす画像が生成されます。
#RPG フレームワークは、姿勢、奥行き、その他の情報を画像生成に使用することもできます。
ControlNet と比較して、RPG は入力プロンプトの単語をさらに分割できます。
ユーザーの声: 明るい部屋に、シャンパン色の長袖のフォーマルドレスを着た美しい黒髪の少女が目を閉じて立っていた。ピンクのバラが入った繊細な青い花瓶が部屋の左側に置かれ、右側には鮮やかな白いバラが数本置かれていました。
基本的なプロンプトワード: 美しい女の子が明るい部屋に立っています。
エリア 0: ピンクのバラで満たされた繊細な青い花瓶
エリア 1: 目を閉じたシャンパン色の長袖のフォーマル ドレスを着た黒髪の美しい少女。
エリア 2: 鮮やかな白いバラ。
は、閉ループ画像の生成と編集も実現できます。
実験的な比較に基づくと、RPG は、色、形状、スペース、テキストの精度などの点で他の画像生成モデルを上回っています。
この研究には、北京大学の Ling Yang 氏と Zhaochen Yu 氏の 2 人の共著者がいます。
参加著者には、AI スタートアップ Pika の共同創設者兼 CTO である Chenlin Meng 氏が含まれます。
彼女はスタンフォード大学でコンピューター サイエンスの博士号を取得しており、コンピューター ビジョンと 3D ビジョンに関する豊富な学術経験を持っており、ノイズ除去拡散暗黙モデル (DDIM) の論文に参加しており、現在 1 つの記事で 1,700 件の引用が行われています。生成 AI 関連の研究論文は、ICLR、NeurIPS、CVPR、ICML などのトップカンファレンスで数多く発表されており、その多くが Oral に選出されています。
昨年、Pika は AI 動画生成製品 Pika 1.0 で瞬く間にヒット商品となりましたが、スタンフォード大学の中国人女性博士 2 名による設立の背景により、さらに注目を集めました。
△左がGuo Wenjing (Pika CEO)、右がChenlin Meng
副学部長も研究に参加北京大学コンピューターサイエンス学科 Cui Bin 教授、彼はデータ科学技術研究所の所長でもあります。
さらに、スタンフォード AI 研究所の Minkai Xu 博士とスタンフォード大学助教授の Stefano Ermon が共同でこの研究に参加しました。
ペーパーアドレス: https://arxiv.org/abs/2401.11708
コードアドレス: https://github.com/YangLing0818/RPG-拡散マスター
以上が北京大学とスタンフォード大学による新しいオープンソース フレームワークである Pika は、理解力を高めるために LLM を使用することで、複雑なプロンプト ワードの普及モデルをより深く理解できるようにします。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。