検索
ホームページテクノロジー周辺機器AIAI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現


  • 論文アドレス: https://arxiv.org/pdf/2302.09778v2.pdf
  • #プロジェクトアドレス: https://github.com/damo-vilab/composer
近年最近では、ビッグデータ上で学習された大規模な生成モデルは、優れた画像合成が可能ですが、制御性に限界があります。制御可能な画像生成の鍵は、条件だけでなく、さらに重要なことに、構成性に依存します。後者は、膨大な数の潜在的な組み合わせを導入することで制御空間を指数関数的に拡張できます (たとえば、それぞれ 8 つの表現を持つ 100 枚の画像で、約 100^8 の組み合わせが得られます)。同様の概念は言語やシーン理解の分野でも検討されており、構成性は組み合わせ一般化として知られており、既知のコンポーネントの限られたセットから潜在的に無限の数の新しい組み合わせを識別または生成するスキルです。

最新の研究は、構成品質とモデル作成を維持しながら、出力画像 (空間レイアウトやカラー パレットなど) を柔軟に制御できる新しい生成パラダイムを提供します。

この研究では、構成性を中心的な考え方としており、まず画像を代表的な要素に分解し、次にこれらの要素を条件とした拡散モデルをトレーニングして入力を再構成します。推論段階では、豊富な中間表現が構成可能な要素として機能し、カスタマイズ可能なコンテンツを作成するための巨大な設計スペースを提供します (つまり、分解要素の数に指数関数的に比例します)。 Composer という名前のメソッドが、グローバル情報としてのテキスト記述、ローカル ガイダンスとしての深度マップとスケッチ、低レベルの詳細としてのカラー ヒストグラムなど、さまざまなレベルの条件をサポートしていることは注目に値します。

この研究では、制御性の向上に加えて、Composer が再トレーニングを必要とせずに幅広い古典的な生成タスクを容易にする一般的なフレームワークとして機能できることが確認されました。

方法

この記事で紹介するフレームワークには、分解段階 (画像が一連の独立したコンポーネントに分割される) と合成段階 (コンポーネントが再結合される) が含まれます。条件付き拡散モデルを使用)。ここでは、まず Composer を使用して実装された拡散モデルと誘導方向について簡単に紹介し、次に画像の分解と合成の実装について詳しく説明します。

2.1. 拡散モデル

拡散モデルは、反復処理を通じてガウス ノイズからデータを生成する生成モデルです。ノイズ除去プロセス、データの生成。通常、単純な平均二乗誤差がノイズ除去ターゲットとして使用されます。

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

ここで、x_0 はオプションの条件です。 c のトレーニング データ、

は加法性ガウス ノイズ、a_t と σ_t は t のスカラー関数、AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現 は学習可能なパラメーター θ を持つ拡散モデルです。分類子を使用しないブートストラップは、拡散モデルの条件付きデータ サンプリングの最近の研究で最も広く使用されており、予測ノイズは次のように調整されます。 AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現##式

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現# において、ω はガイダンスの重みです。 DDIM と DPM ソルバーは、拡散モデルのサンプリング プロセスを高速化するためによく使用されます。 DDIM を使用して、サンプル x_0 を純粋なノイズ電位 x_T に反転することもでき、さまざまな画像編集操作が可能になります。

ガイダンスの方向: Composer は、さまざまな条件を受け入れ、分類子のガイダンスなしでさまざまな方向を達成できる拡散モデルです。

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

##c_1 と c_2 は 2 つの条件セットです。 c_1 と c_2 の異なる選択は、条件の異なる重点を表します。

(c_2 c_1)内の条件はωとして強調され、(c_1 c_2)内の条件は(1−ω)として抑制され、c1∩内の条件の誘導重みはc2は1.0です。双方向ガイダンス: 条件 c_1 を使用して画像 x_0 を基になる x_T に反転し、次に別の条件 c_2 を使用して x_T からサンプリングすることにより、Composer を使用して画像を解きほぐす方法で操作できます。操作の方向は次のとおりです。 c_2 と c_1 は差異によって定義されます。

分解

画像を、画像のさまざまな側面を捉えた分離された表現に分解し、タスクを記述することについての研究で使用される 8 つの表現は、トレーニング プロセス中にリアルタイムで抽出されます。

説明 (キャプション) : 画像テキストのトレーニング データにおけるタイトルまたは説明情報の直接使用を研究します。 (例えば、LAION-5B (Schuhmann et al., 2022)) をイメージ図として示します。注釈が利用できない場合は、事前トレーニングされた画像を利用してモデルを説明することもできます。事前トレーニングされた CLIP ViT-L /14@336px (Radford et al., 2021) モデルから抽出された文と単語の埋め込みを使用して、これらのタイトルを特徴付けます。

セマンティクスとスタイル: 事前トレーニングされた CLIP ViT-L/14@336px モデルを使用して抽出された調査画像 埋め込みは特徴付けに使用されますunCLIP と同様の画像のセマンティクスとスタイル。

Color: 平滑化された CIELab ヒストグラムを使用して、画像の色の統計を調べます。 10 のスムージング シグマを使用して、CIELab 色空間を 11 の色相値、5 つの彩度値、および 5 つの光値に量子化します。経験上、この設定の方が効果的です。

スケッチ : エッジ検出モデルの適用を検討し、スケッチ簡略化アルゴリズムを使用して画像のスケッチを抽出します。 Sketch は、少ないセマンティクスで画像の局所的な詳細をキャプチャします。

インスタンス: 事前トレーニングされた YOLOv5 モデルを使用して、画像にインスタンス セグメンテーションを適用してインスタンス マスクを抽出します。インスタンス セグメンテーション マスクは、ビジュアル オブジェクトのカテゴリおよび形状情報を反映します。

深度マップ : 事前トレーニングされた単眼深度推定モデルを使用して画像の深度マップを抽出し、画像を大まかにキャプチャする方法を研究します。レイアウト。

強度: この研究では、元のグレースケール画像を表現として導入し、モデルに解きほぐされた自由度の処理方法を学習させます。色の。ランダム性を導入するために、事前定義された RGB チャネル重みのセットから均一にサンプリングして、グレースケール イメージを作成します。

マスキング : Composer が画像の生成や操作を編集可能な領域に制限できるようにするために、画像マスクの導入を検討します。 4 チャネル表現が使用されます。最初の 3 チャネルはマスクされた RGB イメージに対応し、最後のチャネルはバイナリ マスクに対応します。

なお、本稿では上記8つの条件で実験を行いましたが、Composerを利用して条件を自由にカスタマイズすることも可能です。

合成

拡散モデルを使用して一連の表現から画像を再結合する研究。具体的には、この研究では GLIDE アーキテクチャを活用し、そのチューニング モジュールを変更します。この研究では、表現に基づいてモデルを適応させるための 2 つの異なるメカニズムを調査します。

グローバル コンディショニング: CLIP 文の埋め込み、画像の埋め込み、カラー パレットを含むグローバル表現の場合、それらを投影してタイムステップの埋め込みに追加します。さらに、画像の埋め込みとカラー パレットを 8 つの追加のトークンに投影し、それらを CLIP の単語の埋め込みと連結します。これらは、unCLIP と同様に、GLIDE でクロスアテンションのコンテキストとして使用されます。条件は加算的であるか、クロスアテンションで選択的にマスクできるため、トレーニング中や推論中に条件を直接削除したり、新しいグローバル条件を導入したりできます。

ローカライゼーション コンディショニング: スケッチ、セグメンテーション マスク、深度マップ、強度イメージ、マスク イメージなどのローカライズされた表現の場合、積み重ねられた畳み込みレイヤーを使用して、それらをノイズとともに投影します。潜在 x_t は均一です。 -同じ空間サイズを持つ次元埋め込み。次に、これらの埋め込みの合計が計算され、その結果が x_t に連結され、UNet に供給されます。埋め込みは付加的であるため、欠落した条件を適応させたり、新しい局所的な条件を組み込んだりすることが簡単です。

共同トレーニング戦略: さまざまな条件の組み合わせから画像をデコードする方法をモデルが学習できるようにする共同トレーニング戦略を設計することが重要です。この調査では、いくつかの構成を実験し、各条件の独立した終了確率 0.5、すべての条件を削除する確率 0.1、およびすべての条件を維持する確率 0.1 を使用する、シンプルかつ効果的な構成を特定しました。強度イメージにはイメージに関する大部分の情報が含まれており、トレーニング中に他の条件を弱める可能性があるため、強度イメージには特別なドロップアウト確率 0.7 が使用されます。

基本的な拡散モデルは、64 × 64 の解像度の画像を生成します。高解像度の画像を生成するために、アップサンプリング用の 2 つの無条件拡散モデルをトレーニングし、それぞれ画像を 64 × 64 から 256 × 256 の解像度に、および 256 × 256 から 1024 × 1024 の解像度にアップサンプリングしました。アップサンプリング モデルのアーキテクチャは unCLIP から変更されており、低解像度レイヤーでより多くのチャネルの使用が検討され、容量を拡張するためにセルフ アテンション ブロックが導入されています。字幕から画像埋め込みを生成するオプションの以前のモデルも導入されています。経験的に、従来のモデルは、条件の特定の組み合わせの下で生成される画像の多様性を向上させることができます。

実験

バリエーション: Composer を使用すると、指定された画像に似ていますが、その表現の特定のサブセットに条件付けされた新しい画像を作成できます。いくつかの方法。異なる表現の組み合わせを慎重に選択することで、画像の変化の範囲を柔軟に制御できます (図 2a)。さらに多くの条件を組み込んだ後、研究で提示された方法は、画像の埋め込みのみを条件とする unCLIP のバリアントを生成します。Composer を使用すると、特定の画像に似た新しい画像を作成できますが、その表現の特定のサブセットが条件となります。 . 反省、いくつかの点で異なります。異なる表現の組み合わせを慎重に選択することで、画像の変化の範囲を柔軟に制御できます (図 2a)。より多くの条件を組み込んだ後、提案手法は、画像埋め込みのみを条件とする unCLIP よりも高い再構成精度を達成します。

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現

AI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現#

以上がAI塗装の新発想:50億パラメータを備えた国産オープンソース新モデル、合成制御性と品質の飛躍を実現の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
潜在的なメディケイド削減は、母体の医療を脅かします潜在的なメディケイド削減は、母体の医療を脅かしますApr 17, 2025 am 11:18 AM

下院と上院は、週末にわたって予算の枠組みに同意しました。このフレームワークでは、不釣り合いに富裕層や資金に渡される減税の支払いを支払うために支出削減を求めています。

スノーフレークのCEOは、AI ROIがデータを正しくすることから始めると言いますスノーフレークのCEOは、AI ROIがデータを正しくすることから始めると言いますApr 17, 2025 am 11:13 AM

「AIはビッグバンではないはずです」とSnowflakeのCEOは座り込みで私に言った。 「それは、あらゆる段階で価値を示す一連の小さなプロジェクトであるべきです。」しかし、Ramaswamyが指摘したように、それは注意のように聞こえるかもしれませんが、実際には戦略です。 インターで

毎日Deezerにアップロードされた20,000個のAI生成された曲毎日Deezerにアップロードされた20,000個のAI生成された曲Apr 17, 2025 am 11:11 AM

「AI生成されたコンテンツは、Deezerのようなストリーミングプラットフォームを洪水にし続けており、それが遅くなる兆候は見当たりません」と、ディーザーの最高イノベーション責任者であるAurelien Heraultは声明で述べています。 洪水の兆候はありませんが、ディーザーは持っています

スタジアムから傍観者まで:AIがどのようにスポーツの未来を再発明しているかスタジアムから傍観者まで:AIがどのようにスポーツの未来を再発明しているかApr 17, 2025 am 11:10 AM

そして、この変換はもはや理論的ではありません。 クラフトグループ - ニューイングランド・ペイトリオッツ、ニューイングランド革命、ジレットスタジアムの所有

迅速なエンジニアリングの一連の質問とは何ですか? - 分析Vidhya迅速なエンジニアリングの一連の質問とは何ですか? - 分析VidhyaApr 17, 2025 am 11:06 AM

質問の連鎖:迅速なエンジニアリングの革命 各質問が前の質問に基づいているAIとの会話を想像して、ますます洞察に満ちた答えにつながります。これは、プロンプトエンジニアリングにおける一連の質問の力(COQ)です

ミストラルNEMOへのアクセス:機能、アプリケーション、および意味ミストラルNEMOへのアクセス:機能、アプリケーション、および意味Apr 17, 2025 am 11:04 AM

Mistral Nemo:強力でオープンソース多言語LLM Mistral AIとNvidiaの共同作業であるMistral Nemoは、最先端の自然言語処理を提供する最先端のオープンソースの大規模な言語モデル(LLM)です。 この120億パー

Excelの丸い関数は何ですか? - 分析VidhyaExcelの丸い関数は何ですか? - 分析VidhyaApr 17, 2025 am 10:56 AM

正確な数値データのためのMicrosoft Excelのラウンド関数のマスター 数字はスプレッドシートの基本ですが、精度と読みやすさを達成するには、生データだけではありません。 Microsoft Excelのラウンド機能は、TRAの強力なツールです

Llamaindexを使用した反射エージェントのガイドLlamaindexを使用した反射エージェントのガイドApr 17, 2025 am 10:41 AM

AI Intelligenceの強化:LlamainDexを使用して反射性AIエージェントに深く飛び込む 問題を解決するだけでなく、改善する独自の思考プロセスを反映しているAIを想像してください。これは反射性AIエージェントの領域であり、この記事では

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

WebStorm Mac版

WebStorm Mac版

便利なJavaScript開発ツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、