検索
ホームページテクノロジー周辺機器AILCM: 高品質の画像を劇的に高速に生成する新しい方法

著者丨Mike Young

翻訳: 元の意味を変えずにコンテンツを再作成する言語は中国語です。元の文は表示されません

元の意味を変えずにコンテンツを確認してください、言語を書き直す必要があります 中国語では、元の文を表示する必要はありません

推奨 | 51CTO テクノロジー スタック (WeChat ID: blog51cto)

LCM: 高品質の画像を劇的に高速に生成する新しい方法 ##写真

潜在整合性モデル (LCM) と呼ばれる新しいテクノロジーの出現のおかげで、AI はテキストから画像への変換において大きな進歩をもたらします。潜在拡散モデル (LDM) などの従来の方法は、テキストの手がかりを使用して詳細で創造的な画像を生成するのに優れていますが、速度が遅いという致命的な欠点があります。 LDM を使用して単一のイメージを生成するには、数百の手順が必要となる可能性があり、これは多くの実際のアプリケーションには遅すぎます

中国語で書き直されました: LCM は、イメージの生成に必要なステップ数を削減することで、状況を一変させます。画像を丹念に生成するために何百ものステップを必要とする LDM と比較して、LCM はわずか 1 ~ 4 つのステップで同様の品質の結果を生成できます。この効率を達成するために、LCM は事前トレーニングされた LDM をより簡潔な形式に改良し、それによって必要なコンピューティング リソースと時間を大幅に削減します。 LDM モデルがどのように機能するかを説明した最近の論文を分析します。

この論文では、汎用の安定拡散加速モジュールである LCM-LoRA と呼ばれるイノベーションも紹介されています。このモジュールは、追加のトレーニングなしで、さまざまな安定拡散微調整モデルに接続できます。これは、さまざまな画像生成タスクを高速化できる汎用的に適用可能なツールであり、AI を活用して画像を作成するためのツールとなる可能性があります。この論文のこの部分についても詳しく説明します。

1. LCM の効率的なトレーニング

ニューラル ネットワークの分野では、特に複雑な条件でニューラル ネットワークをトレーニングする場合、膨大な計算能力を必要とする大きな課題があります。方程式、時間。しかし、この論文の背後にあるチームは、洗練と呼ばれる独創的な方法を使用してこの問題を解決することに成功しました。

書き換えられた内容: 研究チームのアプローチは次のとおりです。 まず、テキストとテキストのペアのデータセットを使用しました。標準的な潜在拡散モデル (LDM) をトレーニングするための画像。 LDM が稼働すると、それをメンターとして使用し、新しいトレーニング データを生成します。次に、この新しいデータを使用して潜在整合性モデル (LCM) をトレーニングしました。最も興味深いのは、LCM は、巨大なデータセットを使用して最初からトレーニングすることなく、LDM の機能から学習できることです。本当に重要なのは、プロセスの効率です。研究者らは、単一の GPU のみを使用して、高品質 LCM のトレーニングを約 32 時間で完了しました。これは、以前の方法よりもはるかに高速で実用的であるため、重要です。これは、スーパーコンピューティング リソースにアクセスできる人だけでなく、より多くの人やプロジェクトがこのような高度なモデルを作成できることを意味します。

図 1. LCM-LoRA の概要

LCM: 高品質の画像を劇的に高速に生成する新しい方法LCM の精製プロセスに LoRA を導入することによりにより、リファインによるメモリ オーバーヘッドが大幅に削減され、限られたリソースで SDXL や SSD-1B などのより大きなモデルをトレーニングできるようになります。さらに重要なことは、LCM-LoRA トレーニングを通じて取得された LoRA パラメーター (「加速ベクトル」) は、特定のスタイルのデータセットを微調整することによって取得された他の LoRA パラメーター (「スタイル ベクトル」) と直接組み合わせることができることです。トレーニングを行わなくても、加速度ベクトルとスタイル ベクトルの線形結合によって得られるモデルは、最小限のサンプリング ステップで特定の絵画スタイルの画像を生成する機能を獲得します。

2. 結果

この研究は、AI を使用して潜在整合性モデル (LCM) に基づいて画像を生成する際の大きな進歩を示しています。 LCM は、わずか 4 ステップで高品質の 512x512 画像を作成することに優れています。これは、潜在拡散モデル (LDM) などの従来のモデルで必要とされる数百のステップに比べて大幅な改善です。画像は鮮明な詳細とリアルなテクスチャを誇っており、それは特に以下の例で明らかです。

写真

図 2. 論文では次のように主張されています。 「LCM-LoRA-SD-V1.5 を使用して 512×512 解像度の画像を生成し、LCM-LoRA-SDXL および LCM-LoRA-SSD-1B を使用して 1024×1024 解像度の画像を生成しました。」LCM: 高品質の画像を劇的に高速に生成する新しい方法

これらのモデルは、小さな画像を簡単に処理できるだけでなく、1024x1024 の大きな画像を生成することにも優れています。これらは、これまで可能であったものよりもはるかに大規模なニューラル ネットワーク モデルに拡張する能力を実証し、その適応性を示しています。論文内の例 (LCM-LoRA-SD-V1.5 および LCM-LoRA-SSD-1B バージョンの例など) では、さまざまなデータセットや実際のシナリオにおけるモデルの幅広い適用性が明らかにされています。

3. 制限事項

LCM の現在のバージョンにはいくつかの制限があります。最も重要なことは 2 段階のトレーニング プロセスです。最初に LDM をトレーニングし、次にそれを使用して LCM をトレーニングします。将来の研究では、LDM を必要としない、より直接的な LDM トレーニング方法が研究される可能性があります。この文書では主に無条件画像生成について説明しますが、条件付き生成タスク (テキストから画像への合成など) にはさらに多くの作業が必要になる場合があります。

4. 主な啓発

潜在整合性モデル (LCM) は、高品質の画像を迅速に生成する上で重要な一歩を踏み出しました。これらのモデルは、わずか 1 ~ 4 ステップで低速な LDM と同等の結果を生成でき、テキストから画像へのモデルの実際の適用に革命を起こす可能性があります。現在、特にトレーニング プロセスと生成タスクの範囲に関していくつかの制限がありますが、LCM はニューラル ネットワークに基づく実用的な画像生成において大幅な進歩を示しています。提供された例は、これらのモデルの可能性を強調しています

#5、一般的な加速モジュールとしての LCM-LoRA

#はじめにで述べたように、この論文は 2 つの部分に分かれています。 2 番目の部分では、LCM-LoRA テクノロジについて説明します。LCM-LoRA テクノロジにより、少ないメモリを使用して事前トレーニングされたモデルの微調整が可能になり、効率が向上します。

ここでの重要な革新は、LoRA パラメータを LCM に統合することです。 、これにより、両方の利点を組み合わせたハイブリッド モデルが生成されます。この統合は、特定のスタイルの画像を作成したり、特定のタスクに応答したりする場合に特に役立ちます。 LoRA パラメータの異なるセットを選択して組み合わせ、それぞれを独自のスタイルに合わせて微調整すると、研究者は追加のトレーニングなしで最小限の手順で画像を生成できる多用途モデルを作成できます。

彼らは、特定の絵画スタイル向けに微調整された LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた例を通じて、研究でこのことを実証しました。この組み合わせにより、さまざまなサンプリング ステップ (2 ステップ、4 ステップ、8 ステップ、16 ステップ、32 ステップなど) でさまざまなスタイルの 1024 × 1024 解像度の画像を作成できます。結果は、これらのパラメーターを組み合わせれば、さらなるトレーニングを行わなくても高品質の画像を生成できることが示されており、モデルの効率性と多用途性が強調されています。

ここで注目に値するのは、加速度ベクトル (τLCM) とスタイル ベクトル (τ) は、特定の数式を使用して結合されます (λ1 と λ2 はこれらの数式の調整可能な係数です)。この組み合わせにより、カスタム スタイルの画像を迅速に生成できるモデルが得られます。

論文の図 3 (以下に示す) は、特定のスタイルの LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた結果を示すことで、このアプローチの有効性を示しています。これは、さまざまなスタイルの画像を迅速かつ効率的に生成するモデルの機能を示しています。

#図 3

LCM: 高品質の画像を劇的に高速に生成する新しい方法


一般的には、この記事はこれですこのセクションでは、LCM-LoRA モデルの多用途性と効率性を強調します。LCM-LoRA モデルを使用すると、非常に少ない計算リソースを使用しながら、高品質でスタイル固有の画像を迅速に生成できます。このテクノロジーには幅広い用途があり、デジタル アートから自動コンテンツ作成に至るまで、あらゆる分野で画像を生成する方法に革命を起こすことが期待されています。 a 新しい手法である潜在整合性モデル (LCM) を使用して、テキストから画像を生成するプロセスを高速化します。従来の潜在拡散モデル (LDM) とは異なり、LCM は数百のステップではなく、わずか 1 ~ 4 のステップで同様の品質の画像を生成できます。この大幅な効率向上は、リファインメント手法、つまり、事前にトレーニングされた LDM を使用して LCM をトレーニングすることによって達成され、大量の計算を回避します。

さらに、LCM についても研究しました。 LoRA は、低ランク適応 (LoRA) を使用して事前トレーニングされたモデルを微調整し、メモリ要件を削減する拡張手法です。このアンサンブル手法では、追加のトレーニングを必要とせず、最小限の計算ステップで特定のスタイルの画像を作成できます。

# 強調表示された主要な結果には、わずか数ステップで LCM が含まれます。 高品質の 512x512 および 1024x1024 画像を作成するには、数百枚の画像が必要ですLDM を使用した手順。ただし、現在の制限として、LDM は 2 段階のトレーニング プロセスに依存しているため、開始するには依然として LDM が必要です。将来の研究により、このプロセスが簡素化される可能性があります。

LCM は、特に提案されている LCM-LoRA モデルで LoRA と組み合わせた場合、非常に賢いイノベーションです。高品質な画像をより迅速かつ効率的に作成できるという利点があり、デジタルコンテンツ制作において幅広い応用が期待できると思います。

参考リンク: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generated-high-quality-images-much-faster/

#

以上がLCM: 高品質の画像を劇的に高速に生成する新しい方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由AIアナリストの台頭:これがAI革命で最も重要な仕事になる理由Apr 12, 2025 am 11:41 AM

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

Safe Exam Browser

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。