著者丨Mike Young
翻訳: 元の意味を変えずにコンテンツを再作成する言語は中国語です。元の文は表示されません
元の意味を変えずにコンテンツを確認してください、言語を書き直す必要があります 中国語では、元の文を表示する必要はありません
推奨 | 51CTO テクノロジー スタック (WeChat ID: blog51cto)
##写真
LCM の精製プロセスに LoRA を導入することによりにより、リファインによるメモリ オーバーヘッドが大幅に削減され、限られたリソースで SDXL や SSD-1B などのより大きなモデルをトレーニングできるようになります。さらに重要なことは、LCM-LoRA トレーニングを通じて取得された LoRA パラメーター (「加速ベクトル」) は、特定のスタイルのデータセットを微調整することによって取得された他の LoRA パラメーター (「スタイル ベクトル」) と直接組み合わせることができることです。トレーニングを行わなくても、加速度ベクトルとスタイル ベクトルの線形結合によって得られるモデルは、最小限のサンプリング ステップで特定の絵画スタイルの画像を生成する機能を獲得します。
図 2. 論文では次のように主張されています。 「LCM-LoRA-SD-V1.5 を使用して 512×512 解像度の画像を生成し、LCM-LoRA-SDXL および LCM-LoRA-SSD-1B を使用して 1024×1024 解像度の画像を生成しました。」
3. 制限事項
LCM の現在のバージョンにはいくつかの制限があります。最も重要なことは 2 段階のトレーニング プロセスです。最初に LDM をトレーニングし、次にそれを使用して LCM をトレーニングします。将来の研究では、LDM を必要としない、より直接的な LDM トレーニング方法が研究される可能性があります。この文書では主に無条件画像生成について説明しますが、条件付き生成タスク (テキストから画像への合成など) にはさらに多くの作業が必要になる場合があります。
4. 主な啓発
潜在整合性モデル (LCM) は、高品質の画像を迅速に生成する上で重要な一歩を踏み出しました。これらのモデルは、わずか 1 ~ 4 ステップで低速な LDM と同等の結果を生成でき、テキストから画像へのモデルの実際の適用に革命を起こす可能性があります。現在、特にトレーニング プロセスと生成タスクの範囲に関していくつかの制限がありますが、LCM はニューラル ネットワークに基づく実用的な画像生成において大幅な進歩を示しています。提供された例は、これらのモデルの可能性を強調しています
#5、一般的な加速モジュールとしての LCM-LoRA#はじめにで述べたように、この論文は 2 つの部分に分かれています。 2 番目の部分では、LCM-LoRA テクノロジについて説明します。LCM-LoRA テクノロジにより、少ないメモリを使用して事前トレーニングされたモデルの微調整が可能になり、効率が向上します。
ここでの重要な革新は、LoRA パラメータを LCM に統合することです。 、これにより、両方の利点を組み合わせたハイブリッド モデルが生成されます。この統合は、特定のスタイルの画像を作成したり、特定のタスクに応答したりする場合に特に役立ちます。 LoRA パラメータの異なるセットを選択して組み合わせ、それぞれを独自のスタイルに合わせて微調整すると、研究者は追加のトレーニングなしで最小限の手順で画像を生成できる多用途モデルを作成できます。
彼らは、特定の絵画スタイル向けに微調整された LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた例を通じて、研究でこのことを実証しました。この組み合わせにより、さまざまなサンプリング ステップ (2 ステップ、4 ステップ、8 ステップ、16 ステップ、32 ステップなど) でさまざまなスタイルの 1024 × 1024 解像度の画像を作成できます。結果は、これらのパラメーターを組み合わせれば、さらなるトレーニングを行わなくても高品質の画像を生成できることが示されており、モデルの効率性と多用途性が強調されています。
ここで注目に値するのは、加速度ベクトル (τLCM) とスタイル ベクトル (τ) は、特定の数式を使用して結合されます (λ1 と λ2 はこれらの数式の調整可能な係数です)。この組み合わせにより、カスタム スタイルの画像を迅速に生成できるモデルが得られます。
論文の図 3 (以下に示す) は、特定のスタイルの LoRA パラメーターと LCM-LoRA パラメーターを組み合わせた結果を示すことで、このアプローチの有効性を示しています。これは、さまざまなスタイルの画像を迅速かつ効率的に生成するモデルの機能を示しています。
#図 3# 強調表示された主要な結果には、わずか数ステップで LCM が含まれます。 高品質の 512x512 および 1024x1024 画像を作成するには、数百枚の画像が必要ですLDM を使用した手順。ただし、現在の制限として、LDM は 2 段階のトレーニング プロセスに依存しているため、開始するには依然として LDM が必要です。将来の研究により、このプロセスが簡素化される可能性があります。
LCM は、特に提案されている LCM-LoRA モデルで LoRA と組み合わせた場合、非常に賢いイノベーションです。高品質な画像をより迅速かつ効率的に作成できるという利点があり、デジタルコンテンツ制作において幅広い応用が期待できると思います。
参考リンク: https://notes.aimodels.fyi/lcm-lora-a-new-method-for-generated-high-quality-images-much-faster/
#
以上がLCM: 高品質の画像を劇的に高速に生成する新しい方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

主要なエンタープライズ分析プラットフォームAlteryxのCEOであるAndy Macmillanとの私の最近の会話は、AI革命におけるこの重要でありながら過小評価されている役割を強調しました。 MacMillanが説明するように、生のビジネスデータとAI-Ready情報のギャップ


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

DVWA
Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。
