ホームページ >テクノロジー周辺機器 >AI >AltDiffusion-m18、多言語テキストと画像を生成するための多用途ツール
現在、英語以外のテキストおよび画像生成モデルの選択は限られており、多くの場合、ユーザーはモデルを入力する前にプロンプトを英語に翻訳する必要があります。これにより、追加の操作負担が発生するだけでなく、翻訳プロセスにおける言語や文化上の誤りが、生成される画像の精度に影響を及ぼします。
Zhiyuan Research Institute の FlagAI チームは、多言語事前トレーニング モデルと安定拡散を組み合わせて多言語テキストおよび画像生成モデルをトレーニングする、効率的なトレーニング方法の先駆者 - AltDiffusion- m18、18 種類の言語テキストと画像の生成をサポートします。
中国語、英語、日本語、タイ語、韓国語、ヒンディー語、ウクライナ語、アラビア語、トルコ語、ベトナム語、ポーランド語、オランダ語、ポルトガル語、イタリア語、スペイン語、ドイツ語、フランス語、ロシア語が含まれます。
Huggingface:https://huggingface.co/BAAI/AltDiffusion-m18
GitHub:https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion -m18
AltDiffusion-m18 は、英語での FID、IS、および CLIP スコアの客観的評価において安定した拡散 95 ~ 99% の効果を達成し、中国語と日本語で最適なレベルに達し、残りの 15 カテゴリーを満たしました言語テキストと画像生成モデルのギャップにより、多言語テキストと画像生成に対する業界の強い需要が大きく満たされました。この研究に関してアドバイスをくださった安定拡散研究チームに特に感謝します。
また、AltDiffusion-m18関連の革新的技術レポート「AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities」がFindings of ACL 2023に受理されました。
AltDiffusion をリリース昨年の -m9 では、Stable Diffusion v1.4 に基づいて、Zhiyuan チームは革新的に言語タワーを多言語タワー AltCLIP に置き換え、9 言語の多言語データを微調整に使用して、元の Stable Diffusion を拡張しました。英語のみをサポートし、9 か国語をサポートします。
AltCLIP: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18
AltDiffusion-m18 は以下に基づいています安定した Diffusion v2.1 トレーニング。 Stable Diffusion v2.1 の新しい言語タワーは、OpenCLIP の反転された第 2 層です。したがって、新しい AltCLIP は、OpenCLIP の反転された第 2 層を再学習のターゲットとして使用し、m9 に基づいて、CrossAttend 層 K のみを使用します。 Unet の V 行列. 微調整は、以下の図に示すように、2 段階のトレーニング方法に拡張されます:
- 第 1 段階: 実験中の早い段階m9 では、K 行列と V 行列を微調整することが判明しました。学ぶべき主なことはテキストと画像の概念的な位置合わせであるため、m18 トレーニングの最初の段階では引き続き 18 言語のデータを使用して微調整します。 K 行列と V 行列。さらに、実験により、画像の解像度を 512*512 から 256*256 に下げても、画像の意味情報が失われないことが証明されています。したがって、テキストと画像の概念の位置合わせを学習する最初の段階では、256*256 の解像度がトレーニングに使用され、トレーニングが高速化されます。
- 第 2 段階: 生成される画像の品質をさらに向上させるために、512*512 の解像度を使用して、18 言語のデータで Unet のすべてのパラメーターをトレーニングします。さらに、分類子を使用しないガイダンス推論を提供するために、テキストの 10% が無条件トレーニングのために破棄されます。
- さらに、生成品質をさらに向上させるために、分類子を使用しないガイド付きトレーニング手法が採用されています。
最新の評価結果は、AltCLIP-m18 が CLIP を上回り、中国語と英語のゼロショット (ゼロサンプル) 検索タスクにおいて最適なレベルに達していることを示しています⬇️
多言語画像分類ベンチマークでは、AltCLIP-m9 (初期バージョン、9 言語をサポート) と AltCLIP-m18 が最適レベルに達しました ⬇️
同様に、AltCLIP With のおかげでタワーを変更するという革新的なアイデアにより、AltDiffusion-m18 は、オリジナルの CLIP 上に構築されたすべての Stable Diffusion モデルおよびエコロジー ツールにシームレスに接続することもでき、Stable Diffusion WebUI、DreamBooth などの Stable Diffusion をサポートするすべてのツールを適用できます。 AltDiffusion-m18 に。簡単に始めることができ、優れたプレイアビリティを備えています。
新しい AltCLIP の恩恵により、AltDiffusion-m18 は英語の FID、IS、CLIP スコア評価で元の安定拡散効果の 95 ~ 99% を達成し、英語を含む 17 言語で最先端のパフォーマンスを達成しました。中国語と日本語 AltDiffusion-m18 のパフォーマンスを次の表に示します:
以上がAltDiffusion-m18、多言語テキストと画像を生成するための多用途ツールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。