ホームページ >テクノロジー周辺機器 >AI >AltDiffusion-m18、多言語テキストと画像を生成するための多用途ツール
現在、英語以外のテキストおよび画像生成モデルの選択は限られており、多くの場合、ユーザーはモデルを入力する前にプロンプトを英語に翻訳する必要があります。これにより、追加の操作負担が発生するだけでなく、翻訳プロセスにおける言語や文化上の誤りが、生成される画像の精度に影響を及ぼします。
Zhiyuan Research Institute の FlagAI チームは、多言語事前トレーニング モデルと安定拡散を組み合わせて多言語テキストおよび画像生成モデルをトレーニングする、効率的なトレーニング方法の先駆者 - AltDiffusion- m18、18 種類の言語テキストと画像の生成をサポートします。
中国語、英語、日本語、タイ語、韓国語、ヒンディー語、ウクライナ語、アラビア語、トルコ語、ベトナム語、ポーランド語、オランダ語、ポルトガル語、イタリア語、スペイン語、ドイツ語、フランス語、ロシア語が含まれます。
Huggingface:https://huggingface.co/BAAI/AltDiffusion-m18
GitHub:https://github.com/FlagAI-Open/FlagAI/blob/master/examples/AltDiffusion -m18
AltDiffusion-m18 は、英語での FID、IS、および CLIP スコアの客観的評価において安定した拡散 95 ~ 99% の効果を達成し、中国語と日本語で最適なレベルに達し、残りの 15 カテゴリーを満たしました言語テキストと画像生成モデルのギャップにより、多言語テキストと画像生成に対する業界の強い需要が大きく満たされました。この研究に関してアドバイスをくださった安定拡散研究チームに特に感謝します。
また、AltDiffusion-m18関連の革新的技術レポート「AltCLIP: Altering the Language Encoder in CLIP for Extended Language Capabilities」がFindings of ACL 2023に受理されました。
AltDiffusion をリリース昨年の -m9 では、Stable Diffusion v1.4 に基づいて、Zhiyuan チームは革新的に言語タワーを多言語タワー AltCLIP に置き換え、9 言語の多言語データを微調整に使用して、元の Stable Diffusion を拡張しました。英語のみをサポートし、9 か国語をサポートします。
AltCLIP: https://github.com/FlagAI-Open/FlagAI/tree/master/examples/AltCLIP-m18
AltDiffusion-m18 は以下に基づいています安定した Diffusion v2.1 トレーニング。 Stable Diffusion v2.1 の新しい言語タワーは、OpenCLIP の反転された第 2 層です。したがって、新しい AltCLIP は、OpenCLIP の反転された第 2 層を再学習のターゲットとして使用し、m9 に基づいて、CrossAttend 層 K のみを使用します。 Unet の V 行列. 微調整は、以下の図に示すように、2 段階のトレーニング方法に拡張されます:
- 第 1 段階: 実験中の早い段階m9 では、K 行列と V 行列を微調整することが判明しました。学ぶべき主なことはテキストと画像の概念的な位置合わせであるため、m18 トレーニングの最初の段階では引き続き 18 言語のデータを使用して微調整します。 K 行列と V 行列。さらに、実験により、画像の解像度を 512*512 から 256*256 に下げても、画像の意味情報が失われないことが証明されています。したがって、テキストと画像の概念の位置合わせを学習する最初の段階では、256*256 の解像度がトレーニングに使用され、トレーニングが高速化されます。
- 第 2 段階: 生成される画像の品質をさらに向上させるために、512*512 の解像度を使用して、18 言語のデータで Unet のすべてのパラメーターをトレーニングします。さらに、分類子を使用しないガイダンス推論を提供するために、テキストの 10% が無条件トレーニングのために破棄されます。
- さらに、生成品質をさらに向上させるために、分類子を使用しないガイド付きトレーニング手法が採用されています。
最新の評価結果は、AltCLIP-m18 が CLIP を上回り、中国語と英語のゼロショット (ゼロサンプル) 検索タスクにおいて最適なレベルに達していることを示しています⬇️
多言語画像分類ベンチマークでは、AltCLIP-m9 (初期バージョン、9 言語をサポート) と AltCLIP-m18 が最適レベルに達しました ⬇️
同様に、AltCLIP With のおかげでタワーを変更するという革新的なアイデアにより、AltDiffusion-m18 は、オリジナルの CLIP 上に構築されたすべての Stable Diffusion モデルおよびエコロジー ツールにシームレスに接続することもでき、Stable Diffusion WebUI、DreamBooth などの Stable Diffusion をサポートするすべてのツールを適用できます。 AltDiffusion-m18 に。簡単に始めることができ、優れたプレイアビリティを備えています。
新しい AltCLIP の恩恵により、AltDiffusion-m18 は英語の FID、IS、CLIP スコア評価で元の安定拡散効果の 95 ~ 99% を達成し、英語を含む 17 言語で最先端のパフォーマンスを達成しました。中国語と日本語 AltDiffusion-m18 のパフォーマンスを次の表に示します:
## 英語、中国語、日本語では、AltDiffusion-m18 の方が優れた効果とより詳細な結果が得られます。正確性: 上記 (a) の AltDiffusion-m18 は、元の安定拡散と非常に一致した結果を生成でき、他の中国国内モデルよりも優れています。 - 迅速な理解による英語バイリンガル モデル。例: 「クマのぬいぐるみ」、「白黒写真」、「猫」など、他の国内の中英語バイリンガル モデルでは生成できなかった概念が、AltDiffusion では正常に生成されます。 。中国語でも日本語でも同様の現象が起こります。 上記 (b) の「黒いソファ、木の床」は、AltDiffusion-m18 によってのみ正しく生成されます。 上記 (c) の「クマ」について、Japanese Stable Diffusion では誤って「人間」が生成されますが、AltDiffusion-m18 では正しく「クマ」を生成できます。 さらに、Zhiyuan FlagEval チームはテキストおよび画像生成モデル評価ツール ImageEval を開発しました。評価後、エンティティ オブジェクトおよびエンティティ数量次元における AltDiffusion-m18 の精度は、国内ピア モデルの精度をそれぞれ 11% および 10% 上回っています (注: ImageEval の評価方法と結果は、近い将来公開される予定です。調整しました)。 3 多言語テキストと画像生成モデルの参照システムを提供する、小規模言語のテキストと画像の救世主 AltDiffusion-m18 は、さまざまな言語のバイアスを学習しました多言語データから、ユーザーが言語翻訳のしきい値を超えて文化翻訳を回避できるようにすることで、言語の背後にある文化情報の損失を軽減します。下の図に示すように、中国語と日本語のプロンプトによって生成される小さな男の子の顔の輪郭はより「アジア風」ですが、英語やその他のヨーロッパ言語のプロンプトによって生成される小さな男の子はより「ヨーロッパおよびアメリカ風」です。 さらに興味深いのは、言語が異なれば、動物のプロンプトによって生成される絵の詳細も異なることです。以下の図に示すように、異なる言語で生成された画像は全体として非常に一貫性がありますが、画像の背景やコーギーの顔の特徴の詳細には微妙な違いがあります。 一般に、AltDiffusion-m18 は、多言語テキストおよび画像生成モデルの基本的な参照システムを提供します。スペイン語、ドイツ語、フランス語を母国語とするユーザーは、頭の中でプロンプトを英語に翻訳することなく、AIGC の楽しさを楽しむことができます。 AI トレーニングの専門家は、DreamBooth、ControlNet、LoRA を組み合わせて AltDiffusion-m18 に基づいてさらに最適化することも、他の言語でコーパスの微調整を使用して、より良いテキストと画像の生成効果を得ることができます。 同時に、大規模モデルのアルゴリズム、モデル、ツールのワンストップ オープンソース プロジェクトである FlagAI (github.com/FlagAI-Open/FlagAI) も、誰もがトレーニング推論ツールと API を利用できるように提供しています。 AltDiffusion-m18 をすぐにダウンロードして使用してください。以上がAltDiffusion-m18、多言語テキストと画像を生成するための多用途ツールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。