検索
ホームページテクノロジー周辺機器AIZhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

GPT-4 が今週リリースされると報告されており、マルチモダリティがそのハイライトの 1 つになるでしょう。現在の大規模言語モデルは、さまざまなモダリティを理解するための普遍的なインターフェースになりつつあり、さまざまなモダリティ情報に基づいて返信テキストを与えることができますが、大規模言語モデルによって生成されるコンテンツはテキストに限定されます。一方、現行の拡散モデルであるDALL・E 2、Imagen、Stable Diffusionなどはビジュアル制作に革命を起こしていますが、これらのモデルはテキストから画像への単一のクロスモーダル機能のみをサポートしており、まだ十分とは言えません。普遍的な生成モデルからの距離。マルチモーダル大規模モデルは、さまざまなモダリティの機能を解放し、任意のモダリティ間の変換を実現することができ、これがユニバーサル生成モデルの将来の開発方向であると考えられています。

清華大学コンピューターサイエンス学部の Zhu Jun 教授が率いる TSAIL チームは最近、論文「One Transformer fits All Distributions in Multi-Modal Diffusion at Scale」を発表しました。マルチモーダルを最初に公開した人 生成モデルに関するいくつかの探索的な作業により、任意のモード間の相互変換が可能になりました。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。


紙のリンク: https://ml.cs.tsinghua .edu.cn/diffusion/unidiffuser.pdf

##オープンソース コード: https://github.com/thu-ml/unidiffuser この論文は、マルチモダリティ向けに設計された確率的モデリング フレームワーク UniDiffuser を提案し、オープンソースの大規模グラフィックおよびテキスト データを使用するためにチームが提案したトランスフォーマー ベースのネットワーク アーキテクチャ U-ViT を採用します。 10 億のパラメータを持つモデルは LAION-5B でトレーニングされ、基礎となるモデルがさまざまな生成タスクを高品質で完了できるようになりました (図 1)。簡単に言うと、一方向のテキスト生成に加えて、画像生成、画像とテキストの結合生成、無条件の画像とテキスト生成、画像とテキストの書き換えなどの複数の機能も実現でき、制作効率が大幅に向上します。テキストと画像コンテンツの効率を高め、テキストとグラフィックスの生成をさらに向上させる 数式モデルの応用想像力。

この論文の筆頭著者である Bao Fan は現在博士課程の学生であり、Analytic-DPM の前の提案者であり、ICLR 2022 の優秀論文賞を受賞しました (現在は、 1 つだけ)拡散モデルにおける彼の優れた業績に対して、本土部隊が独自に完成させた賞を受賞した論文)。

さらに、Machine Heart は、TSAIL チームによって提案された DPM-Solver 高速アルゴリズムについて以前に報告しました。これは、依然として拡散モデルの最速生成アルゴリズムです。マルチモーダル大規模モデルは、チームによる長期にわたる徹底的なアルゴリズムと深い確率モデルの原理の蓄積を集中的に示したものです。この研究の共同研究者には、人民大学ヒルハウス人工知能大学院の Li Chongxuan 氏、北京知源研究所の Cao Yue 氏などが含まれます。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

このプロジェクトの論文とコードはオープンソースであることは注目に値します。

効果の表示

以下の図 8 は、画像とテキストを共同生成する際の UniDiffuser の効果を示しています。

以下の図 9 は、テキストから画像への UniDiffuser の効果を示しています。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

次の図 10 は、画像からテキストへの UniDiffuser の効果を示しています。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

#次の図11 無条件画像生成に対する UniDiffuser の効果を示します:

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

次の図 12 は、画像書き換えに対する UniDiffuser の効果を示しています。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

次の図 15以下の図 16 に示すように、UniDiffuser がグラフィックスとテキストの 2 つのモード間を行き来できることを示しています。 UniDiffuser は 2 つの実際の画像を補間できます:

方法の概要

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

研究チームは、一般的な生成モデルの設計を 2 つのサブ問題に分割しました:

確率的モデリング フレームワーク: 画像とテキスト間のエッジ分布、条件付き分布、結合分布など、モード間のすべての分布を同時にモデル化できる確率的モデリング フレームワークを見つけることは可能ですか? 、など?

ネットワーク アーキテクチャ: さまざまな入力方式をサポートするように統合ネットワーク アーキテクチャを設計できますか?

  • 確率的モデリング フレームワーク
  • 確率的モデリング フレームワークとして、研究チームは UniDiffuser、A を提案しました。拡散モデルの確率モデリング フレームワーク。 UniDiffuser は、周辺分布、条件付き分布、結合分布など、マルチモーダル データのすべての分布を明示的にモデル化できます。研究チームは、異なる分布についての拡散モデル学習を 1 つの観点に統合できることを発見しました。つまり、まず 2 つのモダリティのデータに一定サイズのノイズを追加し、次に 2 つのモダリティのデータのノイズを予測します。 2 つのモーダル データのノイズの量によって、特定の分布が決まります。たとえば、テキストのノイズ サイズを 0 に設定することは、ビンセント図の条件付き分布に対応し、テキストのノイズ サイズを最大値に設定することは、無条件画像生成の分布に対応し、画像のノイズ サイズを設定し、テキストを同じ値にすると、画像とテキストの結合分散に対応します。この統一された観点によれば、UniDiffuser は元の拡散モデルのトレーニング アルゴリズムにわずかな変更を加えるだけで、上記のすべての分布を同時に学習できます。下の図に示すように、UniDiffuser はすべてのモードに同時にノイズを追加します。単一モードの代わりに、すべてのモードに対応するノイズの大きさと、すべてのモードで予測されるノイズを入力します。

# 二峰性モードを例として挙げると、最終的なトレーニング目的関数は次のとおりです。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

## データを表します。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

は、2 つのモードに追加された標準ガウス ノイズを表します。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

は、2 つのモード (つまり、時間) に追加されるノイズの量を表します。2 つは、{1,2,…,T},# から独立してサンプリングされます。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。## は、2 つのモードで同時にノイズを予測するノイズ予測ネットワークです。

トレーニング後、UniDiffuser は 2 つのモダリティに適切な時間をノイズ予測ネットワークに設定することで、無条件、条件付き、および共同生成を実現できます。たとえば、テキストの時間を 0 に設定すると、テキストから画像への生成が実現できます。テキストの時間を最大値に設定すると、無条件の画像生成が実現できます。画像とテキストの時間を同じ値に設定すると、画像とテキストの共同生成。

UniDiffuser のトレーニング アルゴリズムとサンプリング アルゴリズムを以下に示しますが、これらのアルゴリズムは元の拡散モデルと比較してわずかな変更しか加えておらず、実装が簡単であることがわかります。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

さらに、UniDiffuser は条件付き分布と無条件分布の両方をモデル化するため、UniDiffuser は分類子を使用しないガイダンスを自然にサポートします。以下の図 3 は、さまざまなガイダンス スケールにおける UniDiffuser の条件付き生成と共同生成の効果を示しています。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

ネットワーク アーキテクチャ

#ネットワーク アーキテクチャを考慮して、研究チームは、変圧器ベースのアーキテクチャを使用してノイズ予測ネットワークをパラメータ化することを提案しました。具体的には、研究チームは最近提案された U-ViT アーキテクチャを採用しました。 U-ViT はすべての入力をトークンとして扱い、トランス ブロック間に U 字型の接続を追加します。研究チームはまた、安定拡散戦略を採用して、さまざまなモダリティのデータを潜在空間に変換し、拡散モデルをモデル化しました。 U-ViT アーキテクチャもこの研究チームから提供され、https://github.com/baofff/U-ViT でオープンソース化されていることは注目に値します。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

実験結果

UniDiffuser はまず Versatile Diffusion と比較されました。 Versatile Diffusion は、マルチタスク フレームワークに基づいた過去のマルチモーダル普及モデルです。まず、UniDiffuser と Versatile Diffusion をテキストから画像への効果について比較しました。以下の図 5 に示すように、UniDiffuser は、さまざまな分類子を使用しないガイダンス スケールの下で、CLIP スコアと FID メトリクスの両方において Versatile Diffusion よりも優れています。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

次に、UniDiffuser と Versatile Diffusion が画像とテキストの比較を実行しました。以下の図 6 に示すように、UniDiffuser は画像からテキストへのクリップ スコアが優れています。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

UniDiffuser は、MS-COCO 上で専用のテキストからグラフへのモデルとのゼロショット FID 比較も実行します。以下の表 1 に示すように、UniDiffuser は専用のテキストからグラフへのモデルと同等の結果を達成できます。

Zhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。

以上がZhu Jun 氏のチームは、清華大学の Transformer に基づく初の大規模マルチモーダル拡散モデルをオープンソース化し、テキストと画像の書き換えを経て完全に完成しました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MantisBT

MantisBT

Mantis は、製品の欠陥追跡を支援するために設計された、導入が簡単な Web ベースの欠陥追跡ツールです。 PHP、MySQL、Web サーバーが必要です。デモおよびホスティング サービスをチェックしてください。

SAP NetWeaver Server Adapter for Eclipse

SAP NetWeaver Server Adapter for Eclipse

Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

SublimeText3 英語版

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

ZendStudio 13.5.1 Mac

ZendStudio 13.5.1 Mac

強力な PHP 統合開発環境