画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる-AI-php.cn

ホームページ

テクノロジー周辺機器

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Oct 11, 2023 pm 03:53 PM

モデル電車

大規模言語モデル (LLM または LM) は、もともと言語を生成するために使用されていましたが、時間が経つにつれて、複数のモダリティでコンテンツを生成できるようになり、オーディオ、音声、コード生成、医療アプリケーションなどでの用途が発見されました。 , ロボット工学などの分野が主流になり始めています

もちろん、LM は画像やビデオを生成することもできます。このプロセス中に、画像ピクセルはビジュアルトークナイザーによって一連の個別のトークンにマッピングされます。これらのトークンは LM トランスフォーマーに供給され、生成モデリングの語彙のように使用されます。ビジュアル生成は大幅に進歩したにもかかわらず、LM のパフォーマンスは依然として拡散モデルより劣ります。たとえば、画像生成のゴールドスタンダードベンチマークである ImageNet データセットで評価した場合、最良の言語モデルのパフォーマンスは拡散モデルよりも 48% も悪かった (256 ＾ 256 解像度で画像を生成する場合の FID 3.41 対 1.79)。

なぜ言語モデルはビジュアル生成において普及モデルに後れを取っているのでしょうか? Google と CMU の研究者らは、主な理由は、視覚世界を効果的にモデル化するための自然言語システムと同様の、優れた視覚表現が欠如していることであると考えています。この仮説を確認するために、彼らは研究を実施しました。

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

論文リンク: https://arxiv.org/pdf/2310.05737.pdf

これこの調査では、同じトレーニングデータ、同等のモデルサイズ、トレーニング予算を使用し、優れたビジュアルトークナイザーを使用すると、画像とビデオのベンチマークにおける生成忠実度と効率の両方において、マスクされた言語モデルが SOTA 拡散モデルを上回ることが示されました。これは、象徴的な ImageNet ベンチマークにおいて、言語モデルが普及モデルを上回ることを示す最初の証拠です。

研究者の目的は、言語モデルが他のモデルより優れているかどうかを主張することではなく、LLM 視覚的トークン化手法の探求を促進することであることを強調しておく必要があります。 LLM と他のモデル (拡散モデルなど) の基本的な違いは、LLM が離散潜在形式、つまり視覚的なトークナイザーから取得されたトークンを使用することです。この研究は、これらの個別のビジュアルトークンの価値は、次の利点があるため無視すべきではないことを示しています:

1. LLM との互換性。トークン表現の主な利点は、言語トークンと同じ形式を共有することで、コミュニティが長年にわたって LLM を開発するために行ってきた最適化 (トレーニングと推論の高速化、モデルインフラストラクチャの進歩、拡張方法など) を直接活用できることです。モデル、および GPU/TPU 最適化などのイノベーション。同じトークン空間を通じて視覚と言語を統合することで、私たちの視覚環境内で理解、生成、推論できる真のマルチモーダル LLM の基礎を築くことができます。

2. 圧縮表現。個別のトークンは、ビデオ圧縮に関する新しい視点を提供できます。ビジュアルトークンは、インターネット送信中にデータが占有するディスクストレージと帯域幅を削減するための新しいビデオ圧縮形式として使用できます。圧縮された RGB ピクセルとは異なり、これらのトークンは、従来の解凍および潜在的なエンコードのステップをバイパスして、生成モデルに直接入力できます。これにより、ビデオ生成アプリケーションの処理が高速化され、特にエッジコンピューティングの状況で有益です。

3. 視覚的に理解できる利点。 BEiT と BEVT で議論されているように、これまでの研究では、自己教師あり表現学習における事前トレーニングターゲットとしての離散ラベルの価値が示されています。さらに、この研究では、マーカーをモデル入力として使用すると、堅牢性と汎化パフォーマンスが向上することがわかりました。

この論文では、研究者らは、MAGVIT-v2 と呼ばれるモデルを提案しました。ビデオ (および画像) をコンパクトな離散トークンに変換します

このコンテンツは次のように書き直されます: このモデルは、VQ-VAE フレームワーク内の SOTA ビデオトークナイザーに基づいています ——MAGVIT による改良。研究者らは 2 つの新しいテクノロジーを提案しました: 1) 大量の語彙の学習を可能にし、それによって言語モデル生成の品質を向上させる革新的なルックアップ不要の定量化方法; 2) 広範な実証分析を通じて、生成品質を向上させるだけでなく MAGVIT への修正を決定しました

実験結果は、新しいモデルが 3 つの主要な領域で優れていることを示しています。これまでで最高のパフォーマンスを示したビデオトークナイザー - MAGVIT。まず、新しいモデルは MAGVIT の生成品質を大幅に向上させ、一般的な画像とビデオのベンチマークで最先端の結果を達成します。第 2 に、ユーザー調査によると、その圧縮品質は MAGVIT および現在のビデオ圧縮標準 HEVC を超えています。さらに、次世代ビデオコーデックVVCにも匹敵します。最後に、研究者らは、2 つの設定と 3 つのデータセットにおけるビデオ理解タスクにおいて、新しい単語セグメンテーションが MAGVIT よりも優れたパフォーマンスを発揮することを示しました。

手法の紹介

この論文では、ビジュアルシーンの時空間ダイナミクスを言語モデルに適したコンパクトな離散トークンにマッピングすることを目的とした、新しいビデオトークナイザーを紹介します。さらに、このメソッドは MAGVIT に基づいています。

調査では、ルックアップフリー量子化 (LFQ) とトークナイザーモデルの機能強化という 2 つの新しい設計に焦点を当てています。

ルックアップ不要の定量化

最近、VQ-VAE モデルは大きな進歩を遂げましたが、この方法の問題点問題は、再構成品質の向上とその後の生成品質の関係が不明瞭であることです。多くの人は、再構成の改善は言語モデル生成の改善と同等であると誤解しています。たとえば、語彙を増やすと再構成の品質が向上します。ただし、この改善は語彙が少ない生成にのみ適用され、語彙が非常に大きい場合、言語モデルのパフォーマンスに悪影響を及ぼします。

この記事では、VQ-VAE コードブックを削減します。埋め込み次元を 0 にします。つまり、コードブック画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となるが整数セットに置き換えられます。ここで、です。

VQ-VAE モデルとは異なり、この新しい設計では埋め込みルックアップの必要性が完全に排除されているため、LFQ という名前が付けられています。この論文では、LFQ が語彙を増やすことで言語モデル生成の品質を向上できることを発見しました。図 1 の青い曲線で示されているように、語彙サイズが増加するにつれて再構成と生成の両方が向上します。これは現在の VQ-VAE 方法では観察されない特性です。

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

これまでに多くの LFQ メソッドが利用可能ですが、この記事では単純なバリエーションについて説明します。具体的には、LFQ の潜在空間は、一次元変数のデカルト積、つまり画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となるに分解されます。特徴ベクトルが与えられたと仮定すると、量化表現 q (z) の各次元は次から取得されます。

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

LFQ に関しては、 q ( z のトークンインデックス) は次のとおりです:

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

# さらに、この記事では、トレーニングプロセス中にエントロピーペナルティも追加します:

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

ビジュアルトークナイザーモデルの改善

画像とビデオを組み合わせたトークナイザーを構築するには、再設計が必要です。この研究では、空間変換器と比較して 3D CNN のパフォーマンスが優れていることが判明しました。

この論文では、図 2b に示すように、C-ViViT と MAGVIT を組み合わせた 2 つの実現可能な設計ソリューションを検討します。 ; 図 2c は、通常の 3D CNN の代わりに時間的因果関係 3D 畳み込みを使用します。

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

表 5a は、図 2 の設計を経験的に比較しており、因果関係のある 3D CNN が最も優れたパフォーマンスを発揮することがわかります。

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

この記事では、MAGVIT のパフォーマンスを向上させるために他のアーキテクチャの変更を加えます。この論文では、因果 3D CNN レイヤーの使用に加えて、エンコーダーのダウンサンプラーを平均プーリングからストライド畳み込みに変更し、デコーダーの各解像度で残差ブロックの前に適応グループ正規化を追加しています。実験結果

この論文では、ビデオと画像の生成、ビデオ圧縮、およびアクション認識の 3 つの部分の実験を通じて、提案された単語セグメンターのパフォーマンスを検証します。図 3 は、トークナイザーと以前の研究結果

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となるビデオ生成の結果を視覚的に比較しています。表 1 は、両方のベンチマークでこのモデルが既存のすべての手法を上回っていることを示しており、優れたビジュアルトークナイザーが LM が高品質のビデオを生成できるようにする上で重要な役割を果たしていることを示しています。

#以下は、図 4 の定性サンプルの説明です画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

## この研究では、MAGVIT-v2 の画像生成結果を評価することにより、標準的な ImageNet のような条件設定の下で、サンプリング品質 (ID および IS) と推論時間効率 (サンプリングステップ) の点で、私たちのモデルが最高を上回っていることがわかりました。最良の拡散モデルのパフォーマンス画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

# 図 5 は、視覚化の結果を示しています。画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

#ビデオ圧縮。結果を表 3 に示します。私たちのモデルは、すべての指標で MAGVIT を上回り、LPIPS ではすべてのメソッドを上回っています。

画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

#表 4 に示すように、これらの評価では、MAGVIT-v2 は以前の最高の MAGVIT

## を上回っています画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となる

以上が画像とビデオの生成において、言語モデルが初めて拡散モデルを破り、トークナイザーが鍵となるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

【2025年最新】ChatGPT(チャットGPT)とは？無料での始め方や料金、使い方のコツを解説！

ChatGPT：AIを活用した対話型サービスの活用ガイド ChatGPTは、AIによる自然な対話、文章生成、要約、コード生成などを可能にするサービスです。幅広い用途が期待される一方、効果的な活用には基本的な操作方法、注意点、問題点の理解が不可欠です。本記事では、具体的な利用例を交え、無料版の始め方、アプリの入手方法、効果的な活用方法、無料プランと有料プランの違い、ビジネス活用方法などを解説します。AI初心者にも役立つ情報です。記事が長いので、目次から必要な箇所へ直接アクセスできます。ブックマーク

OpenAI o1(ChatGPT o1)とは？使い方や料金、Proについて解説！May 12, 2025 pm 04:15 PM

Openaiは、新しいAIモデルシリーズであるOpenai O1をリリースし、その機能、アプリケーション、およびGPT-4Oとの違いを深く分析します Openaiの最新のAIモデルシリーズ「Openai O1」は、広範囲にわたる注目を集めており、その強力な推論と深い思考能力が多くの注目を集めています。この記事では、この記事のGPT-4Oとの特性、使用方法、価格戦略、違いについて説明します。複雑な推論を効率的に処理するO1-MINIから、学術分野での強さを示すOpenai O1まで、その可能性を完全に明らかにし、科学、数学、プログラミングなどのSTEM分野での優れたパフォーマンスを調査します。 Openai O1の紹介（chatgpt-o1）

AI宇宙会社が生まれましたMay 12, 2025 am 11:07 AM

この記事では、AIが宇宙産業にどのように革命をもたらしているかを示しています。明日、AIでAIを使用して建設されていないSpaceXのような既存の宇宙企業とは異なり、AIネイティブ企業です。探検しましょう

インドでの10機の機械学習インターンシップ（2025）May 12, 2025 am 10:47 AM

インドであなたの夢の機械学習インターンシップを上陸させてください（2025）！学生や早期キャリアの専門家にとって、機械学習インターンシップは、やりがいのあるキャリアに最適なランチパッドです。最先端のジェナからの多様なセクターのインド企業

fellou aiを試して、Googleに別れを告げてChatgptを言ってくださいMay 12, 2025 am 10:26 AM

オンラインブラウジングの風景は、過去1年間に大きな変化を遂げました。このシフトは、PrplexityやCopilotなどのプラットフォームからの強化されたパーソナライズされた検索結果から始まり、ChatGPTのWeb Sの統合で加速しました

個人的なハッキングはかなり激しいクマになりますMay 11, 2025 am 11:09 AM

サイバー攻撃が進化しています。一般的なフィッシングメールの時代は終わりました。サイバー犯罪の将来は超個人化されており、高度にターゲットを絞った攻撃を作成するために、容易に利用可能なオンラインデータとAIを活用しています。あなたの仕事を知っている詐欺師を想像してください、あなたのf

教皇レオXIVは、AIが彼の名前の選択にどのように影響したかを明らかにしますMay 11, 2025 am 11:07 AM

枢機of大学への彼の就任演説では、シカゴ生まれのロバート・フランシス・プレボスト、新たに選出された教皇レオ14世は、彼の同名の教皇レオXIIIの影響について議論しました。

初心者および専門家向けのFastapi -MCPチュートリアル-Analytics VidhyaMay 11, 2025 am 10:56 AM

このチュートリアルでは、モデルコンテキストプロトコル（MCP）とFastAPIを使用して、大規模な言語モデル（LLM）と外部ツールを統合する方法を示しています。 FastAPIを使用して簡単なWebアプリケーションを構築し、それをMCPサーバーに変換し、Lを有効にします

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。