ホームページ  >  記事  >  テクノロジー周辺機器  >  大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

PHPz
PHPz転載
2023-10-16 14:29:01790ブラウズ

言語モデルは拡散モデルを打ち破り、ビデオと画像の生成で 2 倍の SOTA を達成します。

これは、Google CMU による最新の研究結果です。

レポートによると、象徴的な ImageNet ベンチマークで言語モデルが拡散モデルを破ったのはこれが初めてです。 その背後にある重要なコンポーネントは、ピクセル空間入力を LLM 学習に適したトークンにマッピングできる

ビジュアル トークナイザー

(ビデオ トークナイザー) です。 Google CMU 研究チームは、他の 2 つのタスクにおいて、これまで最高のビジュアル ワード セグメンタを上回った MAGVIT-v2 を提案しました。

大規模言語モデルが拡散モデルに勝つ

大規模言語モデルがさまざまな生成分野で優れたパフォーマンスを発揮することが認められています。テキスト、オーディオ、コード生成など。

しかし、視覚的な生成という点では、言語モデルは常に拡散モデルに後れを取ってきました。

チームは、主な理由は、視覚世界を効果的にモデル化できる、独自開発の言語システムと同様の、優れた視覚表現が欠如していることであると考えています。自然言語とは異なり、人間は視覚的な世界に最適な語彙を進化させてきませんでした。これにより、大規模な言語モデルのビジュアル生成機能も制限されます。

この判断に基づいて、本研究は主に次の 3 つのタスクを完了しました:

ビジュアル生成、ビデオ圧縮、およびアクション認識よりも優れた新しいビジュアル トークナイザーを提案する 過去最高のパフォーマンス。
  • 新しいルックアップ不要の定量化手法は、多数の語彙を学習することで言語モデルの視覚的生成品質を向上させることができます;
  • 同じトレーニング データの下で、 , 同等のモデル サイズと同様のトレーニング予算を使用すると、言語モデルは ImageNet の拡散モデルを上回ります。
  • 著者によると、ビジュアル ワード セグメンタが標準コーデックと同等の結果を達成することに成功したのはこれが初めてでもあります。

オリジナルの SOTA ビジュアル トークナイザー

MAGVIT

(Masked Generative Video Transformer) に基づいたこのメソッドは、主に 2 つの設計、Lookup-Free Quantization、LFQ) と image-ビデオジョイントトークナイザー。

大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生結局のところ、ビデオ/画像生成では、ImageNet 512×512 と Kinetics-600 の両方が拡散モデルよりも優れています。

大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生ビデオ圧縮とアクション認識の点でも、以前の結果より優れています。

##1 人は北京大学の卒業生です。大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

Yu Lijun は現在、CMU コンピューター サイエンス学部言語技術研究所の博士課程の学生で、以下で勉強しています。 Alexander G. Hauptmann 教授。Google の学生研究員でもあります。研究の関心は、マルチモーダル基本モデル、特にマルチタスクビデオ生成にあります。

CMU に来る前に、北京大学でコンピュータ サイエンスと経済学の二重学士号を取得しました。

研究チームには他にも多くの中国人の顔が見られました。 大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生

責任著者の Jiang Lu は現在、Google Research の科学者であり、CMU の非常勤教授です。

彼の研究は主にマルチモーダル ビッグ データ、特に堅牢な深層学習、生成人工知能、マルチモーダル基本モデルの分野に焦点を当てています。

紙のリンク:

https://arxiv.org/abs/2310.05737
https://magvit.cs.cmu .edu/v2/

以上が大規模言語モデルが普及モデルを上回る!ビデオ画像生成デュアル SOTA、Google CMU の最新研究、北京大学卒業生の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。