ホームページ  >  記事  >  テクノロジー周辺機器  >  復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

WBOY
WBOY転載
2024-03-05 09:19:17952ブラウズ

最近、OpenAI のビデオ生成モデル Sora が人気となり、生成 AI モデルのマルチモーダル機能が再び注目を集めています。

実世界は本質的にマルチモーダルであり、生物は視覚、言語、聴覚、触覚などのさまざまなチャネルを通じて情報を感知し、交換します。マルチモーダル システム開発の有望な方向性の 1 つは、LLM のマルチモーダル認識機能を強化することです。これには、主にマルチモーダル エンコーダーと言語モデルの統合が含まれます。これにより、エンコーダーがさまざまなモダリティにわたって情報を処理し、LLM のテキスト処理能力を活用して一貫した応答を生成できるようになります。

ただし、この戦略はテキスト生成にのみ適用され、マルチモーダル出力には適用されません。一部の先駆的な研究では、言語モデルにおけるマルチモーダルな理解と生成の達成において大きな進歩を遂げていますが、これらのモデルは画像や音声などの単一の非テキスト モダリティに限定されています。

上記の問題を解決するために、復旦大学の Qiu Xipeng のチームは、マルチモーダル アート プロジェクション (MAP) および上海人工知能研究所の研究者とともに、マルチモーダル言語モデルを提案しました。 AnyGPT と呼ばれるこのモデルは、モダリティの任意の組み合わせでさまざまなモダリティの内容を理解し、推論することができます。具体的には、AnyGPT はテキスト、音声、画像、音楽などの複数のモダリティが絡み合った命令を理解し、適切なマルチモーダルの組み合わせを巧みに選択して応答することができます。

たとえば、音声プロンプトが与えられると、AnyGPT は音声、画像、音楽の形式で包括的な応答を生成できます。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

テキスト画像の形式でプロンプトが与えられると、AnyGPT はプロンプトの要件に従って音楽を生成できます。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。


  • #論文アドレス: https://arxiv.org/pdf/2402.12226.pdf
  • プロジェクトのホームページ: https://junzhan2000.github.io/AnyGPT.github.io/

#メソッドの紹介

AnyGPT は離散表現を利用して、音声、テキスト、画像、音楽などのさまざまなモダリティを均一に処理します。

あらゆるモダリティからあらゆるモダリティへの生成タスクを完了するために、本研究は均一に学習できる包括的なフレームワークを提案します。以下の図 1 に示すように、フレームワークは次の 3 つの主要コンポーネントで構成されます。

  • マルチモーダル トークナイザー
  • バックボーンとしてのマルチモーダルネットワークの言語モデル
  • マルチモーダル デトークナイザー

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

その中で、トークナイザーは連続的な非テキスト モダリティを離散トークンに変換し、その後、それらをマルチモーダル インターリーブ シーケンスに配置します。次に、言語モデルは、次のトークン予測トレーニング ターゲットを使用してトレーニングされます。推論中、マルチモーダル トークンは、関連するデトークナイザーによってデコードされて元の表現に戻されます。生成の品質を高めるために、音声クローン作成や画像の超解像度などのアプリケーションを含む、生成された結果を後処理するマルチモーダル拡張モジュールを導入できます。

AnyGPT は、現在の大規模言語モデル (LLM) アーキテクチャやトレーニング パラダイムを変更することなく、安定してトレーニングできます。代わりに、データレベルの前処理に完全に依存し、新しい言語を追加するのと同じように、新しいモダリティを LLM にシームレスに統合できます。

この研究における主な課題は、マルチモーダル インターリーブ命令追跡データが欠如していることです。マルチモーダル アライメントの事前トレーニングを完了するために、研究チームは生成モデルを使用して、最初の大規模な「任意対任意」マルチモーダル命令データ セットである AnyInstruct-108k を合成しました。これは、さまざまなモダリティと複雑に絡み合う 108k のマルチターン ダイアログ サンプルで構成されており、モデルがマルチモーダルの入力と出力のあらゆる組み合わせを処理できるようになります。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

これらのデータは通常、正確に表現するために大量のビットを必要とし、結果として長いシーケンスになります。シーケンスの長さに応じて計算の複雑さが指数関数的に増加するため、言語モデルでは特に要求が厳しくなります。 . レベルが上がりました。この問題を解決するために、本研究では意味情報モデリングと知覚情報モデリングを含む 2 段階の高忠実度生成フレームワークを採用しています。まず、言語モデルは、意味レベルで融合および調整されたコンテンツを生成するという役割を果たします。次に、非自己回帰モデルは、マルチモーダル セマンティック トークンを知覚レベルで忠実度の高いマルチモーダル コンテンツに変換し、パフォーマンスと効率のバランスをとります。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

実験

実験結果は、AnyGPT がすべてのモダリティで専用モデルと同等のパフォーマンスを達成しながら、任意のモダリティ間の対話タスクを完了できることを示し、離散表現が言語モデル内の複数のモダリティを効果的かつ便利に統合できることを証明しています。

この研究では、すべてのモダリティにわたるマルチモーダルの理解と生成タスクをカバーする、事前トレーニングされたベース AnyGPT の基本機能を評価します。この評価は、事前トレーニング プロセス中に異なるモダリティ間の一貫性をテストすることを目的としています。具体的には、各モダリティのテキストから X へのタスクと X からテキストへのタスクがテストされます (X は画像、音楽、音声)。

実際のシナリオをシミュレートするために、すべての評価はゼロサンプル モードで実行されます。これは、AnyGPT が評価プロセス中にダウンストリーム トレーニング サンプルの微調整や事前トレーニングを行わないことを意味します。この困難な評価設定では、モデルを未知のテスト分布に一般化する必要があります。

評価結果は、AnyGPT が一般的なマルチモーダル言語モデルとして、さまざまなマルチモーダルの理解および生成タスクにおいて賞賛に値するパフォーマンスを達成することを示しています。

#画像

この研究では、画像記述タスクにおける AnyGPT の画像理解能力を評価しました。表 2 に示します。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。#テキストから画像への生成タスクの結果を表 3 に示します。

音声復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。この研究では、LibriSpeech データセットのテストサブセットの単語誤り率を計算しました。 (WER) を使用して、自動音声認識 (ASR) タスクにおける AnyGPT のパフォーマンスを評価し、Wav2vec 2.0 および Whisper Large V2 をベースラインとして使用しました。評価結果を表 5 に示します。 #######################################音楽##########

##この研究では、CLAP_score スコアを客観的な指標として使用して、生成された音楽とテキストの説明の類似性を測定することにより、MusicCaps ベンチマークでの音楽理解および生成タスクにおける AnyGPT のパフォーマンスを評価しました。評価結果は表 6 に示されています。見せる。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。興味のある読者は、論文の原文を読んで研究内容をさらに詳しく知ることができます。

復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。

以上が復旦大学などは、画像、音楽、テキスト、音声を含むあらゆるモーダル入出力である AnyGPT をリリースしました。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。