検索
ホームページテクノロジー周辺機器AICambridge、Tencent AI Lab などが大規模言語モデル PandaGPT を提案しました: 1 つのモデルが 6 つのモダリティを統合します

ケンブリッジ、NAIST、テンセント AI ラボの研究者らは最近、PandaGPT と呼ばれる研究結果を発表しました。これは、コマンド追従能力のためのクロスモダリティ技術を実現するために、異なるモダリティを持つ大規模な言語モデルを調整およびバインドする方法です。 PandaGPT は、詳細な画像説明の生成、ビデオからのストーリーの作成、音声に関する質問への回答などの複雑なタスクを実行できます。マルチモーダル入力を同時に受信し、それらのセマンティクスを自然に組み合わせることができます。

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

  • プロジェクトのホームページ: https://panda-gpt.github.io/
  • コード: https://github.com/yxuansu/PandaGPT
  • ##論文: http :/ /arxiv.org/abs/2305.16355
  • オンライン デモ表示: https://huggingface.co/spaces/GMFTBY/PandaGPT

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

##画像&ビデオ、テキスト、オーディオ、ヒートマップ、デプスマップを実現するには、IMU 読み取り、6 つのモードでのコマンド追従機能、PandaGPT は、ImageBind のマルチモーダル エンコーダーと Vicuna ラージ言語モデルを組み合わせています (上の図を参照)。

ImageBind のマルチモーダル エンコーダと Vicuna の大規模言語モデルの特徴空間を調整するために、PandaGPT は、LLaVa と Mini-GPT4 を組み合わせてリリースされた合計 160k のイメージベースの言語命令を使用します。データをトレーニングデータとして使用します。各トレーニング インスタンスは、画像と対応する一連のダイアログ ラウンドで構成されます。

ImageBind 自体のマルチモーダル位置合わせの性質の破壊を回避し、トレーニング コストを削減するために、PandaGPT は次のモジュールのみを更新しました:

ImageBind のエンコード結果に線形射影行列を追加し、ImageBind によって生成された表現を変換して Vicuna の入力シーケンスに挿入します;

  1. Vicuna のアテンション モジュール LoRA 重みに追加情報を追加しました。両者のパラメータの合計は、ビクーニャのパラメータの約 0.4% を占めます。トレーニング関数は、従来の言語モデリングの目的です。トレーニング プロセス中、モデル出力の対応する部分の重みのみが更新され、ユーザー入力部分は計算されないことに注意してください。トレーニング プロセス全体が 8×A100 (40G) GPU で完了するまでに約 7 時間かかります。
  2. 現在のバージョンの PandaGPT は、調整された画像とテキストのデータのみをトレーニングに使用しますが、ImageBind エンコーダーの 6 つのモーダル理解機能 (画像/ビデオ) を継承していることを強調する価値があります。 、テキスト、オーディオ、深度、ヒート マップ、IMU)とそれらの間の位置合わせプロパティにより、すべてのモダリティ間のクロスモーダル機能が可能になります。

実験では、著者は、画像/ビデオベースの質問と回答、画像/ビデオベースのクリエイティブライティング、視覚および聴覚情報ベースのさまざまなモダリティを理解する PandaGPT の能力を実証しました。推論など、いくつかの例を次に示します:

画像:

#########オーディオビデオ: #### #

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态

#

他のマルチモーダル言語モデルと比較した場合、PandaGPT の最も優れた機能は、さまざまなモダリティからの情報を理解し、自然に組み合わせる能力です。

#ビデオオーディオ:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态


##画像音声:

剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态##概要

著者また、PandaGPT の現在多くの問題と将来の開発の方向性についてもまとめました。 PandaGPT は複数のモダリティとその組み合わせを処理する驚くべき能力を備えていますが、PandaGPT のパフォーマンスを大幅に向上させる方法はまだたくさんあります。

PandaGPT は、音声テキスト モダリティに ASR や TTS データを使用するなど、他のモーダル アライメント データを使用することで、画像以外のモダリティの理解をさらに向上させることができます。技術的な理解と指示に従う能力。
  1. テキスト以外のモードは埋め込みベクトルによってのみ表現されるため、言語モデルはテキスト以外のモデルの詳細な情報を理解できません。クロスモーダル アテンション メカニズムなどのきめ細かい特徴抽出に関するさらなる研究が、パフォーマンスの向上に役立つ可能性があります。
  2. PandaGPT では現在、テキスト以外のモーダル情報のみを入力として使用できます。将来的には、このモデルは AIGC 全体を同じモデルに統合する可能性があります。つまり、1 つのモデルで画像とビデオの生成、音声合成、テキスト生成などのタスクを同時に完了できます。
  3. マルチモーダル入力を組み合わせる能力を評価するには、新しいベンチマークが必要です。
  4. PandaGPT には、幻覚、毒性、固定観念など、既存の言語モデルによくある落とし穴がいくつかある可能性があります。
  5. 最後に、著者らは、PandaGPT は研究用のプロトタイプにすぎず、運用環境に直接適用するにはまだ十分ではないことを強調します。

以上がCambridge、Tencent AI Lab などが大規模言語モデル PandaGPT を提案しました: 1 つのモデルが 6 つのモダリティを統合しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
10生成AIコーディング拡張機能とコードのコードを探る必要があります10生成AIコーディング拡張機能とコードのコードを探る必要がありますApr 13, 2025 am 01:14 AM

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

革新を調理する:人工知能がフードサービスを変革する方法革新を調理する:人工知能がフードサービスを変革する方法Apr 12, 2025 pm 12:09 PM

食品の準備を強化するAI まだ初期の使用中ですが、AIシステムは食品の準備にますます使用されています。 AI駆動型のロボットは、ハンバーガーの製造、SAの組み立てなど、食品の準備タスクを自動化するためにキッチンで使用されています

Pythonネームスペースと可変スコープに関する包括的なガイドPythonネームスペースと可変スコープに関する包括的なガイドApr 12, 2025 pm 12:00 PM

導入 Python関数における変数の名前空間、スコープ、および動作を理解することは、効率的に記述し、ランタイムエラーや例外を回避するために重要です。この記事では、さまざまなASPを掘り下げます

ビジョン言語モデル(VLM)の包括的なガイドビジョン言語モデル(VLM)の包括的なガイドApr 12, 2025 am 11:58 AM

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

MediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますMediaTekは、Kompanio UltraとDimenity 9400でプレミアムラインナップをブーストしますApr 12, 2025 am 11:52 AM

製品のケイデンスを継続して、今月MediaTekは、新しいKompanio UltraやDimenity 9400を含む一連の発表を行いました。これらの製品は、スマートフォン用のチップを含むMediaTekのビジネスのより伝統的な部分を埋めます

今週のAIで:Walmartがファッションのトレンドを設定する前に設定します今週のAIで:Walmartがファッションのトレンドを設定する前に設定しますApr 12, 2025 am 11:51 AM

#1 GoogleはAgent2Agentを起動しました 物語:月曜日の朝です。 AI駆動のリクルーターとして、あなたはより賢く、難しくありません。携帯電話の会社のダッシュボードにログインします。それはあなたに3つの重要な役割が調達され、吟味され、予定されていることを伝えます

生成AIは精神障害に会います生成AIは精神障害に会いますApr 12, 2025 am 11:50 AM

私はあなたがそうであるに違いないと思います。 私たちは皆、精神障害がさまざまな心理学の用語を混ぜ合わせ、しばしば理解できないか完全に無意味であることが多い、さまざまなおしゃべりで構成されていることを知っているようです。 FOを吐き出すために必要なことはすべてです

プロトタイプ:科学者は紙をプラスチックに変えますプロトタイプ:科学者は紙をプラスチックに変えますApr 12, 2025 am 11:49 AM

今週公開された新しい研究によると、2022年に製造されたプラスチックの9.5%のみがリサイクル材料から作られていました。一方、プラスチックは埋め立て地や生態系に積み上げられ続けています。 しかし、助けが近づいています。エンジンのチーム

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

mPDF

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SecLists

SecLists

SecLists は、セキュリティ テスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティ テスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティ テストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジング ペイロード、機密データ パターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテスト マシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

EditPlus 中国語クラック版

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

Dreamweaver Mac版

Dreamweaver Mac版

ビジュアル Web 開発ツール