マルチモーダル学習が直面する主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種モダリティを融合する必要があることです。マルチモーダル モデルでは、さまざまなソースからの信号を組み合わせる必要があります。ただし、これらのモダリティには異なる特性があり、単一のモデルに組み合わせるのは困難です。たとえば、ビデオとテキストのサンプリング レートは異なります
最近、Google DeepMind の研究チームは、さまざまなモダリティの機能に従って、マルチモーダル モデルを複数の独立した特殊な自己回帰モデルに分離しました。入力を処理します。
具体的には、この研究では Mirasol3B と呼ばれるマルチモーダル モデルを提案しています。 Mirasol3B は、オーディオおよびビデオ用の時間同期された自己回帰コンポーネントと、コンテキスト モダリティ用の自己回帰コンポーネントで構成されます。これらのモードは必ずしも時間的に揃っているわけではありませんが、順番に配置されています。
論文アドレス: https://arxiv.org/abs/2311.05698
Mirasol3B は、マルチモーダル ベンチマークで SOTA レベルに達し、大規模モデルを上回るパフォーマンスを示します。 Mirasol3B は、よりコンパクトな表現を学習し、オーディオビデオ特徴表現のシーケンス長を制御し、時間的対応に基づいてモデリングすることにより、マルチモーダル入力の高度な計算要件を効果的に満たすことができます。
メソッドの紹介
Mirasol3B は、自己回帰モデリングが時間的アライメントに分離されたオーディオ、ビデオ、テキストのマルチモーダル モデルです。モダリティの自己回帰コンポーネント (例:オーディオ、ビデオ)、および時間的に調整されていないコンテキスト モダリティ(テキストなど)の自己回帰コンポーネント。 Mirasol3B は、クロスアテンションの重みを使用して、これらのコンポーネントの学習プロセスを調整します。この分離により、モデル内のパラメーター分布がより合理的になり、モダリティ (ビデオとオーディオ) に十分な容量が割り当てられ、モデル全体がより軽量になります。
図 1 に示すように、Mirasol3B は、自己回帰コンポーネントと入力結合コンポーネントという 2 つの主要な学習コンポーネントで構成されています。その中で、自己回帰コンポーネントは、タイムリーな入力の組み合わせのために、ビデオやオーディオなどのほぼ同時にマルチモーダル入力を処理するように設計されています。
#コンテンツを書き換える場合は、元の意味を変更せずに言語を中国語に変更する必要があります。 この研究では、時間的に整列したモダリティを時間セグメントに分割し、時間セグメントにおけるオーディオとビデオの結合表現を学習することを提案しています。具体的には、本研究では「Combiner」と呼ばれるモーダル関節特徴学習機構を提案します。 「Combiner」は、同じ期間内のモーダル特徴を融合して、よりコンパクトな表現を生成します。 「Combiner」は、元のモーダル入力から一次時空間表現を抽出し、ビデオをキャプチャします。同期オーディオ機能と組み合わせることで、このモデルはさまざまなレートでマルチモーダル入力を受信でき、長いビデオを処理するときに適切にパフォーマンスを発揮します。
「Combiner」は、効率的で有益なモーダル表現のニーズを効果的に満たします。ビデオや他の並行モダリティにおけるイベントやアクティビティを完全にカバーでき、後続の自己回帰モデルで長期的な依存関係を学習するために使用できます。
ビデオ信号とオーディオ信号を処理し、より長いビデオ/オーディオ入力に対応するために、それらは (時間的にほぼ同期された) 小さな部分に分割されます。そして「Combiner」を通じて共同視聴覚表現を学びます。 2 番目のコンポーネントは、コンテキスト、つまりグローバルなテキスト情報などの時間的にずれた信号を処理しますが、これらは依然として連続していることがよくあります。また、自己回帰的であり、結合された潜在空間をクロスアテンション入力として使用します。
学習コンポーネントにはビデオと音声が含まれており、そのパラメーターは 3B ですが、音声のないコンポーネントは 2.9B です。その中で、ほとんどのパラメーターはオーディオとビデオの自己回帰モデルで使用されます。 Mirasol3B は通常 128 フレームのビデオを処理しますが、512 フレームなどのより長いビデオも処理できます。
パーティションと「コンバイナー」モデル アーキテクチャの設計により、さらにフレームを追加します。ブロックのサイズや数などによってパラメータがわずかに増加するだけで、長いビデオにはより多くのパラメータとより多くのメモリが必要になるという問題が解決されます。
実験と結果
この調査では、標準 VideoQA ベンチマーク、長時間ビデオ VideoQA ベンチマーク、およびオーディオ ビデオ ベンチマークで Mirasol3B をテストし、評価しました。
VideoQA データ セット MSRVTTQA のテスト結果は、以下の表 1 に示されています。Mirasol3B は、現在の SOTA モデルだけでなく、PaLI-X や Flamingo などのより大きなモデルも上回っています。
長いビデオの質疑応答に関して、この研究では、ActivityNet-QA および NExTQA データ セットで Mirasol3B をテストおよび評価しました。結果は次のとおりです。表示:
最終的に、調査ではオーディオビデオのベンチマークに KineticsSound、VGG-Sound、および Epic-Sound を選択しました。そしてオープンな生成評価を採用しました。実験結果を以下の表 3 に示します。
#興味のある読者は、論文の原文を読んで、研究内容についてさらに詳しく知ることができます。
以上が小規模、高効率: DeepMind がマルチモーダル ソリューション Mirasol 3B を発売の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

オンデバイスAIの力を活用:個人的なチャットボットCLIの構築 最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。 ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。 アノ

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。 大規模なデータセットを処理する場合、効率的なデータ操作(ストレージ、管理、アクセス)が重要です。 以前に数字とstをカバーしてきました

潜る前に、重要な注意事項:AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この(または他の)記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

傑出したAI/MLポートフォリオの構築:初心者と専門家向けガイド 説得力のあるポートフォリオを作成することは、人工知能(AI)と機械学習(ML)で役割を確保するために重要です。 このガイドは、ポートフォリオを構築するためのアドバイスを提供します

結果?燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。 しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

即時の影響と長期パートナーシップ? 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

PhpStorm Mac バージョン
最新(2018.2.1)のプロフェッショナル向けPHP統合開発ツール

SAP NetWeaver Server Adapter for Eclipse
Eclipse を SAP NetWeaver アプリケーション サーバーと統合します。

SublimeText3 英語版
推奨: Win バージョン、コードプロンプトをサポート!

AtomエディタMac版ダウンロード
最も人気のあるオープンソースエディター

Dreamweaver Mac版
ビジュアル Web 開発ツール
