検索
ホームページテクノロジー周辺機器AI小規模、高効率: DeepMind がマルチモーダル ソリューション Mirasol 3B を発売

マルチモーダル学習が直面する主な課題の 1 つは、テキスト、オーディオ、ビデオなどの異種モダリティを融合する必要があることです。マルチモーダル モデルでは、さまざまなソースからの信号を組み合わせる必要があります。ただし、これらのモダリティには異なる特性があり、単一のモデルに組み合わせるのは困難です。たとえば、ビデオとテキストのサンプリング レートは異なります

最近、Google DeepMind の研究チームは、さまざまなモダリティの機能に従って、マルチモーダル モデルを複数の独立した特殊な自己回帰モデルに分離しました。入力を処理します。

具体的には、この研究では Mirasol3B と呼ばれるマルチモーダル モデルを提案しています。 Mirasol3B は、オーディオおよびビデオ用の時間同期された自己回帰コンポーネントと、コンテキスト モダリティ用の自己回帰コンポーネントで構成されます。これらのモードは必ずしも時間的に揃っているわけではありませんが、順番に配置されています。

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

論文アドレス: https://arxiv.org/abs/2311.05698

Mirasol3B は、マルチモーダル ベンチマークで SOTA レベルに達し、大規模モデルを上回るパフォーマンスを示します。 Mirasol3B は、よりコンパクトな表現を学習し、オーディオビデオ特徴表現のシーケンス長を制御し、時間的対応に基づいてモデリングすることにより、マルチモーダル入力の高度な計算要件を効果的に満たすことができます。

メソッドの紹介

Mirasol3B は、自己回帰モデリングが時間的アライメントに分離されたオーディオ、ビデオ、テキストのマルチモーダル モデルです。モダリティの自己回帰コンポーネント (例:オーディオ、ビデオ)、および時間的に調整されていないコンテキスト モダリティ(テキストなど)の自己回帰コンポーネント。 Mirasol3B は、クロスアテンションの重みを使用して、これらのコンポーネントの学習プロセスを調整します。この分離により、モデル内のパラメーター分布がより合理的になり、モダリティ (ビデオとオーディオ) に十分な容量が割り当てられ、モデル全体がより軽量になります。

図 1 に示すように、Mirasol3B は、自己回帰コンポーネントと入力結合コンポーネントという 2 つの主要な学習コンポーネントで構成されています。その中で、自己回帰コンポーネントは、タイムリーな入力の組み合わせのために、ビデオやオーディオなどのほぼ同時にマルチモーダル入力を処理するように設計されています。

#コンテンツを書き換える場合は、元の意味を変更せずに言語を中国語に変更する必要があります。 この研究では、時間的に整列したモダリティを時間セグメントに分割し、時間セグメントにおけるオーディオとビデオの結合表現を学習することを提案しています。具体的には、本研究では「Combiner」と呼ばれるモーダル関節特徴学習機構を提案します。 「Combiner」は、同じ期間内のモーダル特徴を融合して、よりコンパクトな表現を生成します。

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

「Combiner」は、元のモーダル入力から一次時空間表現を抽出し、ビデオをキャプチャします。同期オーディオ機能と組み合わせることで、このモデルはさまざまなレートでマルチモーダル入力を受信でき、長いビデオを処理するときに適切にパフォーマンスを発揮します。 规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

「Combiner」は、効率的で有益なモーダル表現のニーズを効果的に満たします。ビデオや他の並行モダリティにおけるイベントやアクティビティを完全にカバーでき、後続の自己回帰モデルで長期的な依存関係を学習するために使用できます。

ビデオ信号とオーディオ信号を処理し、より長いビデオ/オーディオ入力に対応するために、それらは (時間的にほぼ同期された) 小さな部分に分割されます。そして「Combiner」を通じて共同視聴覚表現を学びます。 2 番目のコンポーネントは、コンテキスト、つまりグローバルなテキスト情報などの時間的にずれた信号を処理しますが、これらは依然として連続していることがよくあります。また、自己回帰的であり、結合された潜在空間をクロスアテンション入力として使用します。

学習コンポーネントにはビデオと音声が含まれており、そのパラメーターは 3B ですが、音声のないコンポーネントは 2.9B です。その中で、ほとんどのパラメーターはオーディオとビデオの自己回帰モデルで使用されます。 Mirasol3B は通常 128 フレームのビデオを処理しますが、512 フレームなどのより長いビデオも処理できます。规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

パーティションと「コンバイナー」モデル アーキテクチャの設計により、さらにフレームを追加します。ブロックのサイズや数などによってパラメータがわずかに増加するだけで、長いビデオにはより多くのパラメータとより多くのメモリが必要になるという問題が解決されます。

実験と結果

この調査では、標準 VideoQA ベンチマーク、長時間ビデオ VideoQA ベンチマーク、およびオーディオ ビデオ ベンチマークで Mirasol3B をテストし、評価しました。

VideoQA データ セット MSRVTTQA のテスト結果は、以下の表 1 に示されています。Mirasol3B は、現在の SOTA モデルだけでなく、PaLI-X や Flamingo などのより大きなモデルも上回っています。

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

長いビデオの質疑応答に関して、この研究では、ActivityNet-QA および NExTQA データ セットで Mirasol3B をテストおよび評価しました。結果は次のとおりです。表示:

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

最終的に、調査ではオーディオビデオのベンチマークに KineticsSound、VGG-Sound、および Epic-Sound を選択しました。そしてオープンな生成評価を採用しました。実験結果を以下の表 3 に示します。

规模小、效率高:DeepMind推出多模态解决方案Mirasol 3B

#興味のある読者は、論文の原文を読んで、研究内容についてさらに詳しく知ることができます。

以上が小規模、高効率: DeepMind がマルチモーダル ソリューション Mirasol 3B を発売の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明
この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。
ほとんどが使用されています10 Power BIチャート - 分析Vidhyaほとんどが使用されています10 Power BIチャート - 分析VidhyaApr 16, 2025 pm 12:05 PM

Microsoft PowerBIチャートでデータ視覚化の力を活用する 今日のデータ駆動型の世界では、複雑な情報を非技術的な視聴者に効果的に伝えることが重要です。 データの視覚化は、このギャップを橋渡しし、生データを変換するi

AIのエキスパートシステムAIのエキスパートシステムApr 16, 2025 pm 12:00 PM

エキスパートシステム:AIの意思決定力に深く飛び込みます 医療診断から財務計画まで、あらゆることに関する専門家のアドバイスにアクセスできることを想像してください。 それが人工知能の専門家システムの力です。 これらのシステムはプロを模倣します

3人の最高の雰囲気コーダーがこのAI革命をコードで分解する3人の最高の雰囲気コーダーがこのAI革命をコードで分解するApr 16, 2025 am 11:58 AM

まず第一に、これがすぐに起こっていることは明らかです。さまざまな企業が、現在AIによって書かれているコードの割合について話しており、これらは迅速なクリップで増加しています。すでに多くの仕事の移動があります

滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますか滑走路AIのGen-4:AIモンタージュはどのように不条理を超えることができますかApr 16, 2025 am 11:45 AM

映画業界は、デジタルマーケティングからソーシャルメディアまで、すべてのクリエイティブセクターとともに、技術的な岐路に立っています。人工知能が視覚的なストーリーテリングのあらゆる側面を再構築し始め、エンターテイメントの風景を変え始めたとき

5日間のISRO AI無料コースを登録する方法は? - 分析Vidhya5日間のISRO AI無料コースを登録する方法は? - 分析VidhyaApr 16, 2025 am 11:43 AM

ISROの無料AI/MLオンラインコース:地理空間技術の革新へのゲートウェイ インド宇宙研究機関(ISRO)は、インドのリモートセンシング研究所(IIRS)を通じて、学生と専門家に素晴らしい機会を提供しています。

AIのローカル検索アルゴリズムAIのローカル検索アルゴリズムApr 16, 2025 am 11:40 AM

ローカル検索アルゴリズム:包括的なガイド 大規模なイベントを計画するには、効率的なワークロード分布が必要です。 従来のアプローチが失敗すると、ローカル検索アルゴリズムは強力なソリューションを提供します。 この記事では、Hill ClimbingとSimulについて説明します

OpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますOpenaiはGPT-4.1でフォーカスをシフトし、コーディングとコスト効率を優先しますApr 16, 2025 am 11:37 AM

このリリースには、GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOの3つの異なるモデルが含まれており、大規模な言語モデルのランドスケープ内のタスク固有の最適化への動きを示しています。これらのモデルは、ようなユーザー向けインターフェイスをすぐに置き換えません

プロンプト:ChatGptは偽のパスポートを生成しますプロンプト:ChatGptは偽のパスポートを生成しますApr 16, 2025 am 11:35 AM

Chip Giant Nvidiaは、月曜日に、AI Supercomputersの製造を開始すると述べました。これは、大量のデータを処理して複雑なアルゴリズムを実行できるマシンを初めて初めて米国内で実行します。発表は、トランプSI大統領の後に行われます

See all articles

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

SublimeText3 Linux 新バージョン

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

AtomエディタMac版ダウンロード

AtomエディタMac版ダウンロード

最も人気のあるオープンソースエディター

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

VSCode Windows 64 ビットのダウンロード

VSCode Windows 64 ビットのダウンロード

Microsoft によって発売された無料で強力な IDE エディター