ホームページ >テクノロジー周辺機器 >AI >Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-11-17 23:39:011175ブラウズ

11 月 16 日のニュースとして、Google は最近、動画に関する質問に答え、新記録を樹立できる小型人工知能モデル、Mirasol を紹介するプレスリリースを発行しました。

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

AI モデルが異なるデータストリームを処理することは現時点では困難です。AI にビデオを理解させたい場合は、ビデオなどのさまざまなモダリティからの情報を統合する必要があります。、音声、テキストの追加により、難易度が大幅に上がります。

Google と Google Deepmind の研究者は、マルチモーダルな理解を長いビデオの領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの重要な課題の解決に取り組みました。

ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。

Mirasol では、Google はコンバイナーと自己回帰コンバーターモデルを採用しています

このモデルコンポーネントは、時間同期されたビデオ信号とオーディオ信号を処理し、ビデオを独立したフラグメントに分割します

トランスフォーマーは各フラグメントを処理し、各フラグメント間の接続を学習し、別のトランスフォーマーを使用してコンテキストテキストを処理します。2 つのコンポーネントはそれぞれの入力に関する情報を交換します。

Combiner と呼ばれる新しい変換モジュールは、各フラグメントから共通の表現を抽出し、次元削減を通じてデータを圧縮できます。各クリップには 4 ～ 64 フレームが含まれており、モデルには現在 30 億のパラメータがあり、128 ～ 512 フレームのビデオを処理できます。

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

テストでは、ビデオの問題分析に Mirasol3B が使用されました。サイズの点で新しいベンチマークに到達し、大幅に小さくなり、長いビデオを処理できるようになりました。メモリを備えたコンバイナーのバリアントを使用することで、チームは必要なコンピューティング能力をさらに 18% 削減することができました

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

このサイトには、Mirasol の

公式プレスリリースが添付されており、興味のあるユーザーは詳しく読むことができます。

以上がGoogle が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

异步人工智能

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Tencent Cloudの「AI Super Base」特別セッションがWOTカンファレンスで公開され、技術革新がAIインフラストラクチャの新たな章を導く次の記事：Tencent Cloudの「AI Super Base」特別セッションがWOTカンファレンスで公開され、技術革新がAIインフラストラクチャの新たな章を導く

続きを見る