ホームページ >テクノロジー周辺機器 >AI >Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

WBOY
WBOY転載
2023-11-17 23:39:011114ブラウズ

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

11 月 16 日のニュースとして、Google は最近、動画に関する質問に答え、新記録を樹立できる小型人工知能モデル、Mirasol を紹介するプレス リリースを発行しました。

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

AI モデルが異なるデータ ストリームを処理することは現時点では困難です。AI にビデオを理解させたい場合は、ビデオなどのさまざまなモダリティからの情報を統合する必要があります。 、音声、テキストの追加により、難易度が大幅に上がります。

Google と Google Deepmind の研究者は、マルチモーダルな理解を長いビデオの領域に拡張する新しい方法を提案しました。

Mirasol AI モデルを使用して、チームは 2 つの重要な課題の解決に取り組みました。

    ビデオとオーディオを高いサンプリング周波数で同期する必要があるが、タイトルとビデオの説明は非同期で処理する必要があります。
  • ビデオとオーディオは大量のデータを生成するため、モデルの容量に負担がかかる可能性があります。
Mirasol では、Google はコンバイナーと自己回帰コンバーター モデルを採用しています

このモデル コンポーネントは、時間同期されたビデオ信号とオーディオ信号を処理し、ビデオを独立したフラグメントに分割します

トランスフォーマーは各フラグメントを処理し、各フラグメント間の接続を学習し、別のトランスフォーマーを使用してコンテキスト テキストを処理します。2 つのコンポーネントはそれぞれの入力に関する情報を交換します。

Combiner と呼ばれる新しい変換モジュールは、各フラグメントから共通の表現を抽出し、次元削減を通じてデータを圧縮できます。各クリップには 4 ~ 64 フレームが含まれており、モデルには現在 30 億のパラメータがあり、128 ~ 512 フレームのビデオを処理できます。

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

テストでは、ビデオの問題分析に Mirasol3B が使用されました。サイズの点で新しいベンチマークに到達し、大幅に小さくなり、長いビデオを処理できるようになりました。メモリを備えたコンバイナーのバリアントを使用することで、チームは必要なコンピューティング能力をさらに 18% 削減することができました

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

Google が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張

このサイトには、Mirasol の

公式プレスリリース が添付されており、興味のあるユーザーは詳しく読むことができます。

以上がGoogle が Mirasol を発表: 30 億パラメータ、マルチモーダルの理解を長い動画まで拡張の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。