Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減-AI-php.cn

ホームページ

テクノロジー周辺機器

Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減

PHPz

May 16, 2023 pm 06:37 PM

モデル研究

ビデオは、人々の日常生活のさまざまな側面に影響を与えるメディアコンテンツの遍在するソースです。ビデオ字幕、コンテンツ分析、ビデオ質問応答 (VideoQA) など、現実世界のビデオアプリケーションの多くは、ビデオコンテンツをテキストや自然言語に接続できるモデルに依存しています。

その中でも、映像質疑応答モデルは、シーン内の対象などの意味情報と、物がどのように動き、どのように動くかなどの時間情報を同時に把握する必要があるため、特に困難です。交流する。どちらのタイプの情報も、特定の意図を持った自然言語の質問のコンテキストに配置する必要があります。さらに、ビデオには多くのフレームがあるため、時空間情報を学習するためにすべてのフレームを処理すると、計算量が膨大になる場合があります。

Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減

論文リンク: https://arxiv.org/pdf/2208.00934.pdfこの問題を解決するために、Google と MIT の研究者は、記事「反復的なビデオとテキストの相互トークン化によるビデオ質問応答」の中で、「反復的な相互トークン化」と呼ばれるビデオとテキストの新しい学習方法を紹介しました。ビデオ質問応答における情報処理のための空間的、時間的および言語的情報。

Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減

この方法はマルチストリームであり、独立したバックボーンモデルを使用してさまざまなスケールのビデオを処理します。高空間解像度や長時間ビデオなど、さまざまな特徴を捉えたビデオ表現を生成します。このモデルは、「共同認証」モジュールを適用して、ビデオストリームとテキストの融合から効果的な表現を学習します。このモデルは計算効率が非常に高く、必要な GFLOP はわずか 67 GFLOP で、これは以前の方法より少なくとも 50% 低く、他の SOTA モデルよりもパフォーマンスが優れています。

ビデオとテキストの反復

このモデルの主な目標は、ビデオとテキスト (つまり、ユーザーの質問) から、対応する入力の相互作用を可能にする特徴を生成することです。 2 番目の目標は、これを効率的な方法で行うことです。ビデオには数十から数百の入力フレームが含まれるため、これはビデオにとって非常に重要です。

モデルは、両方のモダリティを共同かつ効率的に表現するために、共同のビデオ言語入力をより小さなラベルのセットにラベル付けすることを学習します。トークン化の際、研究者は両方のモードを使用して結合コンパクト表現を生成し、それが変換レイヤーに供給されて次のレベルの表現が生成されます。

ここでの課題は、クロスモーダル学習における典型的な問題でもありますが、ビデオフレームが関連テキストに直接対応していないことが多いということです。研究者らは、トークン化の前に視覚的特徴とテキスト特徴の次元を統合するために 2 つの学習可能な線形レイヤーを追加することで、この問題を解決しました。これにより、研究者らはビデオとテキストの両方でビデオタグを学習する方法を条件付けることができました。

さらに、単一のトークン化ステップでは、2 つのモード間でさらに対話することはできません。これを行うために、研究者らはこの新しい特徴表現を使用してビデオ入力特徴と対話し、別のトークン化された特徴セットを生成し、それが次のトランスフォーマー層に供給されます。この反復プロセスにより、2 つのモードの結合表現の継続的な改善を表す新しいフィーチャまたはマーカーが作成されます。最後に、これらの特徴は、テキスト出力を生成するデコーダーに供給されます。

Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減

ビデオ品質評価の一般的な慣行と同様に、研究者はモデルを個別に微調整する前にモデルを微調整しました。ビデオ品質評価データセット。事前トレーニングを実施します。この研究では、研究者らは、大規模な VideoQA データセットでの事前トレーニングの代わりに HowTo100M データセットを使用して、音声認識に基づいてビデオにテキストの注釈を自動的に付けました。この弱い事前トレーニングデータでも、研究者のモデルはビデオテキストの特徴を学習することができました。

効率的なビデオ質問応答の実装

研究者らは、ビデオ言語の反復型共同認証アルゴリズムを 3 つの主要な VideoQA ベンチマーク、MSRVTT-QA、MSVD-QA、IVQA に適用しました。を示し、モデルを大きくしすぎずに、このアプローチが他の最先端のモデルよりも優れた結果を達成できることを示しています。さらに、反復的な共同ラベル学習では、ビデオとテキストの学習タスクに必要な計算能力も低くなります。

Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減

このモデルは 67GFLOPS の計算能力のみを使用します。これは、3D-ResNet ビデオモデルとテキストに必要な計算能力です ( 360GFLOPS )、これは X3D モデルの 2 倍以上の効率です。最先端の手法を超える高精度の結果を生成します。

マルチストリームビデオ入力

VideoQA またはビデオ入力を伴うその他のタスクでは、マルチストリーム入力の方が空間的および時間的に関する質問に答えるのがより正確であることが研究者らによってわかりました。人間関係この質問は非常に重要です。

研究者らは、解像度とフレームレートが異なる 3 つのビデオストリームを利用しました。低解像度、高フレームレートの入力ビデオストリーム (毎秒 32 フレーム、空間解像度 64x64、 32x64x64)、高解像度、低フレームレートのビデオ (8x224x224)、およびその中間のビデオ (16x112x112)。

3 つのデータストリームを使用すると処理する情報が明らかに増えますが、反復的な同時ラベル付け手法により非常に効率的なモデルが得られます。同時に、これらの追加のデータストリームにより、最も関連性の高い情報を抽出できるようになります。

たとえば、以下に示すように、特定のアクティビティに関連する質問は、一般的なアクティビティよりも解像度は低くてもフレームレートが高いビデオ入力でより高いアクティベーションを生成します。フレーム数が少ない高解像度の入力から応答することができます。

Google と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減

このアルゴリズムのもう 1 つの利点は、トークン化が質問に基づいて行われることです。違う、変わった。

結論

研究者らは、ビデオとテキストのモダリティにわたる共同学習に焦点を当てた、新しいビデオ言語学習方法を提案しました。研究者たちはビデオ質問応答という重要かつ困難な課題に取り組んでいます。研究者のアプローチは効率的かつ正確であり、より効率的であるにもかかわらず、現在の最先端モデルを上回るパフォーマンスを発揮します。

Google 研究者のアプローチはモデルのサイズが控えめであり、より大きなモデルとデータを使用するとさらにパフォーマンスが向上する可能性があります。研究者らは、この研究が視覚言語学習の研究をさらに促進し、視覚ベースのメディアとのよりシームレスなインタラクションを可能にすることを期待している。

以上がGoogle と MIT の「Iterative Joint Certification」ビデオ質疑応答モデル: SOTA パフォーマンス、使用するコンピューティング能力が 80% 削減の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Huggingface smollmであなたの個人的なAIアシスタントを構築する方法Apr 18, 2025 am 11:52 AM

オンデバイスAIの力を活用：個人的なチャットボットCLIの構築最近では、個人的なAIアシスタントの概念はサイエンスフィクションのように見えました。ハイテク愛好家のアレックスを想像して、賢くて地元のAI仲間を夢見ています。

メンタルヘルスのためのAIは、スタンフォード大学でのエキサイティングな新しいイニシアチブによって注意深く分析されますApr 18, 2025 am 11:49 AM

AI4MHの最初の発売は2025年4月15日に開催され、有名な精神科医および神経科学者であるLuminary Dr. Tom Insel博士がキックオフスピーカーを務めました。 Insel博士は、メンタルヘルス研究とテクノでの彼の傑出した仕事で有名です

2025年のWNBAドラフトクラスは、成長し、オンラインハラスメントの成長と戦いに参加しますApr 18, 2025 am 11:44 AM

「私たちは、WNBAが、すべての人、プレイヤー、ファン、企業パートナーが安全であり、大切になり、力を与えられたスペースであることを保証したいと考えています」とエンゲルバートは述べ、女性のスポーツの最も有害な課題の1つになったものに取り組んでいます。アノ

Pythonビルトインデータ構造の包括的なガイド-AnalyticsVidhyaApr 18, 2025 am 11:43 AM

導入 Pythonは、特にデータサイエンスと生成AIにおいて、プログラミング言語として優れています。大規模なデータセットを処理する場合、効率的なデータ操作（ストレージ、管理、アクセス）が重要です。以前に数字とstをカバーしてきました

Openaiの新しいモデルからの代替案からの第一印象Apr 18, 2025 am 11:41 AM

潜る前に、重要な注意事項：AIパフォーマンスは非決定論的であり、非常にユースケース固有です。簡単に言えば、走行距離は異なる場合があります。この（または他の）記事を最終的な単語として撮影しないでください。これらのモデルを独自のシナリオでテストしないでください

AIポートフォリオ| AIキャリアのためにポートフォリオを構築する方法は？Apr 18, 2025 am 11:40 AM

傑出したAI/MLポートフォリオの構築：初心者と専門家向けガイド説得力のあるポートフォリオを作成することは、人工知能（AI）と機械学習（ML）で役割を確保するために重要です。このガイドは、ポートフォリオを構築するためのアドバイスを提供します

エージェントAIがセキュリティ運用にとって何を意味するのかApr 18, 2025 am 11:36 AM

結果？燃え尽き症候群、非効率性、および検出とアクションの間の隙間が拡大します。これは、サイバーセキュリティで働く人にとってはショックとしてはありません。しかし、エージェントAIの約束は潜在的なターニングポイントとして浮上しています。この新しいクラス

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。