Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない

ホームページ

テクノロジー周辺機器

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

PHPz

Mar 31, 2023 pm 10:42 PM

言語

中国の医師と Google の科学者は最近、ビデオ内の複数のイベントを区別して説明できる事前トレーニング済み視覚言語モデル Vid2Seq を提案しました。この論文は CVPR 2023 に受理されました。

最近、Google の研究者は、マルチイベントビデオを記述するための事前トレーニング済み視覚言語モデル Vid2Seq を提案し、CVPR23 に受け入れられました。

以前は、ビデオには異なる時間スケールで発生する複数のイベントが含まれることが多かったため、ビデオコンテンツを理解するのは困難な作業でした。

たとえば、マッシャーが犬をそりに繋ぎ、犬が走り始めるビデオには、長いイベント (犬ぞり) と短いイベント (犬がそりに繋がれている) が含まれます。

ビデオ理解研究を進める 1 つの方法は、高密度のビデオアノテーションタスクを使用することです。これには、1 分間のビデオ内のすべてのイベントを時間的に位置特定して説明することが含まれます。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

論文アドレス: https://arxiv.org/abs/2302.14115

Vid2Seq アーキテクチャは、特別なタイムスタンプを使用して言語モデルを強化し、同じ出力シーケンス内のイベントの境界とテキストの説明をシームレスに予測します。

この統合モデルを事前トレーニングするために、研究者たちはラベルのないナレーション付きビデオを利用しました。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

Vid2Seq モデルの概要

結果として得られた Vid2Seq モデルは、数百万のナレーション付きビデオで事前トレーニングされ、ビデオアノテーションベンチマークのさまざまな高密度の技術レベルが向上しました。 YouCook2、ViTT、ActivityNet のキャプション。

Vid2Seq は、数ショットの高密度ビデオアノテーション設定、ビデオセグメントアノテーションタスク、および標準ビデオアノテーションタスクにも適しています。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

高密度ビデオ注釈用の視覚言語モデル

マルチモーダル Transformer アーキテクチャにより、アクション認識などのさまざまなビデオタスクの SOTA が更新されました。ただし、このようなアーキテクチャを、数分間のビデオ内のイベントを共同で見つけて注釈を付けるという複雑なタスクに適応させるのは簡単ではありません。

この目標を達成するために、研究者は、空間ドメインの Pix2Seq と同様に、ビデオ内の離散タイムスタンプを表す特別なタイムマーカー (テキストマーカーなど) を使用して視覚言語モデルを強化しました。

特定のビジュアル入力に対して、結果として得られる Vid2Seq モデルは、入力を受け入れ、テキストおよび時間タグ付きシーケンスを生成することができます。

まず、これにより、Vid2Seq モデルは、単一のトークンシーケンスとして投影される、文字起こしされた音声入力の時間情報を理解できるようになります。第 2 に、これにより、Vid2Seq は単一のマーカーシーケンスを生成しながら、ビデオ内の高密度イベントアノテーションを時間的に統合して予測できるようになります。

Vid2Seq アーキテクチャには、ビデオフレームと文字起こしされた音声入力をそれぞれエンコードするビジュアルエンコーダとテキストエンコーダが含まれています。結果のエンコードはテキストデコーダに転送され、高密度イベントアノテーションの出力シーケンスとビデオ内での時間的位置が自動的に予測されます。このアーキテクチャは、強力なビジュアルバックボーンと強力な言語モデルで初期化されています。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

ビデオに関する大規模な事前トレーニング

高密度ビデオアノテーションのアノテーションを手動で収集することは、タスクの集中的な性質のため、特にコストがかかります。

したがって、研究者らは、大規模に簡単に利用できる、ラベルのないナレーションビデオを使用して Vid2Seq モデルを事前トレーニングしました。また、YT-Temporal-1B データセットも使用しました。これには、幅広い領域をカバーする 1,800 万本のナレーション付きビデオが含まれています。

研究者らは、書き起こされた音声文とそれに対応するタイムスタンプを監視として使用し、これらの文は単一のトークンシーケンスとして投影されました。

Vid2Seq は、視覚入力が与えられた文字起こしされた音声シーケンスのみを予測するようにデコーダーに教える生成目標と、マルチモーダル学習を促進するノイズ除去目標を使用して事前トレーニングされ、モデルにノイズの多い文字起こしされた音声のコンテキストでの予測マスクを要求します。シーケンスと視覚的な入力。特に、スパントークンをランダムにマスクすることによって、音声シーケンスにノイズが追加されます。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

下流タスクのベンチマーク結果

結果として得られる事前トレーニング済み Vid2Seq モデルは、教師強制を使用する単純な最尤目標 (つまり、次のトークンに基づいて次のトークンを予測すると仮定した場合) を介して、下流タスクで微調整できます。以前の基本的な実際のトークン)。

微調整後、Vid2Seq は 3 つの標準的なダウンストリーム高密度ビデオアノテーションベンチマーク (ActivityNet Captions、YouCook2、および ViTT) と 2 つのビデオクリップアノテーションベンチマーク (MSR-VTT、MSVD) で SOTA を上回りました。

この論文には、追加のアブレーション研究、定性的結果、数ショット設定およびビデオ段落注釈タスクの結果が含まれています。

定性テスト

結果は、Vid2Seq が意味のあるイベントの境界と注釈を予測できること、および予測された注釈と境界が書き起こされた音声入力とは大きく異なることを示しています (これは、入力の重要性が重要であることも示しています)視覚マーカーの）。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

次の例は、料理レシピの一連の指示に関するもので、YouCook2 検証セットに対する Vid2Seq による集中的なイベントアノテーション予測の例です。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

以下は、ActivityNet Captions 検証セットでの Vid2Seq の高密度イベントアノテーション予測の例です。これらのビデオにはすべて、文字起こしされた音声がありません。

しかし、それでも失敗するケースはあるでしょう。たとえば、Vid2Seq 氏によると、下の赤でマークされた写真は、カメラの前で帽子を脱ぐ人物です。

SOTA のベンチマーク

表 5 は、Vid2Seq と最先端の高密度ビデオアノテーションメソッドを比較しています。Vid2Seq は、YouCook2、ViTT、ActivityNet Captions の 3 つのデータセットで SOTA を更新します。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

YouCook2 と ActivityNet Captions における Vid2Seq の SODA インジケーターは、PDVC と UEDVC よりそれぞれ 3.5 ポイントと 0.3 ポイント高くなっています。また、E2ESG は Wikihow でドメイン内のプレーンテキストの事前トレーニングを使用しており、Vid2Seq はこの方法よりも優れています。これらの結果は、事前トレーニングされた Vid2Seq モデルが高密度イベントをラベル付けする強力な能力を備えていることを示しています。

表 6 は、高密度ビデオアノテーションモデルのイベント位置特定パフォーマンスを評価します。 YouCook2 や ViTT と比較して、Vid2Seq は高密度ビデオアノテーションを単一のシーケンス生成タスクとして処理する点で優れています。

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

ただし、PDVC や UEDVC と比較すると、Vid2Seq は、ActivityNet キャプションでのパフォーマンスが低くなります。これら 2 つの方法と比較して、Vid2Seq は時間的位置特定に関する事前知識をあまり統合しませんが、他の 2 つの方法にはイベントカウンターなどのタスク固有のコンポーネントが含まれているか、位置特定サブタスク用にモデルを個別にトレーニングします。

実装の詳細

アーキテクチャ

ビジュアルテンポラルトランスフォーマーエンコーダー、テキストエンコーダー、およびテキストデコーダーはすべて、12 レイヤー、12 ヘッド、埋め込み次元 768、 MLP 隠された次元 2048。

テキストエンコーダーとデコーダーのシーケンスは、事前トレーニング中は L=S=1000 トークンに切り詰められるか、微調整中は S=1000 および L=256 トークンにパディングされます。推論中に、ビーム検索デコードが使用され、最初の 4 つのシーケンスが追跡され、0.6 の長さ正規化が適用されます。

トレーニング

著者は、重み減衰なしで Adam オプティマイザー β=(0.9, 0.999) を使用しています。

事前トレーニング中、1e^-4 の学習率が使用され、最初の 1000 回の反復では線形にウォームアップ (0 から開始) され、残りの反復では一定に保たれます。

微調整中は、3e^-4 の学習率を使用し、反復の最初の 10% では線形にウォームアップ (0 から開始) し、残りの 90 % ではコサイン減衰 (0 まで) を維持します。反復の%。このプロセスでは、32 個のビデオのバッチサイズが使用され、16 個の TPU v4 チップに分割されます。

著者は、YouCook2 に対して 40 エポック調整、ActivityNet Captions と ViTT に対して 20 エポック調整、MSR-VTT に対して 5 エポック調整、MSVD に対して 10 エポック調整を行いました。

結論

Googleが提案したVid2Seqは、高密度ビデオアノテーションのための新しいビジュアル言語モデルであり、ラベルのないナレーションビデオに対して大規模な事前トレーニングを効果的に実行でき、さまざまなダウンストリームでSOTA結果を達成しています高密度ビデオ注釈ベンチマーク。

著者紹介

論文の筆頭著者: Antoine Yang

Google がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023

Antoine Yang は、パリの Inria および高等師範学校の WILLOW チームの博士課程 3 年生で、指導教員は Antoine Mitoch、Josef Sivic、Ivan Laptev、Cordelia Schmid です。

現在の研究は、ビデオを理解するための視覚言語モデルの学習に焦点を当てています。彼は2019年にファーウェイのノアの方舟研究所でインターンし、2020年にパリのエコール・ポリテクニックで工学の学位を取得し、パリ国立大学サクレー校で数学、ビジョン、学習の修士号を取得し、2022年にGoogle Researchでインターンを務めた。

以上がGoogle がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51ctoで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

摩擦から流れへ：AIがどのように法的作業を変えているかMay 09, 2025 am 11:29 AM

法的技術革命は勢いを増し、法律専門家にAIソリューションを積極的に受け入れるように促しています。受動的抵抗は、競争力を維持することを目指している人にとってはもはや実行可能な選択肢ではありません。なぜテクノロジーの採用が重要なのですか？法律専門家

これはAIがあなたのことを考えており、あなたについて知っていることですMay 09, 2025 am 11:24 AM

多くの人は、AIとの相互作用が匿名であると仮定しており、人間のコミュニケーションとはまったく対照的です。ただし、AIはすべてのチャット中にユーザーを積極的にプロファイルします。すべてのプロンプト、すべての単語が分析および分類されます。 AI Revoのこの重要な側面を探りましょう

繁栄した、AIの準備ができている企業文化を構築するための7つのステップMay 09, 2025 am 11:23 AM

成功した人工知能戦略は、強力な企業文化サポートから分離することはできません。 Peter Druckerが言ったように、事業運営は人々に依存しており、人工知能の成功も依存しています。人工知能を積極的に受け入れる組織の場合、AIに適応する企業文化を構築することが重要であり、AI戦略の成功または失敗さえ決定します。ウェストモンローは最近、繁栄するAIに優しい企業文化を構築するための実用的なガイドをリリースしました。ここにいくつかの重要なポイントがあります。 1. AIの成功モデルを明確にする：まず第一に、AIがどのようにビジネスに力を与えることができるかについての明確なビジョンが必要です。理想的なAI操作文化は、人間とAIシステム間の作業プロセスの自然統合を実現できます。 AIは特定のタスクが得意であり、人間は創造性と判断が得意です

Netflix New Scroll、Meta AI＆＃x27;のゲームチェンジャー、Neuralinkは85億ドルで評価されていますMay 09, 2025 am 11:22 AM

メタはAIアシスタントアプリケーションをアップグレードし、ウェアラブルAIの時代が来ています！ ChatGPTと競合するように設計されたこのアプリは、テキスト、音声インタラクション、画像生成、Web検索などの標準的なAI機能を提供しますが、初めてジオロケーション機能を追加しました。これは、メタAIがあなたがどこにいるのか、あなたがあなたの質問に答えるときにあなたが何を見ているのかを知っていることを意味します。興味、場所、プロファイル、アクティビティ情報を使用して、これまで不可能な最新の状況情報を提供します。このアプリはリアルタイム翻訳もサポートしており、レイバンメガネのAIエクスペリエンスを完全に変更し、その有用性を大幅に改善しました。外国映画への関税の賦課は、メディアや文化に対する裸の力の行使です。実装された場合、これはAIと仮想生産に向かって加速します

AIサイバー犯罪から身を守るために、今日これらの手順を踏んでくださいMay 09, 2025 am 11:19 AM

人工知能は、サイバー犯罪の分野に革命をもたらし、新しい防御スキルを学ぶことを強いています。サイバー犯罪者は、ディープフォーファリーやインテリジェントなサイバー攻撃などの強力な人工知能技術を、前例のない規模で詐欺と破壊に使用しています。過去1年間、グローバルビジネスの87％がAIサイバー犯罪の標的を絞っていると報告されています。それでは、どうすればこの賢い犯罪の波の犠牲者になることを避けることができますか？リスクを特定し、個人および組織レベルで保護対策を講じる方法を探りましょう。サイバー犯罪者が人工知能をどのように使用するか技術が進むにつれて、犯罪者は、個人、企業、政府を攻撃する新しい方法を常に探しています。人工知能の広範な使用は最新の側面かもしれませんが、その潜在的な害は前例のないものです。特に、人工知能

共生ダンス：人工的および自然な知覚のナビゲートループMay 09, 2025 am 11:13 AM

人工知能（AI）と人間の知能（NI）の複雑な関係は、フィードバックループとして最もよく理解されています。人間はAIを作成し、人間の活動によって生成されたデータでそれをトレーニングして、人間の能力を強化または複製します。このai

AIの最大の秘密 - クリエイターはそれを理解していません、専門家は分裂しますMay 09, 2025 am 11:09 AM

人類の最近の声明は、最先端のAIモデルを取り巻く理解の欠如を強調しており、専門家の間で激しい議論を引き起こしました。この不透明度は本物の技術的危機ですか、それとも単により多くのソフへの道の一時的なハードルですか

Sarvam AIによるBulbul-V2：インドの最高のTTSモデルMay 09, 2025 am 10:52 AM

インドは、言語の豊かなタペストリーを備えた多様な国であり、地域間のシームレスなコミュニケーションを持続的な課題にしています。ただし、SarvamのBulbul-V2は、高度なテキストからスピーチ（TTS）Tでこのギャップを埋めるのに役立ちます。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。