中国の医師と Google の科学者は最近、ビデオ内の複数のイベントを区別して説明できる事前トレーニング済み視覚言語モデル Vid2Seq を提案しました。この論文は CVPR 2023 に受理されました。
最近、Google の研究者は、マルチイベント ビデオを記述するための事前トレーニング済み視覚言語モデル Vid2Seq を提案し、CVPR23 に受け入れられました。
以前は、ビデオには異なる時間スケールで発生する複数のイベントが含まれることが多かったため、ビデオ コンテンツを理解するのは困難な作業でした。
たとえば、マッシャーが犬をそりに繋ぎ、犬が走り始めるビデオには、長いイベント (犬ぞり) と短いイベント (犬がそりに繋がれている) が含まれます。
ビデオ理解研究を進める 1 つの方法は、高密度のビデオ アノテーション タスクを使用することです。これには、1 分間のビデオ内のすべてのイベントを時間的に位置特定して説明することが含まれます。
論文アドレス: https://arxiv.org/abs/2302.14115
Vid2Seq アーキテクチャは、特別なタイムスタンプを使用して言語モデルを強化し、同じ出力シーケンス内のイベントの境界とテキストの説明をシームレスに予測します。
この統合モデルを事前トレーニングするために、研究者たちはラベルのないナレーション付きビデオを利用しました。
Vid2Seq モデルの概要
結果として得られた Vid2Seq モデルは、数百万のナレーション付きビデオで事前トレーニングされ、ビデオ アノテーション ベンチマークのさまざまな高密度の技術レベルが向上しました。 YouCook2、ViTT、ActivityNet のキャプション。
Vid2Seq は、数ショットの高密度ビデオ アノテーション設定、ビデオ セグメント アノテーション タスク、および標準ビデオ アノテーション タスクにも適しています。
高密度ビデオ注釈用の視覚言語モデル
マルチモーダル Transformer アーキテクチャにより、アクション認識などのさまざまなビデオ タスクの SOTA が更新されました。ただし、このようなアーキテクチャを、数分間のビデオ内のイベントを共同で見つけて注釈を付けるという複雑なタスクに適応させるのは簡単ではありません。
この目標を達成するために、研究者は、空間ドメインの Pix2Seq と同様に、ビデオ内の離散タイムスタンプを表す特別なタイム マーカー (テキスト マーカーなど) を使用して視覚言語モデルを強化しました。
特定のビジュアル入力に対して、結果として得られる Vid2Seq モデルは、入力を受け入れ、テキストおよび時間タグ付きシーケンスを生成することができます。
まず、これにより、Vid2Seq モデルは、単一のトークン シーケンスとして投影される、文字起こしされた音声入力の時間情報を理解できるようになります。第 2 に、これにより、Vid2Seq は単一のマーカー シーケンスを生成しながら、ビデオ内の高密度イベント アノテーションを時間的に統合して予測できるようになります。
Vid2Seq アーキテクチャには、ビデオ フレームと文字起こしされた音声入力をそれぞれエンコードするビジュアル エンコーダとテキスト エンコーダが含まれています。結果のエンコードはテキスト デコーダに転送され、高密度イベント アノテーションの出力シーケンスとビデオ内での時間的位置が自動的に予測されます。このアーキテクチャは、強力なビジュアル バックボーンと強力な言語モデルで初期化されています。
ビデオに関する大規模な事前トレーニング
高密度ビデオ アノテーションのアノテーションを手動で収集することは、タスクの集中的な性質のため、特にコストがかかります。
したがって、研究者らは、大規模に簡単に利用できる、ラベルのないナレーション ビデオを使用して Vid2Seq モデルを事前トレーニングしました。また、YT-Temporal-1B データセットも使用しました。これには、幅広い領域をカバーする 1,800 万本のナレーション付きビデオが含まれています。
研究者らは、書き起こされた音声文とそれに対応するタイムスタンプを監視として使用し、これらの文は単一のトークン シーケンスとして投影されました。
Vid2Seq は、視覚入力が与えられた文字起こしされた音声シーケンスのみを予測するようにデコーダーに教える生成目標と、マルチモーダル学習を促進するノイズ除去目標を使用して事前トレーニングされ、モデルにノイズの多い文字起こしされた音声のコンテキストでの予測マスクを要求します。シーケンスと視覚的な入力。特に、スパントークンをランダムにマスクすることによって、音声シーケンスにノイズが追加されます。
下流タスクのベンチマーク結果
結果として得られる事前トレーニング済み Vid2Seq モデルは、教師強制を使用する単純な最尤目標 (つまり、次のトークンに基づいて次のトークンを予測すると仮定した場合) を介して、下流タスクで微調整できます。以前の基本的な実際のトークン)。
微調整後、Vid2Seq は 3 つの標準的なダウンストリーム高密度ビデオ アノテーション ベンチマーク (ActivityNet Captions、YouCook2、および ViTT) と 2 つのビデオ クリップ アノテーション ベンチマーク (MSR-VTT、MSVD) で SOTA を上回りました。
この論文には、追加のアブレーション研究、定性的結果、数ショット設定およびビデオ段落注釈タスクの結果が含まれています。
定性テスト
結果は、Vid2Seq が意味のあるイベントの境界と注釈を予測できること、および予測された注釈と境界が書き起こされた音声入力とは大きく異なることを示しています (これは、入力の重要性が重要であることも示しています)視覚マーカーの)。
次の例は、料理レシピの一連の指示に関するもので、YouCook2 検証セットに対する Vid2Seq による集中的なイベント アノテーション予測の例です。
以下は、ActivityNet Captions 検証セットでの Vid2Seq の高密度イベント アノテーション予測の例です。これらのビデオにはすべて、文字起こしされた音声がありません。
しかし、それでも失敗するケースはあるでしょう。たとえば、Vid2Seq 氏によると、下の赤でマークされた写真は、カメラの前で帽子を脱ぐ人物です。
SOTA のベンチマーク
表 5 は、Vid2Seq と最先端の高密度ビデオ アノテーション メソッドを比較しています。Vid2Seq は、YouCook2、ViTT、ActivityNet Captions の 3 つのデータ セットで SOTA を更新します。
YouCook2 と ActivityNet Captions における Vid2Seq の SODA インジケーターは、PDVC と UEDVC よりそれぞれ 3.5 ポイントと 0.3 ポイント高くなっています。また、E2ESG は Wikihow でドメイン内のプレーン テキストの事前トレーニングを使用しており、Vid2Seq はこの方法よりも優れています。これらの結果は、事前トレーニングされた Vid2Seq モデルが高密度イベントをラベル付けする強力な能力を備えていることを示しています。
表 6 は、高密度ビデオ アノテーション モデルのイベント位置特定パフォーマンスを評価します。 YouCook2 や ViTT と比較して、Vid2Seq は高密度ビデオ アノテーションを単一のシーケンス生成タスクとして処理する点で優れています。
ただし、PDVC や UEDVC と比較すると、Vid2Seq は、ActivityNet キャプションでのパフォーマンスが低くなります。これら 2 つの方法と比較して、Vid2Seq は時間的位置特定に関する事前知識をあまり統合しませんが、他の 2 つの方法にはイベント カウンターなどのタスク固有のコンポーネントが含まれているか、位置特定サブタスク用にモデルを個別にトレーニングします。
実装の詳細
- アーキテクチャ
ビジュアル テンポラル トランスフォーマー エンコーダー、テキスト エンコーダー、およびテキスト デコーダーはすべて、12 レイヤー、12 ヘッド、埋め込み次元 768、 MLP 隠された次元 2048。
テキスト エンコーダーとデコーダーのシーケンスは、事前トレーニング中は L=S=1000 トークンに切り詰められるか、微調整中は S=1000 および L=256 トークンにパディングされます。推論中に、ビーム検索デコードが使用され、最初の 4 つのシーケンスが追跡され、0.6 の長さ正規化が適用されます。
- トレーニング
著者は、重み減衰なしで Adam オプティマイザー β=(0.9, 0.999) を使用しています。
事前トレーニング中、1e^-4 の学習率が使用され、最初の 1000 回の反復では線形にウォームアップ (0 から開始) され、残りの反復では一定に保たれます。
微調整中は、3e^-4 の学習率を使用し、反復の最初の 10% では線形にウォームアップ (0 から開始) し、残りの 90 % ではコサイン減衰 (0 まで) を維持します。反復の%。このプロセスでは、32 個のビデオのバッチ サイズが使用され、16 個の TPU v4 チップに分割されます。
著者は、YouCook2 に対して 40 エポック調整、ActivityNet Captions と ViTT に対して 20 エポック調整、MSR-VTT に対して 5 エポック調整、MSVD に対して 10 エポック調整を行いました。
結論
Googleが提案したVid2Seqは、高密度ビデオアノテーションのための新しいビジュアル言語モデルであり、ラベルのないナレーションビデオに対して大規模な事前トレーニングを効果的に実行でき、さまざまなダウンストリームでSOTA結果を達成しています高密度ビデオ注釈ベンチマーク。
著者紹介
論文の筆頭著者: Antoine Yang
Antoine Yang は、パリの Inria および高等師範学校の WILLOW チームの博士課程 3 年生で、指導教員は Antoine Mitoch、Josef Sivic、Ivan Laptev、Cordelia Schmid です。
現在の研究は、ビデオを理解するための視覚言語モデルの学習に焦点を当てています。彼は2019年にファーウェイのノアの方舟研究所でインターンし、2020年にパリのエコール・ポリテクニックで工学の学位を取得し、パリ国立大学サクレー校で数学、ビジョン、学習の修士号を取得し、2022年にGoogle Researchでインターンを務めた。
以上がGoogle がマルチモーダル Vid2Seq を発表、オンラインでビデオ IQ を理解、字幕はオフラインにならない | CVPR 2023の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

在同一设置上工作太久或与他人共享PC。您可能会安装一些语言包,这通常会产生冲突。因此,是时候删除Windows11中不需要的显示语言了。说到冲突,当有多个语言包时,无意中按Ctrl+Shift会更改键盘布局。如果不注意,这将是手头任务的障碍。所以,让我们直接进入方法!如何从Windows11中删除显示语言?1.从设置按+打开“设置”应用,从导航窗格中转到“时间和语言”,然后单击“语言和地区”。WindowsI单击要删除的显示语言旁边的省略号,然后从弹出菜单中选择“删除”。在出现的确认提示中单击“

视频在当今社交媒体和互联网文化中扮演着愈发重要的角色,抖音,快手,B站等已经成为数以亿计用户的热门平台。用户围绕视频分享自己的生活点滴、创意作品、有趣瞬间等内容,与他人互动和交流。近期,大语言模型展现出了令人瞩目的能力。我们能否给大模型装上“眼睛”和“耳朵”,让它能够理解视频,陪着用户互动呢?从这个问题出发,达摩院的研究人员提出了Video-LLaMA,一个具有综合视听能力大模型。Video-LLaMA能够感知和理解视频中的视频和音频信号,并能理解用户输入的指令,完成一系列基于音视频的复杂任务,

说到这两年风靡全球的国产游戏,原神肯定是当仁不让。根据5月公布的本年度Q1季度手游收入调查报告,在抽卡手游里《原神》以5.67亿美金的绝对优势稳稳拿下第一,这也宣告《原神》在上线短短18个月之后单在手机平台总收入就突破30亿美金(大约RM130亿)。如今,开放须弥前最后的2.8海岛版本姗姗来迟,在漫长的长草期后终于又有新的剧情和区域可以肝了。不过不知道有多少“肝帝”,现在海岛已经满探索,又开始长草了。宝箱总共182个+1个摩拉箱(不计入)长草期根本没在怕的,原神区从来不缺整活儿。这不,在长草期间

机器会不会思考这个问题就像问潜水艇会不会游泳一样。——Dijkstra早在ChatGPT发布之前,业界就已经嗅到了大模型带来的变革。去年10月14日,圣塔菲研究所(Santa Fe Institute)的教授Melanie Mitchell和David C. Krakauer在arXiv发布了一篇综述,全面调研了所有关于「大规模预训练语言模型是否可以理解语言」的相关争论,文中描述了「正方」和「反方」的论点,以及根据这些论点衍生的更广泛的智力科学的关键问题。论文链接:https://arxiv.o

开源语言模型生态系统正在兴起,这些生态系统为个人提供综合资源以创建用于研究和商业目的的语言应用程序。本文深入研究GPT4ALL,它通过提供全面的搭建模块,使任何人都能开发类似ChatGPT的聊天机器人,从而超越了特定的使用案例。什么是GPT4ALL项目?GPT4ALL可以在使用最先进的开源大型语言模型时提供所需一切的支持。它可以访问开源模型和数据集,使用提供的代码训练和运行它们,使用Web界面或桌面应用程序与它们交互,连接到Langchain后端进行分布式计算,并使用PythonAPI进行轻松集

Python 中的 main 函数充当程序的执行点,在 Python 编程中定义 main 函数是启动程序执行的必要条件,不过它仅在程序直接运行时才执行,而在作为模块导入时不会执行。要了解有关 Python main 函数的更多信息,我们将从如下几点逐步学习:什么是 Python 函数Python 中 main 函数的功能是什么一个基本的 Python main() 是怎样的Python 执行模式Let’s get started什么是 Python 函数相信很多小伙伴对函数都不陌生了,函数是可

Microsoft的AzureAI文本转语音服务允许你将文本转换为不同语言的语音。今年年初,AzureAI文本转语音引入了JennyMultilingual语音,允许客户跨区域设置以一致的角色生成语音。到目前为止,Jenny多语言语音支持14种语言。今天,Microsoft宣布将多语言语音功能扩展到41种语言和口音。今天,Microsoft还宣布了一个新的男声(RyanMultilingual),作为其多语言产品组合的一部分。这些新语音具有输入文本的自动语言预测功能。因此,这消除了手动标记的需要

计算机硬件能直接识别并执行的语言是机器语言。机器语言是机器能直接识别的程序语言或指令代码,无需经过翻译,每一操作码在计算机内部都有相应的电路来完成它。


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

mPDF
mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。

SublimeText3 中国語版
中国語版、とても使いやすい

Dreamweaver Mac版
ビジュアル Web 開発ツール

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

Safe Exam Browser
Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

ホットトピック



