ホームページ > 記事 > テクノロジー周辺機器 > 中山大学の新しい時空間知識埋め込みフレームワークは、TIP '24 で公開されたビデオ シーン グラフ生成タスクの最新の進歩を推進します
ビデオ シーン グラフ生成 (VidSGG) は、ビジュアル シーン内のオブジェクトを識別し、オブジェクト間の視覚的な関係を推測することを目的としています。
このタスクでは、シーン全体に散在する各オブジェクトを包括的に理解するだけでなく、時間の経過に伴うそれらの動きや相互作用についての徹底的な研究も必要です。
最近、中山大学の研究者らは、人工知能のトップジャーナル IEEE T-IP に論文を発表しました。彼らは関連するタスクを調査し、次のことを発見しました。オブジェクトの組み合わせの各ペアと、それらの間の関係には、各画像内での空間的共起相関と、異なる画像間の時間的一貫性/翻訳相関があります。
論文リンク: https://arxiv.org/abs/2309.13237
これらに基づくまず、事前知識に基づいて、研究者らは、より代表的な視覚的関係表現を学習するために、事前の時空間知識をマルチヘッドクロスアテンションメカニズムに組み込むための、時空間知識埋め込みに基づくトランスフォーマー(STKET)を提案しました。
具体的には、空間的共起と時間的変換相関が最初に統計的に学習され、次に、時空間知識埋め込み層が視覚的表現と知識の間の相互作用を完全に探索するように設計されています。空間的および時間的な知識が埋め込まれた視覚的関係表現、最後に著者はこれらの特徴を集約して、最終的な意味ラベルとその視覚的関係を予測します。
広範な実験により、この記事で提案されているフレームワークが現在の競合アルゴリズムよりも大幅に優れていることが示されています。現在、論文は受理されました。
シーン理解の分野の急速な発展に伴い、多くの研究者がシーンを解決するためにさまざまなフレームワークを使用しようと試み始めています。グラフ生成 (Scene Graph Generation (SGG) タスク) は大幅に進歩しました。
しかし、これらの手法は多くの場合、単一の画像の状況のみを考慮し、時系列に存在する大量のコンテキスト情報を無視するため、既存のシーン グラフ生成アルゴリズムのほとんどが機能しなくなります。特定のビデオに含まれる動的な視覚的関係を正確に識別します。
したがって、多くの研究者は、この問題を解決するためにビデオ シーン グラフ生成 (VidSGG) アルゴリズムの開発に取り組んでいます。
現在の研究は、空間的および時間的観点からオブジェクトレベルの視覚情報を集約して、対応する視覚的関係表現を学習することに焦点を当てています。
ただし、さまざまなオブジェクトやインタラクティブなアクションの視覚的な外観には大きなばらつきがあり、ビデオ収集によって引き起こされる視覚的な関係の大幅なロングテール分布のため、視覚情報だけを使用するだけでは、モデル予測につながりやすい 誤った視覚的関係。
上記の問題に対応して、研究者は次の 2 つの側面から作業を行いました。
まず、以前のデータをマイニングすることが提案されています。トレーニング サンプルに含まれる時空間に関する知識は、ビデオ シーン グラフ生成の分野を進歩させるために使用されます。その中で、アプリオリな時空間知識には次のものが含まれます。
1) 空間的共起相関: 特定のオブジェクト カテゴリ間の関係は、特定の相互作用を引き起こす傾向があります。
2) 時間的一貫性/遷移の相関: 特定の関係のペアは、連続するビデオ クリップ全体で一貫している傾向があるか、別の特定の関係に遷移する可能性が高くなります。
第二に、時空間知識埋め込みに基づく新しいトランスフォーマー (空間時間知識埋め込みトランスフォーマー、STKET) フレームワークが提案されます。
このフレームワークは、より代表的な視覚的関係表現を学習するために、事前の時空間知識をマルチヘッド相互注意メカニズムに組み込んでいます。テストベンチマークで得られた比較結果によると、研究者によって提案された STKET フレームワークが以前の最先端の方法よりも優れていることがわかります。
#図 1: 視覚的な外観の変化と視覚的な関係のロングテール分布により、ビデオ シーン グラフの生成は課題に満ちています
時空間知識埋め込みに基づくトランスフォーマー視覚的な関係を推論するとき、人間は視覚的な手がかりだけを使用するわけではありませんだけでなく、蓄積された事前知識、経験的知識も使用します [1、2]。これに触発されて、研究者らは、ビデオ シーン グラフの生成タスクを容易にするために、トレーニング セットから事前の時空間知識を直接抽出することを提案しています。
このうち、空間共起相関は、ある物体を組み合わせると、その視覚的関係の分布が大きく偏ることに具体的に現れます(例えば、「人」と「人」との視覚的関係の分布)。 「カップ」は「犬」と「おもちゃ」の分布とは明らかに異なります)と時間転移相関は、直前の瞬間の視覚関係が与えられると、それぞれの視覚関係の遷移確率が大きく変化するという点で具体的に現れます(たとえば、例えば、直前の瞬間の視覚関係がわかっている場合(「食べる」の場合、次の瞬間に視覚関係が「書く」に移行する確率は大幅に低くなる)。
図 2 に示すように、特定のオブジェクトの組み合わせや以前の視覚的な関係を直感的に感じることができるようになると、予測スペースを大幅に縮小できます。
#図 2: 視覚的関係の空間的共起確率 [3] と時間的遷移確率
# # 具体的には、i 型オブジェクトと j 型オブジェクトの組み合わせと、直前の i 型オブジェクトと j 型オブジェクトの関係について、対応する空間的共起確率を行列 E^{i,j はまず統計的に求められます } と時間遷移確率行列 Ex^{i,j} が求められます。
次に、それを全結合層に入力して対応する特徴表現を取得し、対応する目的関数を使用して、モデルによって学習された知識表現に対応する事前の時空間知識が含まれていることを確認します。 . .
図 3: 空間 (a) および時間 (b) の知識表現を学習するプロセス
知識の埋め込み注: フォース レイヤー空間知識には、通常、エンティティ間の位置、距離、関係に関する情報が含まれています。一方、時間的知識には、アクションの順序、期間、間隔が含まれます。
それらの固有の特性を考慮すると、それらを個別に扱うことで、特殊なモデリングで固有のパターンをより正確に捉えることができます。
したがって、研究者らは、視覚表現と時空間知識の間の相互作用を徹底的に調査するために、時空間知識埋め込み層を設計しました。
図 4: 空間 (左) と時間 (右) 知識埋め込み層
時空間集約モジュール上で述べたように、空間知識埋め込み層は各画像内の空間的共起相関を調査し、時間知識埋め込み層は異なる画像間の時間伝達相関を調査することで、視覚間の相互作用を完全に調査します。表現と時空間知識。
にもかかわらず、これら 2 つのレイヤーは長期的なコンテキスト情報を無視します。これは、最も動的に変化する視覚的な関係を識別するのに役立ちます。
この目的を達成するために、研究者らはさらに、各オブジェクト ペアの表現を集約して最終的な意味ラベルとその関係を予測する時空間集約 (STA) モジュールを設計しました。これは、異なるフレーム内の同じ被写体とオブジェクトのペアの空間的および時間的に埋め込まれた関係表現を入力として受け取ります。
具体的には、研究者らは、同じオブジェクトのペアのこれらの表現を連結して、コンテキスト表現を生成しました。
次に、異なるフレームで同じ被写体とオブジェクトのペアを見つけるために、予測されたオブジェクト ラベルと IoU (つまり和集合の交差) が採用され、フレーム内で検出された同じ被写体とオブジェクトのペアと一致します。フレーム。
最後に、フレーム内の関係がバッチごとに異なる表現を持つことを考慮して、スライディング ウィンドウ内の最も古い表現が選択されます。
実験結果提案されたフレームワークのパフォーマンスを総合的に評価するために、研究者らは既存のビデオシーングラフ生成手法(STTran)と比較しました。 、TPI、APT)、高度な画像シーングラフ生成方法(KERN、VCTREE、ReIDN、GPS-Net)も比較のために選択されました。
その中で、公平な比較を保証するために、画像シーングラフ生成方法は、画像の各フレームを識別することによって、特定のビデオに対応するシーングラフを生成するという目標を達成します。
図 5: アクション ゲノム データ セットの評価指標として再現率を使用した実験結果
図 6: アクション ゲノム データ セットの評価指標として平均再現率を使用した実験結果
以上が中山大学の新しい時空間知識埋め込みフレームワークは、TIP '24 で公開されたビデオ シーン グラフ生成タスクの最新の進歩を推進しますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。