ホームページ > 記事 > テクノロジー周辺機器 > 固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案
Visual Basic モデルは、過去 2 年間で目覚ましい発展を遂げました。大規模なインターネット データに基づく事前トレーニングでは、モデルに多数の意味概念が事前設定されているため、汎化性能が優れていますが、その一方で、もたらされたモデル サイズを最大限に活用するために、大規模なデータセットによる成長により、関連モデルは、特に複数のフレームを処理する必要があるビデオ理解モデルの場合、下流のタスクに移行するときに非効率の問題に直面するようになります。
上記の 2 つに基づく香港中文大学、上海人工知能研究所などの研究者らは、バックボーンの基本モデルの重みを固定することで、学習計算とメモリ消費を節約すると同時に、効率的なビデオ理解転移学習フレームワークEVLを提案した。 、マルチレベルのきめ細かい中間機能を利用することで、従来のエンドツーエンドの微調整の柔軟性を可能な限り維持します。
下の図 1 は、ビデオ理解データセット Kinetics-400 に対する EVL メソッドの結果を示しています。実験によれば、この方法はトレーニングのオーバーヘッドを節約しながら、ビデオ理解タスクにおける基本的な視覚モデルの可能性を十分に探求できます。
# 図 1: Kinetics-400 の認識精度の比較、横軸は推論計算量、縦軸は推論計算量軸は精度です。 #方法
アルゴリズムの全体的な概略図を図 2(a) に示します。ビデオサンプルの場合、T フレームを取得し、画像認識ネットワーク (CLIP を例として) に入力し、特徴を抽出します。従来の方法と比較して、画像認識ネットワークの最後の数層から多層のプールされていない特徴を抽出して、より豊富でよりきめの細かい画像情報を取得し、画像認識ネットワークのパラメータの重みはビデオ学習において常に一貫しています。修理済み。続いて、多層特徴マップは、ビデオレベルの情報集約のために Transformer デコーダに順次入力されます。マルチレイヤ デコードされた [CLS] 特徴は、最終的な分類予測を生成するために使用されます。図 2(b) に示すように、Transformer デコーダが特徴を集約する際の障害のため、位置関連の詳細な抽出を改善するために、追加の時間情報モデリング モジュールをネットワークに追加しました。粒度の細かいタイミング情報。具体的には、3 つのタイプの位置関連のタイミング情報を追加します。1 つ目は時間的位置エンベディング (Position Embeddings)、2 つ目は時間次元の深さ分離可能な畳み込み (Depthwise Convolution)、3 つ目は隣接するフレーム間のアテンションです。情報を強制します。フレーム間のアテンション情報については、画像認識ネットワークから対応するレイヤーのクエリとキー特徴を抽出し、隣接するフレーム間のアテンションマップを計算します(画像認識ネットワークとは異なり、アテンションマップは、画像認識ネットワークからのクエリから構成されます)同じフレームと主要な特徴が得られます)。結果として得られるアテンション マップは、隣接するフレーム間のオブジェクトの位置の変化を明示的に反映できます。線形投影の後、アテンション マップはオブジェクトの変位特性を反映したベクトル群を取得し、要素ごとに加算する形で画像特徴に統合されます。
#図 2: EVL アルゴリズムの構造図。 (a) 全体構造、(b) 逐次情報モデリングモジュール。
図 3: フレーム間注意の数学的特徴表現。図 1 と表 1 では、これまでのビデオを理解する上で重要な方法をいくつか引用しました。トレーニングのオーバーヘッドを削減することに重点を置いているにもかかわらず、私たちの方法は依然として精度の点で既存の方法を上回っています(同じ計算量でも)。 表 2 に、固定バックボーン ネットワークによってもたらされるトレーニング オーバーヘッドの削減を示します。メモリの点では、V100 16GB GPU では、固定バックボーン ネットワークによりシングル カードのバッチ サイズが最大 64 に達することができますが、エンドツーエンドのトレーニングでは最大 8 に達することができます。時間の点では、固定バックボーンネットワークによりトレーニング時間を 3 ~ 4 倍節約できます。 表 3 では、きめ細かい特徴マップによる認識パフォーマンスの向上を示しています。マルチレイヤの非プール機能により、バックボーン ネットワークの重みを固定する際にかなりの柔軟性を維持できます。非プール機能の使用が最も大幅な改善 (約 3%) をもたらし、次にマルチレイヤ デコーダと中間レイヤ機能の使用がそれぞれ約 1% のパフォーマンス向上をもたらします。 最後に、表 4 に詳細なタイミング情報モジュールの効果を示します。詳細なタイミング情報は、Kinetics-400 のパフォーマンスに限定的な影響を与えますが、Something-Something-v2 のパフォーマンスにとって非常に重要です。3 つの詳細なタイミング情報モジュールは、合計で約 0.5%、約 14% のパフォーマンスをもたらします。 % のパフォーマンスの向上。 #表 1: Kinetics-400 ## での既存の手法との比較結果 #表 2: バックボーン ネットワークの重みの固定によるトレーニング オーバーヘッドの削減 #表 3: 精度に対するきめ細かい特徴マップの影響 概要実験
以上が固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。