ホームページ >テクノロジー周辺機器 >AI >固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB転載: 2023-04-12 20:58:041162ブラウズ

Visual Basic モデルは、過去 2 年間で目覚ましい発展を遂げました。大規模なインターネットデータに基づく事前トレーニングでは、モデルに多数の意味概念が事前設定されているため、汎化性能が優れていますが、その一方で、もたらされたモデルサイズを最大限に活用するために、大規模なデータセットによる成長により、関連モデルは、特に複数のフレームを処理する必要があるビデオ理解モデルの場合、下流のタスクに移行するときに非効率の問題に直面するようになります。

論文リンク: https://arxiv.org/abs/2208.03550
コードリンク: https://github.com/OpenGVLab/efficient-video-recognition

上記の 2 つに基づく香港中文大学、上海人工知能研究所などの研究者らは、バックボーンの基本モデルの重みを固定することで、学習計算とメモリ消費を節約すると同時に、効率的なビデオ理解転移学習フレームワークEVLを提案した。、マルチレベルのきめ細かい中間機能を利用することで、従来のエンドツーエンドの微調整の柔軟性を可能な限り維持します。

下の図 1 は、ビデオ理解データセット Kinetics-400 に対する EVL メソッドの結果を示しています。実験によれば、この方法はトレーニングのオーバーヘッドを節約しながら、ビデオ理解タスクにおける基本的な視覚モデルの可能性を十分に探求できます。

固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

# 図 1: Kinetics-400 の認識精度の比較、横軸は推論計算量、縦軸は推論計算量軸は精度です。 #方法

アルゴリズムの全体的な概略図を図 2(a) に示します。ビデオサンプルの場合、T フレームを取得し、画像認識ネットワーク (CLIP を例として) に入力し、特徴を抽出します。従来の方法と比較して、画像認識ネットワークの最後の数層から多層のプールされていない特徴を抽出して、より豊富でよりきめの細かい画像情報を取得し、画像認識ネットワークのパラメータの重みはビデオ学習において常に一貫しています。修理済み。続いて、多層特徴マップは、ビデオレベルの情報集約のために Transformer デコーダに順次入力されます。マルチレイヤデコードされた [CLS] 特徴は、最終的な分類予測を生成するために使用されます。

図 2(b) に示すように、Transformer デコーダが特徴を集約する際の障害のため、位置関連の詳細な抽出を改善するために、追加の時間情報モデリングモジュールをネットワークに追加しました。粒度の細かいタイミング情報。具体的には、3 つのタイプの位置関連のタイミング情報を追加します。1 つ目は時間的位置エンベディング (Position Embeddings)、2 つ目は時間次元の深さ分離可能な畳み込み (Depthwise Convolution)、3 つ目は隣接するフレーム間のアテンションです。情報を強制します。フレーム間のアテンション情報については、画像認識ネットワークから対応するレイヤーのクエリとキー特徴を抽出し、隣接するフレーム間のアテンションマップを計算します（画像認識ネットワークとは異なり、アテンションマップは、画像認識ネットワークからのクエリから構成されます）同じフレームと主要な特徴が得られます)。結果として得られるアテンションマップは、隣接するフレーム間のオブジェクトの位置の変化を明示的に反映できます。線形投影の後、アテンションマップはオブジェクトの変位特性を反映したベクトル群を取得し、要素ごとに加算する形で画像特徴に統合されます。

固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

#図 2: EVL アルゴリズムの構造図。 (a) 全体構造、(b) 逐次情報モデリングモジュール。

固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

図 3: フレーム間注意の数学的特徴表現。

実験

図 1 と表 1 では、これまでのビデオを理解する上で重要な方法をいくつか引用しました。トレーニングのオーバーヘッドを削減することに重点を置いているにもかかわらず、私たちの方法は依然として精度の点で既存の方法を上回っています（同じ計算量でも）。

表 2 に、固定バックボーンネットワークによってもたらされるトレーニングオーバーヘッドの削減を示します。メモリの点では、V100 16GB GPU では、固定バックボーンネットワークによりシングルカードのバッチサイズが最大 64 に達することができますが、エンドツーエンドのトレーニングでは最大 8 に達することができます。時間の点では、固定バックボーンネットワークによりトレーニング時間を 3 ～ 4 倍節約できます。

表 3 では、きめ細かい特徴マップによる認識パフォーマンスの向上を示しています。マルチレイヤの非プール機能により、バックボーンネットワークの重みを固定する際にかなりの柔軟性を維持できます。非プール機能の使用が最も大幅な改善 (約 3%) をもたらし、次にマルチレイヤデコーダと中間レイヤ機能の使用がそれぞれ約 1% のパフォーマンス向上をもたらします。

最後に、表 4 に詳細なタイミング情報モジュールの効果を示します。詳細なタイミング情報は、Kinetics-400 のパフォーマンスに限定的な影響を与えますが、Something-Something-v2 のパフォーマンスにとって非常に重要です。3 つの詳細なタイミング情報モジュールは、合計で約 0.5%、約 14% のパフォーマンスをもたらします。 % のパフォーマンスの向上。

#表 1: Kinetics-400 ## での既存の手法との比較結果

#表 2: バックボーンネットワークの重みの固定によるトレーニングオーバーヘッドの削減

#表 3: 精度に対するきめ細かい特徴マップの影響

#表 4: さまざまなデータセットに対するきめの細かい時系列情報モデリングの効果
概要
この記事は、EVL ビデオ理解学習フレームワークを提案します。これは、ビデオ理解の問題における固定画像バックボーンネットワークの大きな可能性を初めて実証し、また、高性能ビデオ理解を、制限された研究グループにとってより使いやすいものにします。コンピューティングリソース。また、ビジュアルベーシックモデルの品質とスケールが向上するにつれて、私たちの方法は軽量転移学習アルゴリズムに関するその後の研究の参考になると信じています。

以上が固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

batch position github 算法人工智能 transformer https

声明：

この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：TensorFlow の新しいバージョンには別のフラグがあります。公式チームは「4つの柱」を明確にしました：100%の下位互換性を約束し、2023年にリリース次の記事：TensorFlow の新しいバージョンには別のフラグがあります。公式チームは「4つの柱」を明確にしました：100%の下位互換性を約束し、2023年にリリース

続きを見る

固定パラメータ モデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案

実験

関連記事

固定パラメータモデルにはどの程度の可能性があるのでしょうか?香港中国人、上海AIラボなどが効率的なビデオ理解フレームワークEVLを提案