ホームページ >テクノロジー周辺機器 >AI >BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

WBOY
WBOY転載
2023-04-11 23:04:021299ブラウズ

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

畳み込みニューラル ネットワークで BERT を実行するにはどうすればよいですか?

ByteDance 技術チームによって提案された SparK - Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling を直接使用できます。最近、これはスポットライト フォーカス ペーパーとして含まれています。トップ人工知能カンファレンスによる :


BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

##紙のリンク:

https://www. php.cn/link/e38e37a99f7de1f45d169efcdb288dd1

オープンソースコード:

##https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f #これは、畳み込みニューラル ネットワーク (CNN) における BERT の最初の成功でもあります

#。まずは事前トレーニングでSparKの性能を感じてみましょう。 未完成の画像を入力してください:


##子犬を復元する:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

別の切断された写真:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

#ベーグルサンドイッチであることが判明しました:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

他のシーンでも画像の復元を行うことができます:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

BERT と Transformer の完璧な組み合わせ

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

素晴らしい行動や考えはすべて、

BERT 事前トレーニング アルゴリズムの背後には、シンプルかつ奥深い設計があります。 BERT は「cloze」を使用します。つまり、文内のいくつかの単語をランダムに削除し、モデルに復元を学習させます。

BERT は、NLP 分野の

コア モデルである Transformer

に大きく依存しています。 #####。 Transformer はもともと可変長シーケンス データ (英語の文章など) の処理に適しているため、BERT の「ランダムな削除」にも簡単に対応できます。クローズ」。

映像分野の CNN も BERT を楽しみたいと考えています。2 つの課題は何ですか?

コンピュータ ビジョンの開発の歴史を振り返ると、畳み込みニューラル ネットワーク モデルには、並進等分散などの多くの古典的なモデルのエッセンスが凝縮されています。マルチスケール構造など、CV の世界の根幹とも言える。しかし、Transformer と大きく異なるのは、CNN が本質的に、クローゼによって「くり抜かれ」、「ランダムな穴」でいっぱいのデータに適応できないため、一見したところでは BERT の事前トレーニングの恩恵を享受できないことです。


BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

## 上の写真 a.は MAE (Masked Autoencoders are Scalable Visual Learners) の成果物で、CNN モデルの代わりに Transformer モデルを使用するため、ホールのある入力にも柔軟に対応でき、BERT と「自然に一致」します。


右の図 b. は、BERT モデルと CNN モデルを融合する大まかな方法​​を示しています。つまり、すべての空の領域を「黒く」します。この「黒いモザイク」画像が CNN に入力されると、深刻なピクセル強度分布シフトの問題が発生し、パフォーマンスの低下につながる結果が想像できます (後で検証します)。これは、CNN での BERT の適用の成功を妨げる

課題 です。 #加えて、著者チームは、NLP の分野に由来する BERT アルゴリズムには、当然のことながら「マルチスケール」の特性がないことも指摘しています。 、マルチスケールのピラミッド構造は、コンピュータービジョンの長い歴史の中で「ゴールドスタンダード」と呼ぶことができます。シングルスケール BERT と自然なマルチスケール CNN の間の競合は、

課題 2 です。 ソリューション SparK: スパースおよび階層マスク モデリング


BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出##著者チームは、前述の 2 つの課題を解決するために SparK (スパースおよび階層マスク モデリング) を提案しました。


まず、3次元点群データ処理にヒントを得て、著者チームはマスキング操作(くり抜き操作)後の断片化された画像をスパース点として扱うことを提案しました。雲は部分多様体スパース畳み込みを使用してエンコードされます。これにより、畳み込みネットワークはランダムに削除された画像を簡単に処理できるようになります。

第 2 に、UNet のエレガントな設計に触発されて、著者チームは水平接続を備えたエンコーダ/デコーダ モデルを自然に設計し、複数の間でマルチスケール機能をフローできるようにしました。これにより、BERT はコンピューター ビジョンのマルチスケール ゴールド スタンダードを完全に受け入れることができます。

この時点で、畳み込みネットワーク (CNN) 向けに調整されたスパースなマルチスケール マスク モデリング アルゴリズムである SparK が誕生しました。

SparK は

一般:

できる構造を変更したり追加コンポーネントを導入したりすることなく、畳み込みネットワークで直接使用できます。よく知られた古典的な ResNet であっても、最近の高度なモデル ConvNeXt であっても、SparK の恩恵を直接受けられます。 ResNet から ConvNeXt へ: 3 つの主要なビジュアル タスクにおけるパフォーマンスの向上

著者チームは、ResNet と ConvNeXt という 2 つの代表的な畳み込みモデル ファミリを選択し、画像分類、ターゲット検出、インスタンス セグメンテーション タスクのパフォーマンス テストを実施しました。

古典的な ResNet-50 モデルでは、SparK は唯一の生成的事前トレーニングとして機能します。最先端レベルを達成:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

ConvNeXt モデルでは、SparK が依然として をリードしています。事前トレーニング前は、ConvNeXt と Swin-Transformer は互角でしたが、事前トレーニング後は、ConvNeXt が次の 3 つのタスクで Swin-Transformer を圧倒的に上回りました。 #小規模から大規模までの完全なモデル ファミリで SparK を検証すると、次のことがわかります。

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

#モデルの大小に関係なく、新しいモデルのサイズやトレーニングのオーバーヘッドが増加すると、SparK アルゴリズムのスケーリング機能を反映して、その増加はさらに大きくなります。

最後に、著者チームは確認のためのアブレーション実験も設計しました。そこから次のことがわかります# #Sparse Mask

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出#and

階層構造 行 3 と 4 行) は非常に重要なデザインです。一度欠落すると重大なパフォーマンスに影響します。劣化:

以上がBERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。