BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出-AI-php.cn

ホームページ

テクノロジー周辺機器

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 11:04 PM

bertバイトダンス畳み込みニューラルネットワーク

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

畳み込みニューラルネットワークで BERT を実行するにはどうすればよいですか?

ByteDance 技術チームによって提案された SparK - Designing BERT for Convolutional Networks: Sparse and Hierarchical Masked Modeling を直接使用できます。最近、これはスポットライトフォーカスペーパーとして含まれています。トップ人工知能カンファレンスによる :

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

##紙のリンク:

https://www. php.cn/link/e38e37a99f7de1f45d169efcdb288dd1

オープンソースコード:

##https://www.php.cn/link/9dfcf16f0adbc5e2a55ef02db36bac7f #これは、畳み込みニューラルネットワーク (CNN) における BERT の最初の成功でもあります

#。まずは事前トレーニングでSparKの性能を感じてみましょう。 未完成の画像を入力してください:

##子犬を復元する:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

別の切断された写真:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

#ベーグルサンドイッチであることが判明しました:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

他のシーンでも画像の復元を行うことができます:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

BERT と Transformer の完璧な組み合わせ

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

「素晴らしい行動や考えはすべて、

” BERT 事前トレーニングアルゴリズムの背後には、シンプルかつ奥深い設計があります。 BERT は「cloze」を使用します。つまり、文内のいくつかの単語をランダムに削除し、モデルに復元を学習させます。

BERT は、NLP 分野の

コアモデルである Transformer

に大きく依存しています。＃＃＃＃＃。 Transformer はもともと可変長シーケンスデータ (英語の文章など) の処理に適しているため、BERT の「ランダムな削除」にも簡単に対応できます。クローズ」。

映像分野の CNN も BERT を楽しみたいと考えています。2 つの課題は何ですか?

コンピュータビジョンの開発の歴史を振り返ると、畳み込みニューラルネットワークモデルには、並進等分散などの多くの古典的なモデルのエッセンスが凝縮されています。マルチスケール構造など、CV の世界の根幹とも言える。しかし、Transformer と大きく異なるのは、CNN が本質的に、クローゼによって「くり抜かれ」、「ランダムな穴」でいっぱいのデータに適応できないため、一見したところでは BERT の事前トレーニングの恩恵を享受できないことです。

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

## 上の写真 a.は MAE (Masked Autoencoders are Scalable Visual Learners) の成果物で、CNN モデルの代わりに Transformer モデルを使用するため、ホールのある入力にも柔軟に対応でき、BERT と「自然に一致」します。

右の図 b. は、BERT モデルと CNN モデルを融合する大まかな方法を示しています。つまり、すべての空の領域を「黒く」します。この「黒いモザイク」画像が CNN に入力されると、深刻なピクセル強度分布シフトの問題が発生し、パフォーマンスの低下につながる結果が想像できます (後で検証します)。これは、CNN での BERT の適用の成功を妨げる

課題です。 #加えて、著者チームは、NLP の分野に由来する BERT アルゴリズムには、当然のことながら「マルチスケール」の特性がないことも指摘しています。、マルチスケールのピラミッド構造は、コンピュータービジョンの長い歴史の中で「ゴールドスタンダード」と呼ぶことができます。シングルスケール BERT と自然なマルチスケール CNN の間の競合は、

課題 2 です。ソリューション SparK: スパースおよび階層マスクモデリング

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出 ##著者チームは、前述の 2 つの課題を解決するために SparK (スパースおよび階層マスクモデリング) を提案しました。

まず、3次元点群データ処理にヒントを得て、著者チームはマスキング操作（くり抜き操作）後の断片化された画像をスパース点として扱うことを提案しました。雲は部分多様体スパース畳み込みを使用してエンコードされます。これにより、畳み込みネットワークはランダムに削除された画像を簡単に処理できるようになります。

第 2 に、UNet のエレガントな設計に触発されて、著者チームは水平接続を備えたエンコーダ/デコーダモデルを自然に設計し、複数の間でマルチスケール機能をフローできるようにしました。これにより、BERT はコンピュータービジョンのマルチスケールゴールドスタンダードを完全に受け入れることができます。

この時点で、畳み込みネットワーク (CNN) 向けに調整されたスパースなマルチスケールマスクモデリングアルゴリズムである SparK が誕生しました。

SparK は

一般:

できる構造を変更したり追加コンポーネントを導入したりすることなく、畳み込みネットワークで直接使用できます。よく知られた古典的な ResNet であっても、最近の高度なモデル ConvNeXt であっても、SparK の恩恵を直接受けられます。 ResNet から ConvNeXt へ: 3 つの主要なビジュアルタスクにおけるパフォーマンスの向上

著者チームは、ResNet と ConvNeXt という 2 つの代表的な畳み込みモデルファミリを選択し、画像分類、ターゲット検出、インスタンスセグメンテーションタスクのパフォーマンステストを実施しました。

古典的な ResNet-50 モデルでは、SparK は唯一の生成的事前トレーニングとして機能します。最先端レベルを達成:

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

ConvNeXt モデルでは、SparK が依然として をリードしています。事前トレーニング前は、ConvNeXt と Swin-Transformer は互角でしたが、事前トレーニング後は、ConvNeXt が次の 3 つのタスクで Swin-Transformer を圧倒的に上回りました。 #小規模から大規模までの完全なモデルファミリで SparK を検証すると、次のことがわかります。

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出

#モデルの大小に関係なく、新しいモデルのサイズやトレーニングのオーバーヘッドが増加すると、SparK アルゴリズムのスケーリング機能を反映して、その増加はさらに大きくなります。

最後に、著者チームは確認のためのアブレーション実験も設計しました。そこから次のことがわかります# #Sparse Mask

BERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出 #and

階層構造行 3 と 4 行) は非常に重要なデザインです。一度欠落すると重大なパフォーマンスに影響します。劣化:

以上がBERT は CNN でも使用できますか? ByteDance の研究結果が ICLR 2023 スポットライトに選出の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles