深層学習の初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発に起因すると考えられます。 ConvNet は、10 年近くにわたってコンピューター ビジョンのベンチマークを支配してきました。しかし、近年ではViT(ビジョントランスフォーマー)に置き換わるケースが増えています。 多くの人は、ConvNet は小規模または中規模のデータ セットでは良好なパフォーマンスを発揮しますが、より大規模なネットワーク サイズのデータ セットでは ViT と競合できないと考えています。 同時に、CV コミュニティは、特定のデータセット (ImageNet など) でランダムに初期化されたネットワークのパフォーマンスを評価することから、ネットワークから収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これは重要な疑問につながります。ビジョン トランスフォーマーは、同様の計算予算の下で、事前トレーニングされた ConvNets アーキテクチャよりも優れたパフォーマンスを発揮しますか? この記事では、Google DeepMind の研究者がこの問題を研究しました。彼らは、異なるスケールの JFT-4B データセット上で複数の NFNet モデルを事前トレーニングすることにより、ImageNet 上の ViT と同様のパフォーマンスを獲得しました。#この論文では、スケールアップされた NFNet を評価し、大規模な問題では ConvNet のパフォーマンスが ViT よりも悪いという考えに異議を唱えます。




事前トレーニングされた NFNet は拡張則に従う
この記事では、JFT-4B でさまざまな深さと幅の一連の NFNet モデルをトレーニングしました。 図 2 に示すように、検証損失はトレーニング モデルの計算量に直線的に関係しており、言語モデリングに Transformer を使用したときに観察される対数対対展開則と一致しています。計算バジェットが増加するにつれて、(検証損失を最小限に抑えるための) 最適なモデル サイズと最適なエポック バジェットも増加します。

書き直す必要があるのは次のとおりです。図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しなかったことに注意してください。研究チームは、この状況の理由は、トレーニングの実行がプリエンプト/再開された場合、データ読み込みプロセスで各トレーニング サンプルが各エポックで 1 回サンプリングできることを保証できないためであると考えています。トレーニングの実行が複数回再開されると、一部のトレーニング サンプルがアンダーサンプリングされる可能性があります。
NFNet と ViT
ImageNet での実験では、微調整後のパフォーマンスが示されています。 NFNet と Vision Transformer の効果は非常に優れています
具体的には、この研究では、ImageNet 上で事前トレーニングされた NFNet を微調整し、上の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。
予算が増加するにつれて、ImageNet Top-1 の精度は向上し続けます。その中で、最も高価な事前トレーニング モデルは NFNet-F7 です。これは 8 エポックで事前トレーニングされ、ImageNet Top-1 で 90.3% の精度を持っています。事前トレーニングと微調整には、約 110,000 TPU-v4 コア時間と 1.6,000 TPU-v4 コア時間が必要です。さらに、微調整中に追加の繰り返し強化技術を導入すると、90.4% のトップ 1 精度を達成できます。 NFNet は大規模な事前トレーニングから大きなメリットをもたらします。
2 つのモデル アーキテクチャ NFNet と ViT の間には明らかな違いがあるにもかかわらず、事前トレーニングされた NFNet と事前トレーニングされた ViT はパフォーマンスにおいて同等です。たとえば、210k TPU-v3 コア時間で JFT-3B を事前トレーニングした後、ViT-g/14 は ImageNet で 90.2% というトップ 1 の精度を達成しましたが、コア時間後には 500k TPU-v3 以上で JFT-3B をトレーニングしました。事前トレーニングの場合、ViT-G/14 は 90.45% のトップ 1 精度を達成しました。
この記事では、TPU-v4 でのこれらのモデルの事前トレーニング速度を評価し、ViT-g/14 120k TPU を推定します。事前トレーニングには v4 コア時間が必要ですが、ViTG/14 では 280,000 TPU-v4 コア時間が必要となり、SoViT-400m/14 では 130,000 TPU-v4 コア時間が必要になります。このペーパーでは、これらの推定値を使用して、図 1 の ViT と NFNet の事前トレーニング効率を比較します。この調査では、NFNet は TPU-v4 用に最適化されており、他のデバイスで評価するとパフォーマンスが低下することが指摘されています。
最後に、この論文では、JFT-4B では事前トレーニングされたチェックポイントが検証損失を最小限に抑えますが、微調整後は ImageNet で常に最高のトップ 1 精度を達成するとは限らないことを指摘します。特に、この論文では、事前トレーニングの計算量が固定されている場合、微調整メカニズムはわずかに大きなモデルとわずかに小さいエポック量を選択する傾向があることを発見しました。直観的には、モデルが大きいほど処理能力が大きいため、新しいタスクへの適応力が高くなります。場合によっては、(事前トレーニング中の)学習率を少し大きくすると、微調整後のパフォーマンスが向上する可能性もあります
以上がDeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。 包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスの成功のロック解除:ビジネスインテリジェンスアナリストになるためのガイド 生データを組織の成長を促進する実用的な洞察に変換することを想像してください。 これはビジネスインテリジェンス(BI)アナリストの力です - GUにおける重要な役割

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。 ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。 シム

Excelデータカウントと分析:カウントとカウントの機能の詳細な説明 特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。 キーポイントの概要 カウントとcouを理解します

Google Chrome'sAI Revolution:パーソナライズされた効率的なブラウジングエクスペリエンス 人工知能(AI)は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。 この記事では、興奮を探ります

インパクトの再考:四重材のボトムライン 長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています


ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

MinGW - Minimalist GNU for Windows
このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポート ライブラリとヘッダー ファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。

EditPlus 中国語クラック版
サイズが小さく、構文の強調表示、コード プロンプト機能はサポートされていません

SublimeText3 中国語版
中国語版、とても使いやすい

SublimeText3 Linux 新バージョン
SublimeText3 Linux 最新バージョン

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境
