DeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?-AI-php.cn

ホームページ

テクノロジー周辺機器

DeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?

PHPz

Nov 02, 2023 am 09:13 AM

deepmindプロジェクトconvnets

#この論文では、スケールアップされた NFNet を評価し、大規模な問題では ConvNet のパフォーマンスが ViT よりも悪いという考えに異議を唱えます。

深層学習の初期の成功は、畳み込みニューラルネットワーク (ConvNet) の開発に起因すると考えられます。 ConvNet は、10 年近くにわたってコンピュータービジョンのベンチマークを支配してきました。しかし、近年ではViT（ビジョントランスフォーマー）に置き換わるケースが増えています。

多くの人は、ConvNet は小規模または中規模のデータセットでは良好なパフォーマンスを発揮しますが、より大規模なネットワークサイズのデータセットでは ViT と競合できないと考えています。

同時に、CV コミュニティは、特定のデータセット (ImageNet など) でランダムに初期化されたネットワークのパフォーマンスを評価することから、ネットワークから収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これは重要な疑問につながります。ビジョントランスフォーマーは、同様の計算予算の下で、事前トレーニングされた ConvNets アーキテクチャよりも優れたパフォーマンスを発揮しますか?

この記事では、Google DeepMind の研究者がこの問題を研究しました。彼らは、異なるスケールの JFT-4B データセット上で複数の NFNet モデルを事前トレーニングすることにより、ImageNet 上の ViT と同様のパフォーマンスを獲得しました。

DeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?

ペーパーリンクアドレス: https://arxiv.org /pdf/2310.16764.pdf

この論文の調査では、0.4k ～ 110k の TPU-v4 コアコンピューティング時間の事前トレーニングコンピューティング予算の状況と、NFNet モデルファミリの深さと幅の増加を活用した状況について説明します。一連のネットワークトレーニングを実行します。研究によると、ホールドアウト損失とコンピューティング予算の間には対対対数拡大率 (スケーリング則) があることが判明しました。

たとえば、この記事は、TPU-v4 コア時間で実行される JFT-4B に基づいています (コア時間）は 0.4k から 110k までスケールされ、NFNet で事前トレーニングされました。微調整後、最大のモデルは ImageNet Top-1 で 90.4% の精度を達成し、同じ計算量の下で事前トレーニングされた ViT モデルと競合しました

次のように言えます。、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも悪いという概念に異議を唱えます。さらに、十分なデータと計算があれば、ConvNet は競争力を維持し、モデル設計とリソースはアーキテクチャよりも重要です。

この研究を見て、チューリング賞受賞者のヤン・ルカン氏は次のように述べています。「一定の計算量の下では、ViT と ConvNets は計算的に同等です。ViTs はコンピュータービジョンで目覚ましい結果を達成しましたが、印象的な成功ですが、私の意見では公正に評価した場合、事前トレーニングされた ViT が事前トレーニングされた ConvNet よりも優れているという強力な証拠はありません。」

しかし、一部のネチズンは、LeCun のコメントに対して、ViT を使用することは効果的であると信じているとコメントしました。マルチモーダルモデルは依然として研究において有利である可能性があります

Google DeepMind の研究者らは、ConvNets が消えることはないと述べています

次に、具体的なコンテンツを見てみましょう紙の。

事前トレーニングされた NFNet は拡張則に従う

この記事では、JFT-4B でさまざまな深さと幅の一連の NFNet モデルをトレーニングしました。

図 2 に示すように、検証損失はトレーニングモデルの計算量に直線的に関係しており、言語モデリングに Transformer を使用したときに観察される対数対対展開則と一致しています。計算バジェットが増加するにつれて、(検証損失を最小限に抑えるための) 最適なモデルサイズと最適なエポックバジェットも増加します。

# 以下のグラフでは、最適な学習がわかります。さまざまなエポックバジェットにわたって 3 つのモデルで観察されたレート (つまり、検証損失の最小化)。研究者らは、エポックバジェットが低い場合、NFNet ファミリのモデルはすべて、ほぼ 1.6 という同様の最適学習率を示すことを発見しました。ただし、最適な学習率はエポックバジェットが増加するにつれて減少し、モデルが大きくなると減少速度が速くなります。研究者らは、最適な学習率はモデルサイズとエポックバジェットの増加に伴ってゆっくりと単調に減少すると仮定できるため、試行間で学習率を効果的に調整できると述べています。

書き直す必要があるのは次のとおりです。図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しなかったことに注意してください。研究チームは、この状況の理由は、トレーニングの実行がプリエンプト/再開された場合、データ読み込みプロセスで各トレーニングサンプルが各エポックで 1 回サンプリングできることを保証できないためであると考えています。トレーニングの実行が複数回再開されると、一部のトレーニングサンプルがアンダーサンプリングされる可能性があります。

NFNet と ViT

ImageNet での実験では、微調整後のパフォーマンスが示されています。 NFNet と Vision Transformer の効果は非常に優れています

具体的には、この研究では、ImageNet 上で事前トレーニングされた NFNet を微調整し、上の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。

予算が増加するにつれて、ImageNet Top-1 の精度は向上し続けます。その中で、最も高価な事前トレーニングモデルは NFNet-F7 です。これは 8 エポックで事前トレーニングされ、ImageNet Top-1 で 90.3% の精度を持っています。事前トレーニングと微調整には、約 110,000 TPU-v4 コア時間と 1.6,000 TPU-v4 コア時間が必要です。さらに、微調整中に追加の繰り返し強化技術を導入すると、90.4% のトップ 1 精度を達成できます。 NFNet は大規模な事前トレーニングから大きなメリットをもたらします。

2 つのモデルアーキテクチャ NFNet と ViT の間には明らかな違いがあるにもかかわらず、事前トレーニングされた NFNet と事前トレーニングされた ViT はパフォーマンスにおいて同等です。たとえば、210k TPU-v3 コア時間で JFT-3B を事前トレーニングした後、ViT-g/14 は ImageNet で 90.2% というトップ 1 の精度を達成しましたが、コア時間後には 500k TPU-v3 以上で JFT-3B をトレーニングしました。事前トレーニングの場合、ViT-G/14 は 90.45% のトップ 1 精度を達成しました。

この記事では、TPU-v4 でのこれらのモデルの事前トレーニング速度を評価し、ViT-g/14 120k TPU を推定します。事前トレーニングには v4 コア時間が必要ですが、ViTG/14 では 280,000 TPU-v4 コア時間が必要となり、SoViT-400m/14 では 130,000 TPU-v4 コア時間が必要になります。このペーパーでは、これらの推定値を使用して、図 1 の ViT と NFNet の事前トレーニング効率を比較します。この調査では、NFNet は TPU-v4 用に最適化されており、他のデバイスで評価するとパフォーマンスが低下することが指摘されています。

最後に、この論文では、JFT-4B では事前トレーニングされたチェックポイントが検証損失を最小限に抑えますが、微調整後は ImageNet で常に最高のトップ 1 精度を達成するとは限らないことを指摘します。特に、この論文では、事前トレーニングの計算量が固定されている場合、微調整メカニズムはわずかに大きなモデルとわずかに小さいエポック量を選択する傾向があることを発見しました。直観的には、モデルが大きいほど処理能力が大きいため、新しいタスクへの適応力が高くなります。場合によっては、（事前トレーニング中の）学習率を少し大きくすると、微調整後のパフォーマンスが向上する可能性もあります

以上がDeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は机器之心で複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Gemma Scope：AI＆＃039;の思考プロセスを覗くためのGoogle＆＃039;の顕微鏡Apr 17, 2025 am 11:55 AM

ジェマの範囲で言語モデルの内部の仕組みを探る AI言語モデルの複雑さを理解することは、重要な課題です。包括的なツールキットであるGemma ScopeのGoogleのリリースは、研究者に掘り下げる強力な方法を提供します

ビジネスインテリジェンスアナリストは誰で、どのようになるか？Apr 17, 2025 am 11:44 AM

ビジネスの成功のロック解除：ビジネスインテリジェンスアナリストになるためのガイド生データを組織の成長を促進する実用的な洞察に変換することを想像してください。これはビジネスインテリジェンス（BI）アナリストの力です - GUにおける重要な役割

SQLに列を追加する方法は？ - 分析VidhyaApr 17, 2025 am 11:43 AM

SQLの変更テーブルステートメント：データベースに列を動的に追加するデータ管理では、SQLの適応性が重要です。その場でデータベース構造を調整する必要がありますか？ Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します

ビジネスアナリストとデータアナリストApr 17, 2025 am 11:38 AM

導入 2人の専門家が重要なプロジェクトで協力している賑やかなオフィスを想像してください。ビジネスアナリストは、会社の目標に焦点を当て、改善の分野を特定し、市場動向との戦略的整合を確保しています。シム

ExcelのCountとCountaとは何ですか？ - 分析VidhyaApr 17, 2025 am 11:34 AM

Excelデータカウントと分析：カウントとカウントの機能の詳細な説明特に大規模なデータセットを使用する場合、Excelでは、正確なデータカウントと分析が重要です。 Excelは、これを達成するためにさまざまな機能を提供し、CountおよびCounta関数は、さまざまな条件下でセルの数をカウントするための重要なツールです。両方の機能はセルをカウントするために使用されますが、設計ターゲットは異なるデータ型をターゲットにしています。 CountおよびCounta機能の特定の詳細を掘り下げ、独自の機能と違いを強調し、データ分析に適用する方法を学びましょう。キーポイントの概要カウントとcouを理解します

ChromeはAIと一緒にここにいます：毎日何か新しいことを体験してください!!Apr 17, 2025 am 11:29 AM

Google Chrome'sAI Revolution：パーソナライズされた効率的なブラウジングエクスペリエンス人工知能（AI）は私たちの日常生活を急速に変換しており、Google ChromeはWebブラウジングアリーナで料金をリードしています。この記事では、興奮を探ります

ai＆＃x27; s Human Side：Wellbeing and the Quadruple bottuntApr 17, 2025 am 11:28 AM

インパクトの再考：四重材のボトムライン長い間、会話はAIの影響の狭い見方に支配されており、主に利益の最終ラインに焦点を当てています。ただし、より全体的なアプローチは、BUの相互接続性を認識しています

5ゲームを変える量子コンピューティングの使用ケースあなたが知っておくべきであるApr 17, 2025 am 11:24 AM

物事はその点に向かって着実に動いています。量子サービスプロバイダーとスタートアップに投資する投資は、業界がその重要性を理解していることを示しています。そして、その価値を示すために、現実世界のユースケースの数が増えています

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。