ホームページ > 記事 > テクノロジー周辺機器 > DeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?
深層学習の初期の成功は、畳み込みニューラル ネットワーク (ConvNet) の開発に起因すると考えられます。 ConvNet は、10 年近くにわたってコンピューター ビジョンのベンチマークを支配してきました。しかし、近年ではViT(ビジョントランスフォーマー)に置き換わるケースが増えています。 多くの人は、ConvNet は小規模または中規模のデータ セットでは良好なパフォーマンスを発揮しますが、より大規模なネットワーク サイズのデータ セットでは ViT と競合できないと考えています。 同時に、CV コミュニティは、特定のデータセット (ImageNet など) でランダムに初期化されたネットワークのパフォーマンスを評価することから、ネットワークから収集された大規模な一般データセットで事前トレーニングされたネットワークのパフォーマンスを評価することに移行しました。これは重要な疑問につながります。ビジョン トランスフォーマーは、同様の計算予算の下で、事前トレーニングされた ConvNets アーキテクチャよりも優れたパフォーマンスを発揮しますか? この記事では、Google DeepMind の研究者がこの問題を研究しました。彼らは、異なるスケールの JFT-4B データセット上で複数の NFNet モデルを事前トレーニングすることにより、ImageNet 上の ViT と同様のパフォーマンスを獲得しました。 ペーパーリンクアドレス: https://arxiv.org /pdf/2310.16764.pdfこの論文の調査では、0.4k ~ 110k の TPU-v4 コア コンピューティング時間の事前トレーニング コンピューティング予算の状況と、NFNet モデル ファミリの深さと幅の増加を活用した状況について説明します。一連のネットワーク トレーニングを実行します。研究によると、ホールドアウト損失とコンピューティング予算の間には対対対数拡大率 (スケーリング則) があることが判明しました。たとえば、この記事は、TPU-v4 コア時間で実行される JFT-4B に基づいています (コア時間)は 0.4k から 110k までスケールされ、NFNet で事前トレーニングされました。微調整後、最大のモデルは ImageNet Top-1 で 90.4% の精度を達成し、同じ計算量の下で事前トレーニングされた ViT モデルと競合しました 次のように言えます。 、この論文は、スケールアップされた NFNet を評価することによって、大規模なデータセットでは ConvNet のパフォーマンスが ViT よりも悪いという概念に異議を唱えます。さらに、十分なデータと計算があれば、ConvNet は競争力を維持し、モデル設計とリソースはアーキテクチャよりも重要です。 この研究を見て、チューリング賞受賞者のヤン・ルカン氏は次のように述べています。「一定の計算量の下では、ViT と ConvNets は計算的に同等です。ViTs はコンピューター ビジョンで目覚ましい結果を達成しましたが、印象的な成功ですが、私の意見では公正に評価した場合、事前トレーニングされた ViT が事前トレーニングされた ConvNet よりも優れているという強力な証拠はありません。」 しかし、一部のネチズンは、LeCun のコメントに対して、ViT を使用することは効果的であると信じているとコメントしました。マルチモーダル モデルは依然として研究において有利である可能性がありますGoogle DeepMind の研究者らは、ConvNets が消えることはないと述べています#この論文では、スケールアップされた NFNet を評価し、大規模な問題では ConvNet のパフォーマンスが ViT よりも悪いという考えに異議を唱えます。
次に、具体的なコンテンツを見てみましょう紙の。
事前トレーニングされた NFNet は拡張則に従う
この記事では、JFT-4B でさまざまな深さと幅の一連の NFNet モデルをトレーニングしました。 図 2 に示すように、検証損失はトレーニング モデルの計算量に直線的に関係しており、言語モデリングに Transformer を使用したときに観察される対数対対展開則と一致しています。計算バジェットが増加するにつれて、(検証損失を最小限に抑えるための) 最適なモデル サイズと最適なエポック バジェットも増加します。 # 以下のグラフでは、最適な学習がわかります。さまざまなエポックバジェットにわたって 3 つのモデルで観察されたレート (つまり、検証損失の最小化)。研究者らは、エポックバジェットが低い場合、NFNet ファミリのモデルはすべて、ほぼ 1.6 という同様の最適学習率を示すことを発見しました。ただし、最適な学習率はエポック バジェットが増加するにつれて減少し、モデルが大きくなると減少速度が速くなります。研究者らは、最適な学習率はモデルサイズとエポックバジェットの増加に伴ってゆっくりと単調に減少すると仮定できるため、試行間で学習率を効果的に調整できると述べています。書き直す必要があるのは次のとおりです。図 2 の事前トレーニング済みモデルの一部は期待どおりに動作しなかったことに注意してください。研究チームは、この状況の理由は、トレーニングの実行がプリエンプト/再開された場合、データ読み込みプロセスで各トレーニング サンプルが各エポックで 1 回サンプリングできることを保証できないためであると考えています。トレーニングの実行が複数回再開されると、一部のトレーニング サンプルがアンダーサンプリングされる可能性があります。
NFNet と ViT
ImageNet での実験では、微調整後のパフォーマンスが示されています。 NFNet と Vision Transformer の効果は非常に優れています
具体的には、この研究では、ImageNet 上で事前トレーニングされた NFNet を微調整し、上の図 1 に示すように、事前トレーニングの計算と Top-1 エラーの関係をプロットしました。
予算が増加するにつれて、ImageNet Top-1 の精度は向上し続けます。その中で、最も高価な事前トレーニング モデルは NFNet-F7 です。これは 8 エポックで事前トレーニングされ、ImageNet Top-1 で 90.3% の精度を持っています。事前トレーニングと微調整には、約 110,000 TPU-v4 コア時間と 1.6,000 TPU-v4 コア時間が必要です。さらに、微調整中に追加の繰り返し強化技術を導入すると、90.4% のトップ 1 精度を達成できます。 NFNet は大規模な事前トレーニングから大きなメリットをもたらします。
2 つのモデル アーキテクチャ NFNet と ViT の間には明らかな違いがあるにもかかわらず、事前トレーニングされた NFNet と事前トレーニングされた ViT はパフォーマンスにおいて同等です。たとえば、210k TPU-v3 コア時間で JFT-3B を事前トレーニングした後、ViT-g/14 は ImageNet で 90.2% というトップ 1 の精度を達成しましたが、コア時間後には 500k TPU-v3 以上で JFT-3B をトレーニングしました。事前トレーニングの場合、ViT-G/14 は 90.45% のトップ 1 精度を達成しました。
この記事では、TPU-v4 でのこれらのモデルの事前トレーニング速度を評価し、ViT-g/14 120k TPU を推定します。事前トレーニングには v4 コア時間が必要ですが、ViTG/14 では 280,000 TPU-v4 コア時間が必要となり、SoViT-400m/14 では 130,000 TPU-v4 コア時間が必要になります。このペーパーでは、これらの推定値を使用して、図 1 の ViT と NFNet の事前トレーニング効率を比較します。この調査では、NFNet は TPU-v4 用に最適化されており、他のデバイスで評価するとパフォーマンスが低下することが指摘されています。
最後に、この論文では、JFT-4B では事前トレーニングされたチェックポイントが検証損失を最小限に抑えますが、微調整後は ImageNet で常に最高のトップ 1 精度を達成するとは限らないことを指摘します。特に、この論文では、事前トレーニングの計算量が固定されている場合、微調整メカニズムはわずかに大きなモデルとわずかに小さいエポック量を選択する傾向があることを発見しました。直観的には、モデルが大きいほど処理能力が大きいため、新しいタスクへの適応力が高くなります。場合によっては、(事前トレーニング中の)学習率を少し大きくすると、微調整後のパフォーマンスが向上する可能性もあります
以上がDeepMind: 畳み込みネットワークが ViT より劣ると誰が言いましたか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。