ホームページ > 記事 > テクノロジー周辺機器 > ポストSoraの時代、CV担当者はどのようにモデルを選ぶのでしょうか?畳み込みまたは ViT、教師あり学習または CLIP パラダイム
ImageNet の精度は、かつてはモデルのパフォーマンスを評価するための主な指標でしたが、今日のコンピューティング ビジョンの分野では、この指標は徐々に不完全であるように見えてきました。
コンピュータ ビジョン モデルがより複雑になるにつれて、ConvNet から Vision Transformers まで、利用可能なモデルの種類が大幅に増加しました。トレーニング方法も自己教師あり学習や CLIP のような画像とテキストのペアのトレーニングに進化しており、もはや ImageNet での教師ありトレーニングに限定されません。
ImageNet の精度は重要な指標ですが、モデルのパフォーマンスを完全に評価するには十分ではありません。アーキテクチャ、トレーニング方法、データセットが異なると、タスクごとにモデルのパフォーマンスが異なる場合があるため、ImageNet のみに依存してモデルを判断することには限界がある可能性があります。モデルが ImageNet データセットにオーバーフィットし、精度が飽和状態に達すると、他のタスクに対するモデルの汎化能力が見落とされる可能性があります。したがって、モデルのパフォーマンスと適用性を評価するには、複数の要素を考慮する必要があります。
CLIP の ImageNet の精度は ResNet と似ていますが、そのビジュアル エンコーダはより堅牢で転送可能です。このため、研究者は、ImageNet メトリクスだけを考慮した場合には明らかではなかった CLIP の独自の利点を調査するようになりました。これは、有用なモデルを発見するために他のプロパティを分析することの重要性を強調しています。
さらに、従来のベンチマークでは、さまざまなカメラ角度、照明条件、オクルージョンなど、現実世界の視覚的な課題に対処するモデルの能力を完全に評価することはできません。 ImageNet などのデータセットでトレーニングされたモデルは、現実世界の条件やシナリオがより多様であるため、実際のアプリケーションでそのパフォーマンスを活用することが難しいことがよくあります。
これらの質問は、現場の実務者に新たな混乱をもたらしました: ビジュアル モデルを測定するにはどうすればよいですか?そして、ニーズに合ったビジュアルモデルを選択するにはどうすればよいでしょうか?
最近の論文では、MBZUAI と Meta の研究者がこの問題について詳細な議論を行いました。
選択したモデルは、各トレーニング パラダイムの下で ImageNet-1K 上で同様の数のパラメーターとほぼ同じ精度を備えているため、公平な比較が保証されます。研究者らは、追加のトレーニングや微調整を行わずにモデルの特性に焦点を当て、予測誤差の種類、汎化能力、学習された表現の不変性、キャリブレーションなどの一連のモデル特性を深く調査し、直接的な期待を高めました。事前訓練されたモデルを使用する実践者による。
分析の結果、研究者らは、アーキテクチャやトレーニング パラダイムが異なると、モデルの動作に大きな違いがあることを発見しました。たとえば、CLIP パラダイムでトレーニングされたモデルは、ImageNet でトレーニングされたモデルよりも分類エラーが少なくなりました。ただし、教師ありモデルはより適切に調整されており、一般に ImageNet の堅牢性ベンチマークで優れたパフォーマンスを示します。 ConvNeXt は合成データに関して利点がありますが、ViT よりもテクスチャ指向です。一方、教師あり ConvNeXt は多くのベンチマークで良好なパフォーマンスを示し、CLIP モデルと同等の転送パフォーマンスを実現します。
さまざまなモデルが独自の方法でそれぞれの利点を示しており、これらの利点は単一の指標では捉えることができないことがわかります。研究者らは、特定のコンテキストでモデルを正確に選択し、ImageNet に依存しない新しいベンチマークを作成するには、より詳細な評価指標が必要であると強調しています。
これらの観察に基づいて、Meta AI の主任科学者 Yann LeCun は研究をリツイートし、「いいね」をしました:
教師ありモデルとして、研究者は ViT-Base/16 と同じアーキテクチャを持つ ViT の事前トレーニング済み DeiT3-Base/16 を使用しました。ただし、トレーニング メソッドが改善され、さらに ConvNeXt-Base が使用されます。 CLIP モデルの場合、研究者らは OpenCLIP の ViT-Base/16 および ConvNeXt-Base のビジュアル エンコーダを使用しました。
これらのモデルのパフォーマンスは、元の OpenAI モデルとは若干異なることに注意してください。すべてのモデルのチェックポイントは、GitHub プロジェクトのホームページで見つけることができます。モデルの詳細な比較については、表 1 を参照してください:
#研究者は、モデル選択プロセスについて詳細に説明しました:
1. 研究者は事前トレーニングされたモデルを使用するため、トレーニング中に表示されるデータ サンプルの量と質を制御できません。
2. ConvNet と Transformer を分析するために、これまでの多くの研究で ResNet と ViT が比較されてきました。 ViT は通常、より高度なレシピでトレーニングされ、より高い ImageNet 精度を達成するため、この比較は一般に ConvNet と対照的です。 ViT には、LayerNorm など、何年も前に ResNet が発明されたときに組み込まれていなかったいくつかのアーキテクチャ設計要素もあります。したがって、よりバランスの取れた評価を行うために、ViT と ConvNeXt を比較しました。ConvNeXt は、Transformers と同等のパフォーマンスを発揮し、多くの設計を共有する ConvNet の最新の代表製品です。
3. トレーニング モードに関して、研究者らは教師ありモードと CLIP モードを比較しました。教師ありモデルは、コンピューター ビジョンにおける最先端のパフォーマンスを維持しています。一方、CLIP モデルは一般化と伝達性の点で優れたパフォーマンスを発揮し、視覚的表現と言語的表現を結び付けるためのプロパティを提供します。
4. 自己教師ありモデルは予備テストで教師ありモデルと同様の動作を示したため、結果には含めませんでした。これは、最終的に ImageNet-1K 上で微調整された監視が行われることになり、多くの機能の研究に影響を与えるという事実によるものと考えられます。
次に、研究者がさまざまな属性をどのように分析したかを見てみましょう。
#分析モデルエラー# #ImageNet-X は、16 の変動要因に関する詳細な人間によるアノテーションを備えた ImageNet-1K を拡張したデータセットで、画像分類におけるモデルエラーの詳細な分析を可能にします。エラー率メトリクス (低いほど良い) を使用して、全体の精度と比較した特定の要素におけるモデルのパフォーマンスを定量化し、モデルエラーの微妙な分析を可能にします。 ImageNet-X の結果:
#1. CLIP モデルは、教師ありモデルと比較して、ImageNet の精度におけるエラーが少なくなります。
2. すべてのモデルは主にオクルージョンなどの複雑な要因の影響を受けます。
3. テクスチャはすべてのモデルの中で最も難しい要素です。
形状/テクスチャ偏差
形状/テクスチャ偏差は、モデル 高レベルの形状キューではなく、壊れやすいテクスチャのショートカットに依存するかどうか。この偏りは、形状とテクスチャのさまざまなカテゴリの手がかりが矛盾する画像を組み合わせることによって研究できます。このアプローチは、モデルの決定がテクスチャと比較して形状にどの程度基づいているかを理解するのに役立ちます。研究者らは、キュー競合データセットの形状とテクスチャのバイアスを評価し、CLIP モデルのテクスチャ バイアスが教師ありモデルのテクスチャ バイアスよりも小さい一方、ViT モデルの形状バイアスが ConvNet の形状バイアスよりも高いことを発見しました。
モデルのキャリブレーション
定量化可能なモデルの予測信頼度をキャリブレーションし、実際の精度の一貫性は、予想される校正誤差 (ECE) などの指標や、信頼性プロットや信頼性ヒストグラムなどの視覚化ツールを通じて評価できます。キャリブレーションは ImageNet-1K および ImageNet-R で評価され、予測が 15 レベルに分類されました。実験中、研究者らは次の点を観察しました:
#1. CLIP モデルは自信過剰ですが、教師ありモデルはわずかに自信がありません。
2. 教師あり ConvNeXt は、教師あり ViT よりも優れたキャリブレーションを実行します。
堅牢性と移行性
モデルの堅牢性と移行性は、データ分布やデータの変化に適応するために重要です。新しいミッションは重要です。研究者らは、さまざまな ImageNet バリアントを使用して堅牢性を評価し、ViT モデルと ConvNeXt モデルの平均パフォーマンスは同等でしたが、ImageNet-R と ImageNet-Sketch を除いて、教師ありモデルが一般的に堅牢性の点で CLIP を上回っていることがわかりました。転送可能性の点では、教師あり ConvNeXt は ViT を上回り、19 個のデータセットを使用した VTAB ベンチマークで評価した場合、CLIP モデルのパフォーマンスとほぼ同等です。
#合成データ
PUG-ImageNet などの合成データ セットは、カメラアングルやテクスチャなどの要素を正確に制御することは有望な研究経路であるため、研究者らは合成データに対するモデルのパフォーマンスを分析しました。 PUG-ImageNet には、ポーズや照明などの要素が体系的に変化するフォトリアリスティックな ImageNet 画像が含まれており、パフォーマンスは絶対的なトップ 1 の精度として測定されます。研究者らは、PUG-ImageNet のさまざまな要素に関する結果を提供し、ConvNeXt がほぼすべての要素で ViT よりも優れていることを発見しました。これは、ConvNeXt が合成データでは ViT よりも優れていることを示していますが、CLIP モデルの精度は教師ありモデルよりも低いため、CLIP モデルのギャップは小さくなっており、これは元の ImageNet の精度が低いことに関連している可能性があります。
#変換不変性
変換不変性とは、モデルの能力を指します。入力変換の影響を受けない一貫した表現を生成し、スケーリングや移動などのセマンティクスを維持します。このプロパティにより、モデルは異なるが意味的に類似した入力全体にわたって適切に一般化できます。使用される方法には、スケール不変性のための画像のサイズ変更、位置不変性のためのクロップの移動、補間された位置埋め込みを使用した ViT モデルの解像度の調整などが含まれます。トリミング スケール/位置と画像解像度を変更することで、ImageNet-1K 上のスケール、動き、解像度の不変性を評価します。 ConvNext は教師ありトレーニングにおいて ViT を上回ります。全体として、モデルは動きよりもスケール/解像度変換に対してより堅牢です。スケーリング、変位、解像度に対する高い堅牢性が必要なアプリケーションの場合、教師あり ConvNeXt が最良の選択である可能性があることが結果から示唆されています。
#概要
#この記事の結論の要約は次のとおりです:
#ConvNet と Transformer
1. 教師あり ConvNeXt は、多くのベンチマークで教師あり ViT より優れたパフォーマンスを示します。より適切に調整され、データ変換に対してより不変であり、より優れた転送性と堅牢性を示します。
2. ConvNeXt は、合成データに対して ViT よりも優れたパフォーマンスを発揮します。
3. ViT は形状偏差が大きくなります。
#監視と CLIP
#1. CLIP モデルは転送性の点で優れていますが、監視が必要です。 ConvNeXt は、このタスクで競争力のあるパフォーマンスを発揮しました。これは教師ありモデルの可能性を示しています。
2. 教師ありモデルは、堅牢性ベンチマークでより優れたパフォーマンスを示しますが、これはおそらく、これらのモデルがすべて ImageNet のバリアントであるためです。3. ImageNet の精度と比較して、CLIP モデルは形状の偏りが大きく、分類エラーが少なくなります。
以上がポストSoraの時代、CV担当者はどのようにモデルを選ぶのでしょうか?畳み込みまたは ViT、教師あり学習または CLIP パラダイムの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。