ホームページ  >  記事  >  テクノロジー周辺機器  >  スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

PHPz
PHPz転載
2023-04-17 19:04:031096ブラウズ

視覚、言語、音声などの機械学習の多くの分野では、ニューラル スケーリングでは、一般にトレーニング データ、モデル サイズ、計算数が増加するにつれてテスト エラーが減少すると述べています。この比例的な改善により、ディープ ラーニングは大幅なパフォーマンス向上を実現しました。ただし、スケーリングだけでこれらの改善を達成するには、計算とエネルギーの点でかなりのコストがかかります。

この比例スケーリングは持続不可能です。たとえば、誤差を 3% から 2% に減らすために必要なデータ、計算、またはエネルギーの量は指数関数的に増加します。以前の研究では、大規模な Transformer を使用した言語モデリングでクロス エントロピー損失を 3.4 から 2.8 に削減するには、10 倍のトレーニング データが必要であることが示されています。さらに、大規模なビジュアル トランスフォーマーの場合、追加の 20 億の事前トレーニング データ ポイント (10 億から開始) は、ImageNet で数パーセントの精度向上にとどまりました。

これらの結果はすべて、ディープラーニングにおけるデータの性質を明らかにすると同時に、巨大なデータセットを収集する行為が非効率的である可能性があることを示しています。ここでの議論は、もっと改善できるかどうかということです。たとえば、トレーニング サンプルを選択するための適切な戦略を使用して、指数関数的なスケーリングを達成できるでしょうか?

最近の記事で、研究者らは、慎重に選択したトレーニング サンプルをいくつか追加するだけで、10 倍以上のランダム サンプルを収集しなくても誤差を 3% から 2% に減らすことができることを発見しました。一言で言えば、「売ればいいというものではない」ということです。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

論文リンク: https://arxiv.org/pdf/2206.14486.pdf

全体として、この研究の貢献は次のとおりです。

1. 統計力学を使用して、新しいデータ枝刈り分析理論を開発します教師と生徒のパーセプトロン学習環境では、サンプルは教師マージンに応じて枝刈りされ、大きい (小さい) マージンはそれぞれ単純な (難易度) に対応します。サンプル。この理論は数値実験と定量的に一致し、2 つの驚くべき予測が明らかになります:

a. 最適な枝刈り戦略は初期データの量によって変わります。初期データが豊富 (希少) な場合は、困難な (簡単な) サンプルのみを使用します。保持する必要があります。

b. 増加するパレート最適枝刈りスコアが初期データセット サイズの関数として選択された場合、枝刈りされたデータセット サイズに対して指数関数的なスケーリングが可能です。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

#2. 研究によると、これら 2 つの予測は、より一般的な設定において実際に当てはまります。これらは、SVHN、CIFAR-10、ImageNet でゼロからトレーニングされた ResNet と、CIFAR-10 で微調整されたビジュアル Transformer のプルーニングされたデータセット サイズに関する誤差の指数関数的スケーリング特性を検証します。

3. ImageNet 上の 10 個の異なるデータ プルーニング メトリクスについて大規模なベンチマーク調査を実施したところ、最も計算量の多いメトリクスを除いて、ほとんどのメトリクスのパフォーマンスが低いことがわかりました。

4. 新しい低コストの教師なし枝刈りメトリクスは、自己教師あり学習を使用して開発されており、以前のメトリクスとは異なり、ラベルが必要ありません。この教師なし測定が、ラベルとより多くの計算を必要とする最良の教師あり枝刈り測定に匹敵することを示します。この結果は、事前トレーニングされた基本モデルを使用して新しいデータセットをプルーニングできる可能性を明らかにしています。

必要なのはスケールだけですか?

研究者のパーセプトロン データ プルーニング理論は、ベンチマークでトレーニングされたディープ ニューラル ネットワークなど、より一般的な環境でテストできる 3 つの驚くべき予測を提案しています。

( 1) ランダム データ プルーニングとの比較、初期データセットが比較的大きい場合、最も困難なサンプルのみを保持することは有益ですが、初期データセットが比較的小さい場合、これは有害です;

(2) 初期データセットとしてサイズが増加すると、最も硬いサンプルの固定部分 f を保持することによるデータ プルーニングにより、ランダム プルーニングと等しい指数を持つべき乗則スケーリングが生成されます。

(3) 初期データ セット サイズとすべてのテストの最適化保持されたデータの一部に関する誤差は、より大きな初期データ セットに対してより積極的な枝刈りを実行し、パレート最適の下限エンベロープを追跡し、テスト誤差と枝刈りされたデータ セット サイズの関係を壊すことによって達成できます。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

研究者らは、ResNets のデータ プルーニング (図 3A の理論と図 3BCD の深層学習実験) の下で保存された、異なる数の初期データ セット サイズとデータ部分を使用しました。 SVHN、CIFAR-10、および ImageNet でトレーニングされた結果は、上記の 3 つの予測を検証します。各実験設定では、初期データセット サイズを大きくし、より積極的な枝刈りを行った方が、べき乗則スケーリングよりも優れたパフォーマンスを発揮することがわかります。さらに、初期データセットが大きいほど、スケーリングが向上する可能性があります (図 3A)。

さらに、研究者らは、データの枝刈りによって転移学習のパフォーマンスが向上することを発見しました。彼らはまず、ImageNet21K で事前トレーニングされた ViT を分析し、次に CIFAR-10 のプルーニングされたさまざまなサブセットで微調整しました。興味深いことに、事前トレーニング済みモデルでは、より積極的なデータ プルーニングが可能であり、CIFAR-10 微調整のわずか 10% のみが、すべての CIFAR-10 微調整によって達成されるパフォーマンスと一致またはそれを超えていました (図 4A)。さらに、図 4A は、微調整された設定におけるべき乗則スケーリングの破壊のサンプルを示しています。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

ImageNet1K のプルーニングされたさまざまなサブセット (図 3D を参照) で ResNet50 を事前トレーニングすることで、研究者らは事前トレーニングされたデータのプルーニングの有効性を調べ、その後 CIFAR を使用しました。 -10 で微調整します。図 4B に示すように、ImageNet の少なくとも 50% での事前トレーニングは、すべての ImageNet での事前トレーニングで達成される CIFAR-10 のパフォーマンスと同等またはそれを超えることができます。

したがって、上流タスクの事前トレーニング データをプルーニングしても、さまざまな下流タスクで高いパフォーマンスを維持できます。全体として、これらの結果は、事前トレーニングおよび微調整段階での転移学習における枝刈りの可能性を示しています。

ImageNet での教師付き枝刈りメトリクスのベンチマーク実施

研究者らは、データ枝刈り実験のほとんどが小規模のデータセット (つまり、 MNIST と CIFAR の亜種) 上で行われていることに気づきました。したがって、ImageNet に対して提案されているいくつかの枝刈りメトリクスが、より小さなデータセットで設計されたベースラインと比較されることはほとんどありません。

したがって、ほとんどのプルーニング方法が ImageNet にどのように対応するか、またどの方法が最適であるかは不明です。パフォーマンスに対する枝刈りメトリクスの品質の理論的な影響を調査するために、ImageNet 上の 8 つの異なる教師あり枝刈りメトリクスの体系的な評価を実行することで、この知識のギャップを埋めることにしました。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

研究者らは、メトリクス間のパフォーマンスに大きな違いがあることを観察しました。図 5BC は、各メトリクスで最も困難なサンプルの一部がトレーニング セットに保持された場合のテスト パフォーマンスを示しています。多くのメトリクスは小規模なデータセットで成功を収めますが、大幅に小さなトレーニング サブセット (Imagenet の 80% など) を選択した場合、完全なデータセットでトレーニングした場合でも同等のパフォーマンスを達成できるメトリクスはわずかです。

それにもかかわらず、ほとんどの対策は依然としてランダム枝刈りよりも優れたパフォーマンスを示します (図 5C)。研究者は、すべての枝刈りメトリクスがクラスの不均衡を増幅し、パフォーマンスの低下を引き起こすことを発見しました。この問題に対処するために、著者らはすべての ImageNet 実験で単純な 50% のクラス バランス レートを使用しました。

プロトタイプ メトリクスによる自己監視型データ プルーニング

図 5 に示すように、多くのデータ プルーニング メトリクスは ImageNet に合わせて適切に拡張できず、その一部は確かに計算負荷が高くなります。さらに、これらのメトリクスはすべてアノテーションを必要とするため、ラベルのない大規模なデータセットで大規模なベース モデルをトレーニングするためのデータ プルーニング機能が制限されます。したがって、シンプルでスケーラブルな自己監視型枝刈りメトリクスが明らかに必要です。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

メトリックによって検出されたクラスターが ImageNet クラスと一致しているかどうかを評価するために、図 6A でそれらの重複を比較しました。データの 70% 以上を保持する場合、自己監視型と監視型の測定のパフォーマンスは同等であり、自己監視型枝刈りの可能性が示されています。

研究の詳細については、元の論文を参照してください。

以上がスタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。