スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です-AI-php.cn

ホームページ

テクノロジー周辺機器

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

PHPz

Apr 17, 2023 pm 07:04 PM

aiデータ

視覚、言語、音声などの機械学習の多くの分野では、ニューラルスケーリングでは、一般にトレーニングデータ、モデルサイズ、計算数が増加するにつれてテストエラーが減少すると述べています。この比例的な改善により、ディープラーニングは大幅なパフォーマンス向上を実現しました。ただし、スケーリングだけでこれらの改善を達成するには、計算とエネルギーの点でかなりのコストがかかります。

この比例スケーリングは持続不可能です。たとえば、誤差を 3% から 2% に減らすために必要なデータ、計算、またはエネルギーの量は指数関数的に増加します。以前の研究では、大規模な Transformer を使用した言語モデリングでクロスエントロピー損失を 3.4 から 2.8 に削減するには、10 倍のトレーニングデータが必要であることが示されています。さらに、大規模なビジュアルトランスフォーマーの場合、追加の 20 億の事前トレーニングデータポイント (10 億から開始) は、ImageNet で数パーセントの精度向上にとどまりました。

これらの結果はすべて、ディープラーニングにおけるデータの性質を明らかにすると同時に、巨大なデータセットを収集する行為が非効率的である可能性があることを示しています。ここでの議論は、もっと改善できるかどうかということです。たとえば、トレーニングサンプルを選択するための適切な戦略を使用して、指数関数的なスケーリングを達成できるでしょうか?

最近の記事で、研究者らは、慎重に選択したトレーニングサンプルをいくつか追加するだけで、10 倍以上のランダムサンプルを収集しなくても誤差を 3% から 2% に減らすことができることを発見しました。一言で言えば、「売ればいいというものではない」ということです。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

論文リンク: https://arxiv.org/pdf/2206.14486.pdf

全体として、この研究の貢献は次のとおりです。

1. 統計力学を使用して、新しいデータ枝刈り分析理論を開発します教師と生徒のパーセプトロン学習環境では、サンプルは教師マージンに応じて枝刈りされ、大きい (小さい) マージンはそれぞれ単純な (難易度) に対応します。サンプル。この理論は数値実験と定量的に一致し、2 つの驚くべき予測が明らかになります:

a. 最適な枝刈り戦略は初期データの量によって変わります。初期データが豊富 (希少) な場合は、困難な (簡単な) サンプルのみを使用します。保持する必要があります。

b. 増加するパレート最適枝刈りスコアが初期データセットサイズの関数として選択された場合、枝刈りされたデータセットサイズに対して指数関数的なスケーリングが可能です。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

#2. 研究によると、これら 2 つの予測は、より一般的な設定において実際に当てはまります。これらは、SVHN、CIFAR-10、ImageNet でゼロからトレーニングされた ResNet と、CIFAR-10 で微調整されたビジュアル Transformer のプルーニングされたデータセットサイズに関する誤差の指数関数的スケーリング特性を検証します。

3. ImageNet 上の 10 個の異なるデータプルーニングメトリクスについて大規模なベンチマーク調査を実施したところ、最も計算量の多いメトリクスを除いて、ほとんどのメトリクスのパフォーマンスが低いことがわかりました。

4. 新しい低コストの教師なし枝刈りメトリクスは、自己教師あり学習を使用して開発されており、以前のメトリクスとは異なり、ラベルが必要ありません。この教師なし測定が、ラベルとより多くの計算を必要とする最良の教師あり枝刈り測定に匹敵することを示します。この結果は、事前トレーニングされた基本モデルを使用して新しいデータセットをプルーニングできる可能性を明らかにしています。

必要なのはスケールだけですか?

研究者のパーセプトロンデータプルーニング理論は、ベンチマークでトレーニングされたディープニューラルネットワークなど、より一般的な環境でテストできる 3 つの驚くべき予測を提案しています。

( 1) ランダムデータプルーニングとの比較、初期データセットが比較的大きい場合、最も困難なサンプルのみを保持することは有益ですが、初期データセットが比較的小さい場合、これは有害です;

(2) 初期データセットとしてサイズが増加すると、最も硬いサンプルの固定部分 f を保持することによるデータプルーニングにより、ランダムプルーニングと等しい指数を持つべき乗則スケーリングが生成されます。

(3) 初期データセットサイズとすべてのテストの最適化保持されたデータの一部に関する誤差は、より大きな初期データセットに対してより積極的な枝刈りを実行し、パレート最適の下限エンベロープを追跡し、テスト誤差と枝刈りされたデータセットサイズの関係を壊すことによって達成できます。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

研究者らは、ResNets のデータプルーニング (図 3A の理論と図 3BCD の深層学習実験) の下で保存された、異なる数の初期データセットサイズとデータ部分を使用しました。 SVHN、CIFAR-10、および ImageNet でトレーニングされた結果は、上記の 3 つの予測を検証します。各実験設定では、初期データセットサイズを大きくし、より積極的な枝刈りを行った方が、べき乗則スケーリングよりも優れたパフォーマンスを発揮することがわかります。さらに、初期データセットが大きいほど、スケーリングが向上する可能性があります (図 3A)。

さらに、研究者らは、データの枝刈りによって転移学習のパフォーマンスが向上することを発見しました。彼らはまず、ImageNet21K で事前トレーニングされた ViT を分析し、次に CIFAR-10 のプルーニングされたさまざまなサブセットで微調整しました。興味深いことに、事前トレーニング済みモデルでは、より積極的なデータプルーニングが可能であり、CIFAR-10 微調整のわずか 10% のみが、すべての CIFAR-10 微調整によって達成されるパフォーマンスと一致またはそれを超えていました (図 4A)。さらに、図 4A は、微調整された設定におけるべき乗則スケーリングの破壊のサンプルを示しています。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

ImageNet1K のプルーニングされたさまざまなサブセット (図 3D を参照) で ResNet50 を事前トレーニングすることで、研究者らは事前トレーニングされたデータのプルーニングの有効性を調べ、その後 CIFAR を使用しました。 -10 で微調整します。図 4B に示すように、ImageNet の少なくとも 50% での事前トレーニングは、すべての ImageNet での事前トレーニングで達成される CIFAR-10 のパフォーマンスと同等またはそれを超えることができます。

したがって、上流タスクの事前トレーニングデータをプルーニングしても、さまざまな下流タスクで高いパフォーマンスを維持できます。全体として、これらの結果は、事前トレーニングおよび微調整段階での転移学習における枝刈りの可能性を示しています。

ImageNet での教師付き枝刈りメトリクスのベンチマーク実施

研究者らは、データ枝刈り実験のほとんどが小規模のデータセット (つまり、 MNIST と CIFAR の亜種) 上で行われていることに気づきました。したがって、ImageNet に対して提案されているいくつかの枝刈りメトリクスが、より小さなデータセットで設計されたベースラインと比較されることはほとんどありません。

したがって、ほとんどのプルーニング方法が ImageNet にどのように対応するか、またどの方法が最適であるかは不明です。パフォーマンスに対する枝刈りメトリクスの品質の理論的な影響を調査するために、ImageNet 上の 8 つの異なる教師あり枝刈りメトリクスの体系的な評価を実行することで、この知識のギャップを埋めることにしました。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

研究者らは、メトリクス間のパフォーマンスに大きな違いがあることを観察しました。図 5BC は、各メトリクスで最も困難なサンプルの一部がトレーニングセットに保持された場合のテストパフォーマンスを示しています。多くのメトリクスは小規模なデータセットで成功を収めますが、大幅に小さなトレーニングサブセット (Imagenet の 80% など) を選択した場合、完全なデータセットでトレーニングした場合でも同等のパフォーマンスを達成できるメトリクスはわずかです。

それにもかかわらず、ほとんどの対策は依然としてランダム枝刈りよりも優れたパフォーマンスを示します (図 5C)。研究者は、すべての枝刈りメトリクスがクラスの不均衡を増幅し、パフォーマンスの低下を引き起こすことを発見しました。この問題に対処するために、著者らはすべての ImageNet 実験で単純な 50% のクラスバランスレートを使用しました。

プロトタイプメトリクスによる自己監視型データプルーニング

図 5 に示すように、多くのデータプルーニングメトリクスは ImageNet に合わせて適切に拡張できず、その一部は確かに計算負荷が高くなります。さらに、これらのメトリクスはすべてアノテーションを必要とするため、ラベルのない大規模なデータセットで大規模なベースモデルをトレーニングするためのデータプルーニング機能が制限されます。したがって、シンプルでスケーラブルな自己監視型枝刈りメトリクスが明らかに必要です。

スタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要です

メトリックによって検出されたクラスターが ImageNet クラスと一致しているかどうかを評価するために、図 6A でそれらの重複を比較しました。データの 70% 以上を保持する場合、自己監視型と監視型の測定のパフォーマンスは同等であり、自己監視型枝刈りの可能性が示されています。

研究の詳細については、元の論文を参照してください。

以上がスタンフォード、メタ AI 研究: AGI への道では、データのプルーニングが私たちが思っているよりも重要ですの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Google対Openai：学生のためのAIの戦いApr 18, 2025 am 11:31 AM

即時の影響と長期パートナーシップ？ 2週間前、Openaiは強力な短期オファーで前進し、2025年5月末までに米国およびカナダの大学生にChatGpt Plusに無料でアクセスできます。このツールにはGPT ‑ 4o、Aが含まれます。

AIを活用して次の就職面接を粉砕する5つの方法Apr 18, 2025 am 11:30 AM

Resume Builderによる調査によると、51％の企業がすでに雇用プロセスでAIツールを使用しています。2025年末までに68％にジャンプすると予測されています。次の就職インタビューに備えるためにAIソリューションを活用するだけで優位に立つことはできません。よ

エンタープライズにおけるAIイニシアチブに関する8つの主要な問題Apr 18, 2025 am 11:29 AM

今年LLMSを使用したことで私たちが行った急速な進歩について非常に多くの熱意を持って、残りの障壁とボトルネックのいくつかはシャッフルで迷子になる傾向があります。すべての以前のテクノロジーと同様に、企業はAIプロジェクトtを導入する必要があります

すべての初心者が作るAIでのこれらの5つの一般的な間違いを避けてくださいApr 18, 2025 am 11:25 AM

あなたのAIの旅に出る？これらの一般的な落とし穴は避けてください！このガイドは、初心者が犯す5つの頻繁な間違いを強調し、よりスムーズで成功した学習体験のためのソリューションを提供します。重要なテイクアウト： Tacklの前にAIの基礎をマスターします

敬意を表した技術：AIおよび先住民のコミュニティパワーApr 18, 2025 am 11:21 AM

答えは複雑です。 AIは、先住民族の自己決定、言語保存、気候管理をサポートする非常に大きな可能性を抱えています。しかし、それはまた、消去、搾取、除外の長年のパターンを深める危険を冒します - それがそうでない限り

デジタル製品エクスペリエンスに対する仮想AIエージェントの影響Apr 18, 2025 am 11:13 AM

カスタマーサービスの革新：統合情報システムにおける仮想AIエージェントの台頭今日の急速に進化するデジタル環境では、企業は顧客コミュニケーションを強化するための革新的な方法を常に求めています。の統合

Google Guilty Again、Meta on Trial、Openai Social、IRロールアップタッチキャストAIApr 18, 2025 am 11:10 AM

2025年4月17日、米国地区裁判官のレオニー・ブリンケマは、Googleがデジタル広告市場の重要なセグメントを違法に独占していると裁定しました。裁判所は、Googleが出版社の広告サーバーと広告交換を結びつけることでその支配を乱用したと判断しました。

AVバイト：SearchGpt、Llama 3.1などをフィーチャーした毎週のAIイノベーションApr 18, 2025 am 11:06 AM

今週、AIの分野での大きなブレークスルー！ AVバイトは、AIフィールドで最新の進歩をもたらします。興奮は見逃せません！検索エンジンの未来？ OpenaiのSearchGpt、Meta's Llama 3.1、およびMistral AIの大きな2モデルはすべて、すべてAIを新たな高みに押し上げます。さらに、AIは数学オリンピアードでメダルを獲得し、医療診断の分野で人間の医師を超えた可能性を示しました。これはすべて、サイエンスフィクションが徐々に現実になっていることを示しています！今週のハイライト： OpenaiのSearchGpt：高度な自然言語処理テクノロジーを使用して情報検索効率を向上させる新しい検索エンジンプロトタイプ。メタのllama 3.1：embrace

See all articles