ビッグモデルの育成は「エネルギー」に注目！ Tao Dacheng がチームを率いる: すべての「効率的なトレーニング」ソリューションは 1 つの記事でカバーされており、ハードウェアが唯一のボトルネックだという言い方はやめてください。

ビッグモデルの育成は「エネルギー」に注目！ Tao Dacheng がチームを率いる: すべての「効率的なトレーニング」ソリューションは 1 つの記事でカバーされており、ハードウェアが唯一のボトルネックだという言い方はやめてください。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 23, 2023 pm 05:04 PM

モデル電車

ディープラーニングの分野は、特にコンピュータビジョン、自然言語処理、音声などの分野で大きな進歩を遂げており、ビッグデータを活用して学習された大規模モデルは実用化、産業生産性の向上、社会の発展に重要です。 . 開発には大きな展望があります。

ただし、大規模なモデルのトレーニングには大規模なコンピューティング能力も必要です。コンピューティング能力に対する人々の要求は増加し続けるため、効率的なトレーニング方法を探求する多くの研究が行われていますが、深層学習モデルの高速化技術に関する包括的なレビューはまだありません。

最近、シドニー大学、中国科学技術大学などの研究者らが、大規模な深層学習モデルの効率的なトレーニング手法を包括的にまとめたレビューを発表し、トレーニングプロセスの各コンポーネント内の共通メカニズム。

# 論文リンク: https://arxiv.org/pdf/2304.03589.pdf

研究者らは、最も基本的な重み更新式を検討し、その基本コンポーネントを 5 つの主要な側面に分割しました。

##1、

データ中心 (データ中心) (データセットの正則化、データサンプリング、データ中心のコース学習テクノロジを含む) により、データサンプルの計算の複雑さを大幅に軽減できます。

2、

モデル中心 (モデル中心) (基本モジュールの高速化、圧縮トレーニング、モデルの初期化、モデル中心のコース学習テクノロジはトレーニングの高速化に重点を置いています)パラメータ計算の削減による;

3、

最適化中心の (学習率の選択、大きなバッチサイズの使用、効率的な目的関数の設計、モデルの加重平均を含む)テクノロジーなど; 大規模モデルの汎用性を向上させるためのトレーニング戦略に焦点を当てる;

予算トレーニング (ハードウェアが使用されている場合に使用されるいくつかのアクセラレーションテクノロジを含む)限定的;

5、

システム中心 (システム中心) 、いくつかの効率的な分散フレームワークとオープンソースライブラリを含み、高速化されたアプリケーションの実装に十分なハードウェアサポートを提供します。アルゴリズム。効率的なデータ中心のトレーニング

最近、大規模モデルが大きく進歩する一方で、データセットに対する要件が大幅に増加しています。トレーニングプロセスを推進し、優れたパフォーマンスを達成するために、膨大なデータサンプルが使用されます。したがって、実際の加速にはデータ中心の研究が不可欠です。

データ処理の基本的な機能は、ラベル付けのコストを増やさずにデータサンプルの多様性を効率的に高めることです。データのラベル付けのコストは高額になることが多いため、一部の開発機関には余裕がありません。これは、データ中心の分野における研究の重要性も強調するものであり、同時に、データ処理では、データサンプルの並列ロードの効率の向上にも重点が置かれています。

研究者らは、これらすべての効率的なデータ処理を「データ中心」のアプローチと呼んでいます。これにより、大規模モデルのトレーニングのパフォーマンスを大幅に向上させることができます。

#この記事では、次の側面からテクノロジーをレビューおよび研究します:

データの正則化データの正則化データ正則化は、一連のデータ変換を通じて元のデータサンプルの多様性を強化する前処理手法であり、特徴空間におけるトレーニングサンプルの等価性を向上させることができます。ラベル情報は必須です。

効率的なデータ正則化手法はトレーニングプロセスで広く使用されており、大規模モデルの汎化パフォーマンスを大幅に向上させることができます。

データサンプリングデータサンプリング

データサンプリングも効果的な方法です。勾配を更新するためにサンプルの大規模なバッチからサブセットを抽出する場合、小さなバッチでトレーニングして、現在のバッチ内の重要でないサンプルや不良サンプルの影響を軽減できるという利点があります。

通常、サンプリングされたデータの方が重要であり、そのパフォーマンスは完全なバッチを使用してトレーニングされたモデルのパフォーマンスと同等です。各反復の確率は、トレーニングプロセス: サンプリングに偏りがないことを確認します。

データ中心のカリキュラム学習

トレーニングプロセスのさまざまな段階でのカリキュラム学習全体的な計算コスト。

最初は、低品質のデータセットを使用して、低レベルの機能を学習するのに十分なトレーニングを行い、その後、高品質のデータセット (さらなる機能強化と複雑な前処理方法) を徐々に使用します。複雑な機能を学習し、トレーニングセット全体を使用した場合と同じ精度を達成するのに役立ちます。

モデル中心の効率的なトレーニング

効率的なモデルアーキテクチャの設計は、深層学習の分野において常に最も重要な研究の 1 つです。 1. 簡単に分離できる高レベルの特徴に投影できる特徴抽出ツール。

効率的で斬新なモデルアーキテクチャに特別な注意を払う他の研究とは異なり、この論文では、「モデル中心」の研究における共通モジュールの同等の代替手段により多くの注意を払っています。同等の条件下で。

ほとんどすべての大規模モデルは小さなモジュールまたはレイヤーで構成されているため、モデルの調査は大規模モデルを効率的にトレーニングするためのガイダンスを提供します。研究者は主に次の研究に焦点を当てています。側面:

#アーキテクチャ効率

深層モデルのパラメーターの数この急激な増加は膨大な計算量の消費ももたらしているため、モデルアーキテクチャの元のバージョンのパフォーマンスに近づけるために効率的な代替案を実装する必要があります。この方向性は徐々に学術界の注目を集めています。この代替案は、学術界の注目を集めています。数値計算近似には、構造の単純化とディープモデルでの融合も含まれます。

研究者たちは、さまざまなアーキテクチャに基づいて既存の高速化技術を区別し、いくつかの観察と結論を提示します。

圧縮トレーニングの効率

圧縮は、常にコンピューティング高速化における研究の方向性でした。 1 つは、デジタル信号処理 (マルチメディアコンピューティング/画像処理) で重要な役割を果たします。

従来の圧縮には、量子化とスパースネスという 2 つの主なブランチが含まれており、この記事では、ディープトレーニングに対する既存の成果と貢献について詳しく説明します。

#初期化効率

既存の理論解析におけるモデルパラメータの初期化です。実際のシナリオでは非常に重要な要素です。

初期化状態が不良であると、トレーニング全体がクラッシュして初期のトレーニング段階で停滞する可能性もありますが、初期化状態が良好であれば、スムーズな損失範囲内で速度が向上します。全体の収束速度について, この記事では主にモデルの初期化の観点から評価とアルゴリズム設計について検討します。

モデル中心のカリキュラム学習

モデル中心の観点から見ると、コース学習は通常、小規模モデルまたは大規模モデルの部分パラメーターからトレーニングを開始し、その後徐々にアーキテクチャ全体に回復します。加速されたトレーニングプロセスでは、利点が大きく、明らかな悪影響はないため、この記事ではトレーニングプロセスにおけるこの方法の実装と効率をレビューしています。

最適化中心の効率的な学習

最適化手法の加速スキームは、機械学習の分野において常に重要な研究方向であり、最適化を達成しながら複雑さを軽減できます。セックスは常に学術界で追求されてきました。

近年、効率的で強力な最適化手法により、ディープニューラルネットワークのトレーニングにおいて重要なブレークスルーが実現しました。機械学習で広く使用されている基本的なオプティマイザーとして、SGD クラスオプティマイザーは、ディープニューラルネットワークのトレーニングに成功しています。モデルはさまざまな実用化を実現しますが、問題が複雑になるにつれて、SGD は極小値に陥る可能性が高く、安定して一般化できなくなります。

これらの問題を解決するために、Adam とその亜種は、更新に適応性を導入することが提案されました。このアプローチは、次のような大規模なネットワークトレーニングで良好な結果を達成しています。 BERT、Transformer、および ViT モデル。

設計されたオプティマイザー自体のパフォーマンスに加えて、高速トレーニング手法の組み合わせも重要です。

#研究者は、最適化の観点に基づいて、加速トレーニングに関する現在の考え方を次の側面に要約しました:

# #学習率学習率

学習率は非凸最適化の重要なハイパーパラメータであり、Adam のような現在のディープネットワークトレーニングでも重要です。バリアントはディープモデルで目覚ましい進歩を遂げることに成功しました。

# 高次の勾配に基づいて学習率を調整するいくつかの戦略も、トレーニングの加速を効果的に実現し、学習率の減衰の実装も効果的です。その過程でトレーニングのパフォーマンスに影響を与えます。

大きなバッチサイズ

大きなバッチサイズを使用すると、効果的にトレーニング効率を向上させることができます。エポックトレーニングを完了するために必要な反復回数を直接削減します。サンプルの合計数が固定されている場合、大きなバッチサイズを処理する方が、メモリ使用率が向上し、通信のボトルネックが軽減されるため、複数の小さなバッチサイズのサンプルを処理するよりもコストが低くなります。

効率的な目標

最も基本的な ERM は最小化問題に関するものです。多くのタスクを実用化する上での役割を果たします。

大規模ネットワークに関する研究の深化に伴い、一部の研究では最適化と一般化の間のギャップにさらに注目し、テストエラーを減らすための効果的な目標を提案し、さまざまな観点から一般化を説明し、一般化と一般化を説明しています。トレーニング中に共同で最適化することで、テストの精度を大幅に向上させることができます。

#加重平均平均加重

加重平均は、履歴状態の加重平均が考慮され、トレーニングプロセスを大幅に高速化できる一連の固定係数または学習可能な係数があるため、モデルの汎用性が高くなります。

予算化された効率的なトレーニング

最近、より少ないリソースで深層学習モデルをトレーニングし、可能な限り高い精度を達成することに重点を置いた取り組みがいくつか行われています。

このタイプの問題は、予算付きトレーニング、つまり最高のモデルパフォーマンスを達成するために与えられた予算 (測定可能なコストの制限) 内でトレーニングすることとして定義されます。

実際の状況に近づくためのハードウェアサポートを体系的に検討するために、研究者らは、予算トレーニングを、特定のデバイス上で限られた時間内でトレーニングすることと定義しました。たとえば、単一のローエンドの深層学習サーバーでのトレーニングです。いつか最高のパフォーマンスのモデルを手に入れるために。

# 予算トレーニングに関する研究により、モデルサイズの決定など、予算トレーニングのためのトレーニングレシピの作成方法が明らかになります。モデル構造の構成、学習率の配置、およびパフォーマンスに影響を与えるその他のいくつかの調整可能な要素、および利用可能な予算に適した効率的なトレーニング手法の組み合わせ。この記事では主に、予算トレーニングのいくつかの高度な手法をレビューします。

システム中心の効率的なトレーニング

システム中心の研究は、設計されたアルゴリズムの具体的な実装方法を提供し、真に高効率を達成する能力を研究することです。そしてトレーニングハードウェアの実践的な実行。

研究者は、マルチノードクラスター内の CPU や GPU デバイスなどの汎用コンピューティングデバイスの実装に焦点を当てており、ハードウェアの観点から設計アルゴリズムの潜在的な競合を解決することが中心となります。気がかりな。

この記事では主に、既存のフレームワークとサードパーティライブラリのハードウェア実装テクノロジをレビューします。これらのテクノロジは、データ、モデル、最適化の処理を効果的にサポートし、既存のオープンソースプラットフォームをいくつか紹介します。モデルの確立、トレーニング用のデータの効果的な使用、混合精度トレーニング、分散トレーニングのための強固なフレームワークを提供します。

# システム中心のデータ効率

# 効率的なデータ処理とデータ並列処理は 2 つの重要な懸念事項ですシステム実装において。

データ量の急速な増加に伴い、特に複数ノードでの大規模なトレーニングでは、非効率なデータ処理が徐々にトレーニング効率のボトルネックになってきています。並列化により、トレーニングでの時間の無駄を効果的に回避できます。

システム中心のモデル効率

モデルパラメータの数の急速な拡大に伴い、モデルの観点からシステム効率は重要なボトルネックの 1 つとなっており、大規模モデルのストレージとコンピューティング効率はハードウェア実装に大きな課題をもたらします。

この記事では、デプロイメントの効率的な I/O と、実際のトレーニングを高速化するためのモデル並列処理の合理化された実装を実現する方法を主にレビューします。

システム中心の最適化効率

最適化プロセスは、バックプロパゲーションと更新にも最も時間がかかります。 - トレーニングでは計算を消費するため、システム中心の最適化の実装がトレーニングの効率に直接影響します。

システム最適化の特徴を明確に解釈するために、この記事ではさまざまな計算段階の効率に焦点を当て、各プロセスの改善点をレビューします。

オープンソースフレームワーク

効率的なオープンソースフレームワークは、トレーニングを容易にします。アルゴリズム設計とハードウェアサポートの間の架け橋として、研究者らはさまざまなオープンソースフレームワークを調査し、各設計の長所と短所を分析しました。

結論

研究者らは、大規模な深層学習モデルを効率的にトレーニングするための一般的なトレーニング高速化手法をレビューします。、勾配更新式のすべてのコンポーネントを考慮し、深層学習の分野におけるトレーニングプロセス全体をカバーします。

この記事では、これらのテクノロジーを 5 つの主な方向性 (データ中心、モデル中心、最適化中心、予算トレーニング、システム中心) に要約する新しい分類法も提案しています。

最初の 4 つのパートでは主にアルゴリズム設計と方法論の観点から総合的な研究を行い、「システム中心の効率的なトレーニング」パートではパラダイムイノベーションの観点からまとめ、ハードウェアは実際の実装をサポートします。

この記事では、各セクションに対応する一般的に使用されている技術または最近開発された技術、各技術の利点とトレードオフをレビューおよび要約し、限界と将来の有望な研究の方向性について説明します。このレビューは包括的な技術レビューとガイダンスであり、効率的なトレーニングにおける現在の画期的な進歩とボトルネックも提案しています。

研究者らは、研究者が一般的なトレーニングを効率的に加速できるよう支援し、効率的なトレーニングの将来の開発に有意義で有望な示唆を提供したいと考えています。さらに、各セクションの最後には次のような記載があります。言及されたいくつかの潜在的な発展に加えて、より広範で有望な見解は次のとおりです:

1. 効率的なプロファイル検索

効率的なトレーニングにより、データ拡張の組み合わせ、モデル構造、オプティマイザー設計などの観点から、モデルの事前構築済みのカスタマイズ可能なプロファイル検索戦略を設計できます。関連する研究では、ある程度の成果が得られています。

新しいモデルアーキテクチャと圧縮モード、新しい事前トレーニングタスク、および「モデルエッジ」知識の使用も検討する価値があります。

2. アダプティブスケジューラ Adaptive Scheduler

最適化指向のスケジュールを使用するコース学習、学習率、バッチサイズ、モデルの複雑さによってパフォーマンスが向上する可能性があるため、予算を意識したスケジューラーは残りの予算に動的に適応し、手動設計のコストを削減できます。適応型スケジューラーを使用できます。並列処理と通信方法を検討します。同時に、複数の地域やデータセンターにまたがる異種ネットワークでの大規模な分散トレーニングなど、より一般的で実践的なシナリオも考慮しています。

以上がビッグモデルの育成は「エネルギー」に注目！ Tao Dacheng がチームを率いる: すべての「効率的なトレーニング」ソリューションは 1 つの記事でカバーされており、ハードウェアが唯一のボトルネックだという言い方はやめてください。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください