ホームページ  >  記事  >  テクノロジー周辺機器  >  Ant Group NextEvo が完全にオープンソースの AI インフラ技術を公開し、「自動運転」のための大規模モデルのトレーニングを可能にします

Ant Group NextEvo が完全にオープンソースの AI インフラ技術を公開し、「自動運転」のための大規模モデルのトレーニングを可能にします

王林
王林転載
2024-02-02 08:39:021090ブラウズ

最近、Ant Group の AI イノベーション研究開発部門である NextEvo は、大規模なモデルのトレーニングの効率を大幅に向上できる包括的なオープンソース AI インフラ テクノロジーを発表しました。データによると、この技術によりトレーニング時間の有効割合が 95% 以上に増加し、トレーニング プロセスの自動化が実現できます。この画期的な進歩により、AI 研究開発の効率が大幅に促進されました。

蚂蚁集团NextEvo全面开源AI Infra技术,可实现大模型训练“自动驾驶”

写真: Ant Group の自動分散ディープ ラーニング システム DLRover が完全にオープン ソースになりました

DLRover は、大規模なユーザー向けに設計されたシステムです。スケール 分散トレーニング用に設計された技術フレームワーク。今日の多くの企業では、トレーニング ジョブが複雑で多様なハイブリッド展開クラスターで実行されることがよくあります。どんなに複雑な環境であっても、DLRover は悪路を運転するのと同じように簡単に処理できます。

2023 年の大型モデル テクノロジーの急速な発展により、エンジニアリングの実践が爆発的に成長しました。データを効率的に管理し、トレーニングと推論の効率を最適化し、既存のコンピューティング能力を最大限に活用する方法が重要な問題となっています。

GPT-3 のようなパラメーター レベル 1,000 億の大規模モデルを完成させるには、1 枚のカードで 1 回トレーニングするのに 32 年かかります。したがって、トレーニング プロセス中にコンピューティング能力を最大限に活用することが非常に重要です。この目標を達成するには、2 つのアプローチを取ることができます。まず、購入した GPU のパフォーマンスをさらに向上させて、その可能性を最大限に発揮できます。第二に、これまで利用できなかった CPU やメモリなどのコンピューティング リソースを利用できるようになります。これを達成するには、異種コンピューティング プラットフォームを通じてこの問題を解決できます。

DLRover は最近、モデルのトレーニング中のチェックポイント管理に使用される Flash Checkpoint (FCP) ソリューションを統合しました。従来のチェックポイント管理方法には、長時間の消費、高頻度のチェックポイントによる利用可能なトレーニング時間の減少、低頻度のチェックポイントの回復時の過剰な損失などの問題があります。新しいソリューション FCP を適用することで、1,000 億パラメータ モデルのトレーニング後、チェックポイントによる無駄なトレーニング時間が約 5 分の 1 に削減され、持続時間が約 70 分の 1 に短縮されます。この改善により、効果的なトレーニング時間が 90% から 95% に増加しました。これは、DLRover のモデルトレーニング効率が大幅に向上したことを意味します。

また、3 つの新しいオプティマイザー テクノロジーも統合しました。オプティマイザーは機械学習の中核コンポーネントであり、損失関数を最小限に抑えるためにニューラル ネットワーク パラメーターを更新するために使用されます。その中で、Ant の AGD (隣接ステップの勾配差による自動切り替えオプティマイザー) オプティマイザーは、大規模モデルの事前トレーニング タスクにおいて、従来の AdamW テクノロジーよりも 1.5​​ 倍高速です。 AGD はアリ内の複数のシナリオで使用され、顕著な結果を達成しており、関連する論文は NeurIPS '23 に掲載されています。

蚂蚁集团NextEvo全面开源AI Infra技术,可实现大模型训练“自动驾驶”

図: 大規模モデルの事前トレーニング タスクでは、AGD は AdamW と比較して 1.5 倍高速化できます。

自動化された分散深度として学習システム、DLRover の「自動運転」機能モジュールには、PyTorch 分散トレーニング拡張ライブラリである Atorch も含まれており、数千億のパラメータ モデルとキロカロリーの規模で、トレーニングの計算能力利用率は 60% に達し、開発者を支援します。ハードウェアのコンピューティング能力を圧迫します。

DLRover は、「ML for System」の概念を使用して分散トレーニングのインテリジェンスを強化し、開発者がリソース割り当ての制約を完全に取り除き、モデルのトレーニング自体に集中できるようにするシステムを使用することを目指しています。リソース構成を入力しなくても、DLRover は各トレーニング ジョブに最適なリソース構成を提供できます。

Ant Group が人工知能分野の技術への投資を継続していることがわかりましたが、最近 Ant Group は社内に AI イノベーション研究開発部門 NextEvo を設立し、すべてのコア技術の研究開発を担当しています。 Bailing モデルのすべてを含む Ant AI 研究開発作業には、AI アルゴリズム、AI エンジニアリング、NLP、AIGC などのコア技術のほか、マルチモーダル大型モデルやデジタル ヒューマンのレイアウト分野での技術研究開発と製品イノベーションが含まれます。 。

同時に、アント グループはオープンソースのペースを加速し、関連する国内技術のギャップを埋め、人工知能産業の急速な発展を促進しました。

DLRover オープンソース アドレス: https://www.php.cn/link/cf372cbe6eae54c6a6dfb3ebbcdc3404

以上がAnt Group NextEvo が完全にオープンソースの AI インフラ技術を公開し、「自動運転」のための大規模モデルのトレーニングを可能にしますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。