ホームページ  >  記事  >  テクノロジー周辺機器  >  Ant のオープンソース分散トレーニング拡張ライブラリ AToch は、大規模モデル トレーニングのコンピューティング能力の 60% の有効利用率を達成

Ant のオープンソース分散トレーニング拡張ライブラリ AToch は、大規模モデル トレーニングのコンピューティング能力の 60% の有効利用率を達成

WBOY
WBOY転載
2024-01-14 19:57:121335ブラウズ

Ant Group は最近、オープン ソース ツールである ATorch と呼ばれる大規模モデル分散トレーニング アクセラレーション拡張ライブラリのリリースを発表しました。 ATorch の目標は、リソースの動的最適化と分散トレーニングの安定性の向上を通じて、ディープ ラーニングのインテリジェンスを向上させることです。大規模なモデルのトレーニングにおいて、AToch は 1,000 億モデルのキロカロリー レベルのトレーニングの計算能力利用率を 60% に高めることができることがわかりました。これは、スポーツ カーに強力なエンジンを追加するのと同等です。これは、深層学習の研究者や開発者にとって、大規模なモデルをより効率的にトレーニングおよび最適化するのに役立つ重要なツールになります。

Ant のオープンソース分散トレーニング拡張ライブラリ AToch は、大規模モデル トレーニングのコンピューティング能力の 60% の有効利用率を達成写真: ATorch は、大規模モデルのトレーニングをより効率的かつ再現可能にすることに取り組んでいます。

With を使用すると、大規模な生成モデルの爆発的な増加により、モデル トレーニング用のデータ セットとパラメーターのサイズが指数関数的に増加しました。この巨大企業のトレーニング ニーズに応え、モデルを迅速に反復するために、分散トレーニングがソリューションの 1 つになりました。この分野では、PyTorch や TensorFlow などの深層学習フレームワークがモデルの構築とトレーニングに広く採用されています。大規模なモデルのトレーニングにさらに適応するために、業界では多くの取り組みが行われており、その 1 つが Ant のオープンソース ATorch ツールキットです。 ATorch は、大規模モデルのトレーニングにより適した機能とツールを備えた PyTorch などの深層学習フレームワークを提供し、開発者や研究者がモデル トレーニング タスクをより効率的に完了できるように支援します。このツールキットのオープンソースは、大規模モデルのトレーニングの開発をさらに促進し、研究および応用分野により多くの機会と課題をもたらすでしょう。

ATorch は、明確な機能と包括的な設計を備えた階層型アーキテクチャ設計を採用しており、開発者に非常に合理化された開発エクスペリエンスと優れた安定性保証を提供できると理解されています。これには主に、統合分散最適化戦略構成インターフェイス、自動分散戦略検索、自動エラスティックフォールトトレランス、効率的な動的メモリ管理ライブラリ、および自社開発のオプティマイザ加速コンバージェンスなどのコア機能が含まれています。 PyTorch フレームワークの高性能拡張アクセラレーション ライブラリとして、ATorch はユーザー コードの侵入を最小限に抑え、数千億のパラメータを持つ大規模モデルのキロカード レベルのトレーニングに使いやすい高性能ソリューションを提供します。

最近、オープンソース モデルを対象とした大規模モデルのトレーニング最適化の実践において、ATorch は優れた結果を達成しました。たとえば、清華大学のオープンソース GLM-65b 大型モデルのキロカロリー事前トレーニング コンピューティング パワー利用率を 28.8% から 62% に向上させ、LLama2-70b 大型モデルのトレーニング前コンピューティング パワー利用率を向上させることに成功しました。 Meta が開発したマルチモーダル大規模モデル Stable Diffusion のトレーニング コンピューティング能力利用率は 28.8% から 62%、42% から 60% に増加し、英国の AI 企業 Stability AI が開発したマルチモーダル大規模モデル Stable Diffusion のトレーニング コンピューティング能力利用率は 21.8% から 58.7% に増加しました。また、ATorch はキロカロリートレーニングの安定性においても優れたパフォーマンスを発揮し、1 日の平均純粋トレーニング時間は 95% に増加し、ckpt の保存時間は 1 分以内に制御され、トレーニングの再開時間は最速でわずか 5 分と、業界をリードするレベルに達しました。

現在、ATorch は Ant Group のオープンソース製品 DLRover に統合されています。DLRover は、クラウド ネイティブ テクノロジに基づいて構築されたインテリジェントな分散ディープ ラーニング システムです。 ATorch の追加により、大規模モデル開発者は、面倒なエンジニアリングの詳細に対処する必要がなく、モデル アーキテクチャの設計にさらに集中できるようになり、トレーニングの効率とインテリジェンスが向上します。

以上がAnt のオープンソース分散トレーニング拡張ライブラリ AToch は、大規模モデル トレーニングのコンピューティング能力の 60% の有効利用率を達成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。