Meta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。-AI-php.cn

ホームページ

テクノロジー周辺機器

Meta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 am 09:21 AM

モデル電車

現段階では、ビジュアルトランスフォーマー (ViT) モデルは、画像分類、ターゲット検出、セグメンテーションなどのさまざまなコンピュータービジョンタスクで広く使用されており、視覚的表現と認識において SOTA の結果を達成できます。コンピュータービジョンモデルのパフォーマンスはパラメーターの数やトレーニング時間と正の相関があることが多いため、AI コミュニティはますます大規模な ViT モデルを実験してきました。

しかし、モデルがテラフロップスの規模を超え始めているため、この分野ではいくつかの大きなボトルネックが発生していることに注意する必要があります。単一モデルのトレーニングには数か月かかる場合があり、数千の GPU が必要となるため、アクセラレータの要件が増大し、その結果、多くの実践者を排除する大規模な ViT モデルが生成されます。

ViT モデルの使用範囲を拡大するために、メタ AI 研究者はより効率的なトレーニング方法を開発しました。アクセラレータを最適に利用するにはトレーニングを最適化することが非常に重要です。ただし、このプロセスには時間がかかり、かなりの専門知識が必要です。秩序ある実験をセットアップするには、研究者は無数の最適化の中から選択する必要があります。トレーニングセッション中に実行される何百万もの操作のいずれかが非効率によって妨げられる可能性があります。

Meta AI は、画像分類コードライブラリである PyCls の ViT 実装に一連の最適化を適用することで、 計算効率とストレージ効率を向上できることを発見しました。 PyCI を使用してトレーニングされた ViT モデルの場合、Meta AI のアプローチにより、トレーニング速度とアクセラレータあたりのスループット (TFLOPS) が向上します。

次の図は、最適化されたコードライブラリ PyCI を使用した V100 ベンチマークと比較したチップあたりのアクセラレータスループットの相対的な増加を示しています。一方、A100 の最適化アクセラレータスループットは V100 ベンチマークの 4.05 倍です。

Meta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。

動作原理

メタ AI はまず PyCI コードベースを分析し、トレーニング効率が低い潜在的なソースを特定します。、最終的にはデジタル形式の選択に焦点を当てます。デフォルトでは、ほとんどのアプリケーションは 32 ビット単精度浮動小数点形式を使用してニューラルネットワーク値を表します。 16 ビットの半精度形式 (FP16) に変換すると、モデルのメモリフットプリントと実行時間を削減できますが、多くの場合、精度も低下します。

研究者らは妥協の解決策、つまり混合精度を採用しました。これにより、システムは単精度形式で計算を実行してトレーニングを高速化し、メモリ使用量を削減すると同時に、結果を単精度で保存して精度を維持します。彼らは、ネットワークの一部を手動で半精度に変換するのではなく、数値形式を自動的に切り替える自動混合精度トレーニングのさまざまなモードを実験しました。より高度なモードの自動混合精度は、主に半精度演算とモデルの重みに依存します。研究者が使用するバランスの取れた設定により、精度を犠牲にすることなくトレーニングを大幅にスピードアップできます。

プロセスをより効率的にするために、研究者たちは、FairScale ライブラリの Fully Sharder Data Parallel (FSDP) トレーニングアルゴリズムを最大限に活用し、パラメーター、勾配、オプティマイザーの状態を比較しました。シャーディングされています。 FSDP アルゴリズムを通じて、研究者はより少ない GPU を使用して大規模なモデルを構築できます。さらに、MTA オプティマイザー、プールされた ViT 分類器、およびバッチ秒入力テンソルレイアウトを使用して、冗長な転置操作をスキップしました。

以下の図の X 軸は可能な最適化を示し、Y 軸は ViT でトレーニングした場合の分散データ並列 (DDP) ベンチマークと比較したアクセラレータスループットの相対的な増加を示しています。 -H/16。

Meta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。

研究者らは、パッチの合計サイズが 560 の場合、各アクセラレータチップでの 1 秒あたりの実行時間の観点から、アクセラレータのスループットが 1.51 倍増加することを達成しました。 . 浮動小数点演算の数によって測定されます。画像サイズを 224 ピクセルから 256 ピクセルに増やすことで、スループットを 1.86 倍に高めることができました。ただし、画像サイズの変更はハイパーパラメーターの変更を意味するため、モデルの精度に影響します。フル FP16 モードでトレーニングすると、相対スループットは 2.18 倍に増加します。精度が低下する場合もありましたが、実験では精度の低下は 10% 未満でした。

以下の図の Y 軸はエポック時間、つまり ImageNet-1K データセット全体における最後のトレーニングの期間です。ここでは、通常 224 ピクセルの画像サイズを使用する既存の構成の実際のトレーニング時間に焦点を当てます。

Meta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。

メタ AI 研究者は、最適化スキームを使用して、エポックタイム (ImageNet-1K データセット全体に対する 1 つのトレーニングセッションの継続時間) を 0.65 時間から 0.43 時間に短縮しました。

以下の図の X 軸は、特定の構成における A100 GPU アクセラレータチップの数を表し、Y 軸はチップあたりの絶対スループットを TFLOPS で表します。

Meta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。

この調査では、さまざまな GPU 構成の影響についても説明しています。いずれの場合も、システムは分散データ並列 (DDP) ベースラインレベルよりも高いスループットを達成しました。チップの数が増えると、デバイス間通信のオーバーヘッドによりスループットがわずかに低下することがわかります。ただし、64 個の GPU を使用しても、Meta のシステムは DDP ベンチマークより 1.83 倍高速です。

新しい研究の重要性

ViT トレーニングで達成可能なスループットを 2 倍にすることで、トレーニングクラスターのサイズを効果的に 2 倍にし、アクセラレータの使用率を直接改善できます。 AI モデルの二酸化炭素排出量を削減します。最近の大規模モデルの開発により、モデルが大型化してトレーニング時間が長くなる傾向にあるため、この最適化は研究分野で最先端のテクノロジーをさらに推進し、納期を短縮し、生産性を向上させるのに役立つと期待されています。

以上がMeta は、パラメータを積み上げたり、時間に依存したりすることなく、ViT トレーニングプロセスを加速し、スループットを 4 倍に向上させます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

Microsoft Work Trend Index 2025は、職場の容量の緊張を示していますApr 24, 2025 am 11:19 AM

AIの急速な統合により悪化した職場での急成長能力の危機は、増分調整を超えて戦略的な変化を要求します。これは、WTIの調査結果によって強調されています。従業員の68％がワークロードに苦労しており、BURにつながります

AIは理解できますか？中国の部屋の議論はノーと言っていますが、それは正しいですか？Apr 24, 2025 am 11:18 AM

ジョン・サールの中国の部屋の議論：AIの理解への挑戦 Searleの思考実験は、人工知能が真に言語を理解できるのか、それとも真の意識を持っているのかを直接疑問に思っています。チャインを無知な人を想像してください

中国の「スマート」AIアシスタントは、マイクロソフトのリコールのプライバシーの欠陥をエコーしますApr 24, 2025 am 11:17 AM

中国のハイテク大手は、西部のカウンターパートと比較して、AI開発の別のコースを図っています。技術的なベンチマークとAPI統合のみに焦点を当てるのではなく、「スクリーン認識」AIアシスタントを優先しています。

Dockerは、おなじみのコンテナワークフローをAIモデルとMCPツールにもたらしますApr 24, 2025 am 11:16 AM

MCP：AIシステムに外部ツールにアクセスできるようになりますモデルコンテキストプロトコル（MCP）により、AIアプリケーションは標準化されたインターフェイスを介して外部ツールとデータソースと対話できます。人類によって開発され、主要なAIプロバイダーによってサポートされているMCPは、言語モデルとエージェントが利用可能なツールを発見し、適切なパラメーターでそれらを呼び出すことができます。ただし、環境紛争、セキュリティの脆弱性、一貫性のないクロスプラットフォーム動作など、MCPサーバーの実装にはいくつかの課題があります。 Forbesの記事「人類のモデルコンテキストプロトコルは、AIエージェントの開発における大きなステップです」著者：Janakiram MSVDockerは、コンテナ化を通じてこれらの問題を解決します。 Docker Hubインフラストラクチャに基づいて構築されたドキュメント

6億ドルのスタートアップを構築するために6つのAIストリートスマート戦略を使用するApr 24, 2025 am 11:15 AM

最先端のテクノロジーと巧妙なビジネスの洞察力を活用して、コントロールを維持しながら非常に収益性の高いスケーラブルな企業を作成する先見の明のある起業家によって採用された6つの戦略。このガイドは、建設を目指している起業家向けのためのものです

Googleフォトの更新は、すべての写真の見事なウルトラHDRのロックを解除しますApr 24, 2025 am 11:14 AM

Google Photosの新しいウルトラHDRツール：画像強化のゲームチェンジャー Google Photosは、強力なウルトラHDR変換ツールを導入し、標準的な写真を活気のある高ダイナミックレンジ画像に変換しました。この強化は写真家に利益をもたらします

Descopeは、AIエージェント統合の認証フレームワークを構築しますApr 24, 2025 am 11:13 AM

技術アーキテクチャは、新たな認証の課題を解決しますエージェントアイデンティティハブは、AIエージェントの実装を開始した後にのみ多くの組織が発見した問題に取り組んでいます。

Google Cloud Next2025と現代の仕事の接続された未来Apr 24, 2025 am 11:12 AM

（注：Googleは私の会社であるMoor Insights＆Strategyのアドバイザリークライアントです。） AI：実験からエンタープライズ財団まで Google Cloud Next 2025は、実験機能からエンタープライズテクノロジーのコアコンポーネント、ストリームへのAIの進化を紹介しました

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、