NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。-AI-php.cn

ホームページ

テクノロジー周辺機器

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

王林

Apr 12, 2023 pm 09:13 PM

gpuaiエヌビディア

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

膨大な数の演算回路が NVIDIA GPU を強化し、AI、ハイパフォーマンスコンピューティング、コンピューターグラフィックスのかつてない高速化を可能にします。したがって、GPU のパフォーマンスと効率を向上させるには、これらの演算回路の設計を改善することが重要です。 AI がこれらの回路の設計を学習したらどうなるでしょうか?最近の NVIDIA の論文「PrefixRL: 深層強化学習を使用した並列プレフィックス回路の最適化」では、研究者は、AI がこれらの回路をゼロから設計できるだけでなく、AI で設計された回路が最新の技術で設計された回路よりも優れていることを実証しました。最先端の電子設計自動化 (EDA) ツールにより、回路がより小さく、より高速になります。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

論文アドレス: https://arxiv.org/pdf/2205.07000.pdf

#最新の NVIDIA Hopper GPU アーキテクチャには、AI によって設計された回路サンプルが 13,000 近くあります。下の図 1: 左側の PrefixRL AI によって設計された 64b 加算器回路は、図 1 の右側の最先端の EDA ツールによって設計された回路より 25% 小型です。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。回路設計の概要

コンピュータチップ内の演算回路は、次のような論理ゲートのネットワークで構成されています。 NAND、NOR、XOR など）とワイヤ。理想的な回路は次の特性を備えている必要があります。

NVIDIA のこの調査では、研究者は回路面積と遅延に焦点を当てました。彼らは、消費電力が対象となる回路の領域と密接に関係していることを発見しました。回路面積と遅延は競合する特性であることが多いため、これらの特性を効果的にトレードオフする設計のパレートフロンティアを見つけることが望ましいです。つまり、研究者らは、遅延ごとに回路面積が最小化されることを望んでいます。

したがって、PrefixRL では、研究者は人気のあるクラスの算術回路、つまり並列プレフィックス回路に焦点を当てています。アクセラレータ、インクリメント、エンコーダなど、GPU 内のさまざまな重要な回路はプレフィックス回路であり、上位レベルでプレフィックスグラフとして指定できます。

そこで問題は、AI エージェントは優れたプレフィックスマップを設計できるかということです。すべての接頭辞グラフの状態空間は非常に大きい O(2^n^n) であり、総当り的な方法を使用して探索することはできません。以下の図 2 は、4b 回線インスタンスを使用した PrefixRL の反復を示しています。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

研究者らは、回路ジェネレーターを使用して、プレフィックス図をワイヤと論理ゲートを備えた回路に変換しました。次に、これらの生成された回路は、ゲートサイズ、複製、バッファ挿入などの物理合成最適化を使用する物理合成ツールを通じて最適化されます。

これらの物理合成の最適化により、最終的な回路プロパティ (遅延、面積、電力) は、元のプレフィックスグラフのプロパティ (レベルやノード数など) から直接変換されません。これが、AI エージェントがプレフィックスグラフの設計を学習しながら、プレフィックスグラフから生成された最終回路のプロパティを最適化する理由です。

研究者は、

算術回路設計を強化学習(RL)タスクとして扱い、エージェントは算術回路領域を最適化するように訓練されます。そして遅延特性。プレフィックス回線については、RL エージェントがプレフィックスグラフ内のノードを追加または削除し、次の手順を実行できる環境を設計しました。

#正規化されたプレフィックスグラフから回路を生成します;
物理合成ツールを使用して回路の物理合成最適化を実行します ;
#回路の面積と遅延特性を測定します。
次のアニメーションでは、RL エージェントはノードを追加または削除することによって、プレフィックスグラフを段階的に構築します。各ステップで、エージェントは回路面積と遅延が改善されるという恩恵を受けます。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

#元の画像はインタラクティブバージョンです。

完全畳み込み Q 学習エージェント

研究者らは、Q 学習 (Q ラーニング) アルゴリズムを使用して、エージェントの回路設計をトレーニングします。以下の図 3 に示すように、プレフィックスグラフをグリッド表現に分解します。グリッド内の各要素はプレフィックスノードに一意にマッピングされます。このグリッドは、Q ネットワークに使用される入力と出力を表します。入力グリッドの各要素は、ノードが存在するかどうかを表します。出力グリッドの各要素は、ノードの追加または削除の Q 値を表します。

Q 学習エージェントの入力と出力はグリッド表現であるため、研究者は完全な畳み込みニューラルネットワークアーキテクチャを使用しています。エリアと遅延の報酬はトレーニング中に個別に観察できるため、エージェントはエリアと遅延の属性の Q 値を個別に予測します。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

図 3: 4b プレフィックスグラフ表現 (左) と完全畳み込み Q 学習エージェントアーキテクチャ (右)。

分散トレーニング用の Raptor

PrefixRL では多くの計算が必要です。物理シミュレーションでは、各 GPU に 256 個の CPU が必要で、64b タスクのトレーニングには 32,000 以上の CPU が必要です。 GPU時間。今回、NVIDIA は、NVIDIA のハードウェアの利点を最大限に活用し、この種の産業レベルの強化学習を実行できる分散強化学習プラットフォームである Raptor を社内で開発しました (下図 4)。

Raptor には、ジョブスケジューリング、カスタムネットワーク、GPU 対応データ構造など、トレーニングモデルのスケーラビリティと速度を向上させる機能があります。 PrefixRL のコンテキストでは、Raptor は CPU、GPU、スポットインスタンスにわたるハイブリッド割り当てを可能にします。この強化学習アプリケーションのネットワークは多様であり、次の利点があります:

Raptor はモデルのピアツーピア転送のために NCCL 間を切り替えますパラメータは学習者から直接転送されますGPU から推論 GPU へ;
#Redis は、報酬や統計などの非同期で小規模なメッセージに使用されます;
JIT コンパイル済み RPC の場合、使用されますエクスペリエンスデータのアップロードなど、大量かつ低遅延のリクエストを処理します。

最後に、Raptor は、マルチスレッドサービスを備えたリプレイバッファーなどの GPU 対応のデータ構造を提供し、複数のワーカーからエクスペリエンスを受け取り、データを並列にバッチ処理して GPU にプリロードします。。
以下の図 4 は、PrefixRL フレームワークが同時トレーニングとデータ収集をサポートし、NCCL を利用して参加者 (以下の図のアクター) に最新のパラメーターを効率的に送信することを示しています。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

図 4: 研究者は、回路合成の遅延を克服するために、分離された並列トレーニングと報酬計算に Raptor を使用しています。

報酬計算

研究者は、トレードオフの重み w (範囲は [0,1]) を使用して、面積目標と遅延目標を組み合わせます。彼らは、パレートフロンティアを取得するためにさまざまな重みを使用してさまざまなエージェントをトレーニングし、それによってエリアのバランスをとり、トレードオフを遅らせます。
RL 環境での物理合成最適化により、エリアとレイテンシをトレードオフするさまざまなソリューションを生成できます。研究者は、特定のエージェントのトレーニングに使用されるのと同じトレードオフの重みを使用して物理合成ツールを駆動します。

報酬計算のループ内で物理合成最適化を実行すると、次の利点があります:

RL エージェントは、ターゲットテクノロジの最終回路特性を直接最適化する方法を学習します。ノードとライブラリ ;
RL エージェントには、物理合成プロセス中にターゲットアルゴリズム回路の周辺ロジックが含まれるため、ターゲットアルゴリズム回路とその周辺ロジックのパフォーマンスを共同で最適化します。

ただし、物理合成の実行には時間がかかり (64b 加算器の場合は約 35 秒)、RL のトレーニングと探索が大幅に遅くなる可能性があります。
研究者らは、エージェントがアクションを実行するために必要なのは回路合成や以前の報酬ではなく、現在のプレフィックスグラフの状態のみであるため、報酬の計算を状態の更新から切り離しています。 Raptor のおかげで、アクターエージェントは待機することなく環境内で実行できる一方で、長時間の報酬計算を CPU ワーカーのプールにオフロードして物理合成を並行して実行できます。

CPU ワーカーが報酬を返すと、変換をリプレイバッファーに埋め込むことができます。包括的な報酬は、状態が再び発生した場合の冗長な計算を避けるためにキャッシュされます。

結果と見通し

以下の図 5 は、PrefixRL と最先端の EDA ツールのパレート支配加算器回路を使用して設計された 64b 加算器回路の面積と遅延を示しています。

最高の PrefixRL 加算器は、同じレイテンシで EDA ツール加算器よりも 25% 少ない面積を達成します。物理合成の最適化後にパレート最適加算器回路にマッピングされたこれらのプレフィックスグラフは、不規則な構造を持っています。

NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。

図 5: PrefixRL によって設計された演算回路は、最新の技術によって設計された回路よりも小さい-art EDA ツールとより高速。

(左) 回路アーキテクチャ、(右) 対応する 64b 加算器回路特性図

ここまでご存知のとおり、これは深層強化学習エージェントを使用して算術回路を設計する最初の方法です。 NVIDIA は、AI を現実世界の回路設計の問題に適用し、アクションスペース、状態表現、RL エージェントモデルを構築し、複数の競合する目標に合わせて最適化し、報酬計算の遅さを克服するための青写真を構想しています。

以上がNVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIインデックス2025を読む：AIはあなたの友人、敵、または副操縦士ですか？Apr 11, 2025 pm 12:13 PM

スタンフォード大学ヒト指向の人工知能研究所によってリリースされた2025年の人工知能インデックスレポートは、進行中の人工知能革命の良い概要を提供します。 4つの単純な概念で解釈しましょう：認知（何が起こっているのかを理解する）、感謝（利益を見る）、受け入れ（顔の課題）、責任（責任を見つける）。認知：人工知能はどこにでもあり、急速に発展しています私たちは、人工知能がどれほど速く発展し、広がっているかを強く認識する必要があります。人工知能システムは絶えず改善されており、数学と複雑な思考テストで優れた結果を達成しており、わずか1年前にこれらのテストで惨めに失敗しました。 2023年以来、複雑なコーディングの問題や大学院レベルの科学的問題を解決することを想像してみてください

Meta Llama 3.2を始めましょう - 分析VidhyaApr 11, 2025 pm 12:04 PM

メタのラマ3.2：マルチモーダルとモバイルAIの前進メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。成功に基づいてo

AVバイト：Meta＆＃039; s llama 3.2、GoogleのGemini 1.5などApr 11, 2025 pm 12:01 PM

今週のAIの風景：進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

マシンと話すための人的費用：チャットボットは本当に気にすることができますか？Apr 11, 2025 pm 12:00 PM

つながりの慰めの幻想：私たちはAIとの関係において本当に繁栄していますか？この質問は、MIT Media Labの「AI（AHA）で人間を進める」シンポジウムの楽観的なトーンに挑戦しました。イベントではCondedgを紹介している間

PythonのScipy Libraryの理解Apr 11, 2025 am 11:57 AM

導入あなたが科学者またはエンジニアで複雑な問題に取り組んでいると想像してください - 微分方程式、最適化の課題、またはフーリエ分析。 Pythonの使いやすさとグラフィックスの機能は魅力的ですが、これらのタスクは強力なツールを必要とします

ラマ3.2を実行する3つの方法-Analytics VidhyaApr 11, 2025 am 11:56 AM

メタのラマ3.2：マルチモーダルAIパワーハウス Metaの最新のマルチモーダルモデルであるLlama 3.2は、AIの大幅な進歩を表しており、言語理解の向上、精度の向上、および優れたテキスト生成機能を誇っています。その能力t

Dagsterでデータ品質チェックを自動化しますApr 11, 2025 am 11:44 AM

データ品質保証：ダグスターと大きな期待でチェックを自動化するデータ駆動型のビジネスにとって、高いデータ品質を維持することが重要です。データの量とソースが増加するにつれて、手動の品質管理は非効率的でエラーが発生しやすくなります。

メインフレームはAI時代に役割を果たしていますか？Apr 11, 2025 am 11:42 AM

MainFrames：AI革命のUnsung Heroes サーバーは汎用アプリケーションで優れており、複数のクライアントの処理を行いますが、メインフレームは大量のミッションクリティカルなタスク用に構築されています。これらの強力なシステムは、頻繁にヘビルで見られます

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

メモ帳++7.3.1

使いやすく無料のコードエディター

SecLists

SecLists は、セキュリティテスターの究極の相棒です。これは、セキュリティ評価中に頻繁に使用されるさまざまな種類のリストを 1 か所にまとめたものです。 SecLists は、セキュリティテスターが必要とする可能性のあるすべてのリストを便利に提供することで、セキュリティテストをより効率的かつ生産的にするのに役立ちます。リストの種類には、ユーザー名、パスワード、URL、ファジングペイロード、機密データパターン、Web シェルなどが含まれます。テスターはこのリポジトリを新しいテストマシンにプルするだけで、必要なあらゆる種類のリストにアクセスできるようになります。

MinGW - Minimalist GNU for Windows

このプロジェクトは osdn.net/projects/mingw に移行中です。引き続きそこでフォローしていただけます。 MinGW: GNU Compiler Collection (GCC) のネイティブ Windows ポートであり、ネイティブ Windows アプリケーションを構築するための自由に配布可能なインポートライブラリとヘッダーファイルであり、C99 機能をサポートする MSVC ランタイムの拡張機能が含まれています。すべての MinGW ソフトウェアは 64 ビット Windows プラットフォームで実行できます。