ホームページ > 記事 > テクノロジー周辺機器 > NVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。
膨大な数の演算回路が NVIDIA GPU を強化し、AI、ハイパフォーマンス コンピューティング、コンピューター グラフィックスのかつてない高速化を可能にします。したがって、GPU のパフォーマンスと効率を向上させるには、これらの演算回路の設計を改善することが重要です。 AI がこれらの回路の設計を学習したらどうなるでしょうか?最近の NVIDIA の論文「PrefixRL: 深層強化学習を使用した並列プレフィックス回路の最適化」では、研究者は、AI がこれらの回路をゼロから設計できるだけでなく、AI で設計された回路が最新の技術で設計された回路よりも優れていることを実証しました。最先端の電子設計自動化 (EDA) ツールにより、回路がより小さく、より高速になります。
論文アドレス: https://arxiv.org/pdf/2205.07000.pdf
#最新の NVIDIA Hopper GPU アーキテクチャには、AI によって設計された回路サンプルが 13,000 近くあります。下の図 1: 左側の PrefixRL AI によって設計された 64b 加算器回路は、図 1 の右側の最先端の EDA ツールによって設計された回路より 25% 小型です。
回路設計の概要
コンピュータチップ内の演算回路は、次のような論理ゲートのネットワークで構成されています。 NAND、NOR、XOR など)とワイヤ。理想的な回路は次の特性を備えている必要があります。
したがって、PrefixRL では、研究者は人気のあるクラスの算術回路、つまり並列プレフィックス回路に焦点を当てています。アクセラレータ、インクリメント、エンコーダなど、GPU 内のさまざまな重要な回路はプレフィックス回路であり、上位レベルでプレフィックス グラフとして指定できます。
そこで問題は、AI エージェントは優れたプレフィックス マップを設計できるかということです。すべての接頭辞グラフの状態空間は非常に大きい O(2^n^n) であり、総当り的な方法を使用して探索することはできません。以下の図 2 は、4b 回線インスタンスを使用した PrefixRL の反復を示しています。
これらの物理合成の最適化により、最終的な回路プロパティ (遅延、面積、電力) は、元のプレフィックス グラフのプロパティ (レベルやノード数など) から直接変換されません。これが、AI エージェントがプレフィックス グラフの設計を学習しながら、プレフィックス グラフから生成された最終回路のプロパティを最適化する理由です。
研究者は、
算術回路設計を強化学習(RL)タスクとして扱い、エージェントは算術回路領域を最適化するように訓練されます。そして遅延特性。プレフィックス回線については、RL エージェントがプレフィックス グラフ内のノードを追加または削除し、次の手順を実行できる環境を設計しました。
#元の画像はインタラクティブ バージョンです。
研究者らは、Q 学習 (Q ラーニング) アルゴリズムを使用して、エージェントの回路設計をトレーニングします。以下の図 3 に示すように、プレフィックス グラフをグリッド表現に分解します。グリッド内の各要素はプレフィックス ノードに一意にマッピングされます。このグリッドは、Q ネットワークに使用される入力と出力を表します。入力グリッドの各要素は、ノードが存在するかどうかを表します。出力グリッドの各要素は、ノードの追加または削除の Q 値を表します。
Q 学習エージェントの入力と出力はグリッド表現であるため、研究者は完全な畳み込みニューラル ネットワーク アーキテクチャを使用しています。エリアと遅延の報酬はトレーニング中に個別に観察できるため、エージェントはエリアと遅延の属性の Q 値を個別に予測します。
図 3: 4b プレフィックス グラフ表現 (左) と完全畳み込み Q 学習エージェント アーキテクチャ (右)。
PrefixRL では多くの計算が必要です。物理シミュレーションでは、各 GPU に 256 個の CPU が必要で、64b タスクのトレーニングには 32,000 以上の CPU が必要です。 GPU時間。今回、NVIDIA は、NVIDIA のハードウェアの利点を最大限に活用し、この種の産業レベルの強化学習を実行できる分散強化学習プラットフォームである Raptor を社内で開発しました (下図 4)。
Raptor には、ジョブ スケジューリング、カスタム ネットワーク、GPU 対応データ構造など、トレーニング モデルのスケーラビリティと速度を向上させる機能があります。 PrefixRL のコンテキストでは、Raptor は CPU、GPU、スポット インスタンスにわたるハイブリッド割り当てを可能にします。この強化学習アプリケーションのネットワークは多様であり、次の利点があります:
最後に、Raptor は、マルチスレッド サービスを備えたリプレイ バッファーなどの GPU 対応のデータ構造を提供し、複数のワーカーからエクスペリエンスを受け取り、データを並列にバッチ処理して GPU にプリロードします。 。
以下の図 4 は、PrefixRL フレームワークが同時トレーニングとデータ収集をサポートし、NCCL を利用して参加者 (以下の図のアクター) に最新のパラメーターを効率的に送信することを示しています。
図 4: 研究者は、回路合成の遅延を克服するために、分離された並列トレーニングと報酬計算に Raptor を使用しています。
報酬計算研究者は、トレードオフの重み w (範囲は [0,1]) を使用して、面積目標と遅延目標を組み合わせます。彼らは、パレート フロンティアを取得するためにさまざまな重みを使用してさまざまなエージェントをトレーニングし、それによってエリアのバランスをとり、トレードオフを遅らせます。
RL 環境での物理合成最適化により、エリアとレイテンシをトレードオフするさまざまなソリューションを生成できます。研究者は、特定のエージェントのトレーニングに使用されるのと同じトレードオフの重みを使用して物理合成ツールを駆動します。
報酬計算のループ内で物理合成最適化を実行すると、次の利点があります:
ただし、物理合成の実行には時間がかかり (64b 加算器の場合は約 35 秒)、RL のトレーニングと探索が大幅に遅くなる可能性があります。
研究者らは、エージェントがアクションを実行するために必要なのは回路合成や以前の報酬ではなく、現在のプレフィックス グラフの状態のみであるため、報酬の計算を状態の更新から切り離しています。 Raptor のおかげで、アクター エージェントは待機することなく環境内で実行できる一方で、長時間の報酬計算を CPU ワーカーのプールにオフロードして物理合成を並行して実行できます。
CPU ワーカーが報酬を返すと、変換をリプレイ バッファーに埋め込むことができます。包括的な報酬は、状態が再び発生した場合の冗長な計算を避けるためにキャッシュされます。
以下の図 5 は、PrefixRL と最先端の EDA ツールのパレート支配加算器回路を使用して設計された 64b 加算器回路の面積と遅延を示しています。
最高の PrefixRL 加算器は、同じレイテンシで EDA ツール加算器よりも 25% 少ない面積を達成します。物理合成の最適化後にパレート最適加算器回路にマッピングされたこれらのプレフィックス グラフは、不規則な構造を持っています。
図 5: PrefixRL によって設計された演算回路は、最新の技術によって設計された回路よりも小さい-art EDA ツールとより高速。
(左) 回路アーキテクチャ、(右) 対応する 64b 加算器回路特性図
ここまでご存知のとおり、これは深層強化学習エージェントを使用して算術回路を設計する最初の方法です。 NVIDIA は、AI を現実世界の回路設計の問題に適用し、アクション スペース、状態表現、RL エージェント モデルを構築し、複数の競合する目標に合わせて最適化し、報酬計算の遅さを克服するための青写真を構想しています。
以上がNVIDIA は AI を使用して GPU 演算回路を設計し、最先端の EDA と比較して面積を 25% 削減し、高速化と効率化を実現しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。