ホームページ > 記事 > テクノロジー周辺機器 > 220億個のトランジスタ、IBM機械学習プロセッサNorthPole、エネルギー効率が25倍向上

220億個のトランジスタ、IBM機械学習プロセッサNorthPole、エネルギー効率が25倍向上

PHPz転載: 2023-10-23 15:13:011004ブラウズ

IBM は再び挑戦します。

#AI システムの急速な発展に伴い、必要なエネルギーも増加しています。新しいシステムのトレーニングには大規模なデータセットとプロセッサ時間が必要なため、非常にエネルギーを消費します。場合によっては、よく訓練されたシステムを実行することで、スマートフォンがその仕事を簡単に実行できることがあります。ただし、実行回数が多すぎると消費電力も増加します。

幸いなことに、後者のエネルギー消費を削減する方法はたくさんあります。 IBM とインテルは、実際のニューロンの動作を模倣するように設計されたプロセッサーを実験してきました。 IBM は、RAM への繰り返しアクセスを避けるために、相変化メモリ内でニューラルネットワーク計算を実行するテストも行いました。

IBM は別のアプローチを導入しました。同社の新しい NorthPole プロセッサは、上記のアプローチからのアイデアのいくつかを統合し、非常に合理化された計算実行方法と組み合わせて、推論ベースのニューラルネットワークを効率的に実行できるエネルギー効率の高いチップを作成します。このチップは、画像分類や音声転写などの分野で GPU よりも 35 倍効率的です。

220億個のトランジスタ、IBM機械学習プロセッサNorthPole、エネルギー効率が25倍向上

# 公式ブログ: https://research.ibm.com/blog/northpole-ibm-ai-chip

##NorthPole の違い

#NorthPole は従来の AI プロセッサとは異なります

最初何よりも、NorthPole はニューラルネットワークのトレーニングのニーズには何も対応せず、純粋に実行のために設計されています。

第二に、これは汎用 AI プロセッサではなく、推論に重点を置いたニューラルネットワーク用に特別に設計されています。したがって、これを推論に使用したり、画像やオーディオクリップの内容を調べたりしたい場合は、それが正しいです。しかし、大規模な言語モデルを実行する必要がある場合、このチップはあまり役に立たないようです。

最後に、NorthPole はニューロモーフィックコンピューティングチップからいくつかのアイデアを借用していますが、その処理ユニットはシミュレーションではなく計算を実行するため、ニューロモーフィックハードウェアではありません。実際のニューロンによって使用されるスパイク通信です。

NorthPole は、以前の TrueNorth と同様に、計算セルの大規模な配列 (16×16) で構成されており、各セルにはローカルメモリとコード実行機能が含まれています。したがって、ニューラルネットワーク内のさまざまな接続のすべての重みを、必要な場所に正確に保存できます。

もう 1 つの特徴は、少なくとも 4 つの異なるネットワークを備えた広範なオンチップネットワークです。これらのネットワークの一部は、完了した計算に関する情報を、それを必要とする次のコンピューティングユニットに伝達します。他のネットワークは、コンピューティングユニットのアレイ全体を再構成するために使用され、前の層の計算中にニューラルネットワークの 1 つの層を実行するために必要なニューラルの重みとコードを提供します。最後に、隣接するコンピューティングユニット間の通信が最適化されます。これは、画像内のオブジェクトのエッジを見つける場合などに便利です。画像の入力時に隣接するピクセルが隣接するコンピューティングユニットに割り当てられる場合、それらのコンピューティングユニットが連携して、隣接するピクセルにまたがる特徴をより簡単に識別できます。

さらに、NorthPole のコンピューティングリソースは異常です。各ユニットは、2 ビットから 8 ビットの範囲の低精度の計算を実行するように最適化されています。これらの実行ユニットを確実に使用するために、変数値に基づいて条件分岐を実行することはできません。つまり、ユーザーコードに if ステートメントを含めることはできません。この単純な実行により、コンピューティングユニットごとに大規模な並列実行が可能になります。 2 ビット精度で、各ユニットは 8,000 を超える計算を並行して実行できます。

補完ソフトウェア

これらのユニークな設計のため、NorthPole チームは開発する必要がありました。独自のトレーニングソフトウェアを使用して、各レイヤーが正常に動作するために必要な最小レベルの精度を計算します。チップ上でニューラルネットワークを実行することも、比較的珍しいプロセスです。

ニューラルネットワークの重みと接続がオンチップバッファーに配置されると、実行には、外部コントローラーが実行したいデータをアップロードして開始を指示するだけで済みます。走る。他のすべては CPU なしで実行されるため、システムレベルの電力消費が制限されます。

NorthPole テストチップは 12nm プロセスで製造されていますが、これは最先端の技術からはかなり遅れています。それでも、彼らは 220 億個のトランジスタに 256 個のコンピューティングユニットを搭載し、それぞれに 768 KB のメモリを搭載することに成功しました。このシステムを、同様のプロセスで構築された Nvidia の V100 Tensor Core GPU と比較すると、NorthPole は同じ消費電力で 25 倍の計算能力を備えています。

同じ条件下では、NorthPole は最先端の GPU よりも約 5 倍優れています。このシステムのテストでは、広く使用されているさまざまなニューラルネットワークタスクも効率的に実行できることが示されています。

以上が220億個のトランジスタ、IBM機械学習プロセッサNorthPole、エネルギー効率が25倍向上の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

if https

声明：

この記事はjiqizhixin.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：コンテストを利用して学習とテスト結果を促進し、モノのインターネット業界が高品質の開発を達成できるように支援します。次の記事：コンテストを利用して学習とテスト結果を促進し、モノのインターネット業界が高品質の開発を達成できるように支援します。

続きを見る