ホームページ  >  記事  >  テクノロジー周辺機器  >  人工知能がハードウェアの開発をどのように改善できるか

人工知能がハードウェアの開発をどのように改善できるか

王林
王林転載
2023-04-13 08:13:021788ブラウズ

人工知能がハードウェアの開発をどのように改善できるか

コンピュータ ハードウェアは長年にわたって市場が活発ではありませんでした。主流の x86 マイクロプロセッサ アーキテクチャは、小型化によって達成できるパフォーマンス向上の限界に達しているため、メーカーは主に、より多くのコアをチップに詰め込むことに重点を置いています。

機械学習とディープラーニングの急速な発展にとって、GPU は救世主です。もともとグラフィック処理用に設計された GPU は、数千の小型コアを搭載できるため、AI トレーニングに必要な並列処理機能に最適です。

人工知能の本質は並列処理の恩恵を受けることであり、約 10 年前、画面上にピクセルを表示するように設計された GPU が並列処理であるため、これに最適であることが発見されました。多くのコアを搭載できるエンジン。

これは Nvidia にとって朗報です。同社の時価総額は、2015 年の 180 億ドル未満から、昨年市場が縮小する前には 7,350 億ドルまで急増しました。最近まで、同社は事実上市場全体を独占していました。しかし、多くの競合他社がこの状況を変えようとしています。

人工知能のワークロードに関しては、これまで主に Nvidia の GPU が使用されてきましたが、ユーザーはそれを次のレベルに引き上げることができるテクノロジーを探しています。ハイ パフォーマンス コンピューティングと AI のワークロードが融合し続ける中、私たちはより多様なアクセラレーターが登場するでしょう。

新しいハードウェアの開発の加速

大手チップ メーカーは立ち止まっていません。 3年前、インテルはイスラエルのチップメーカー、ハバナ・ラブズを買収し、同社を人工知能開発の取り組みの中心とした。

ハバナが昨春発売した Gaudi2 トレーニング最適化プロセッサと Greco 推論プロセッサは、Nvidia の主力プロセッサ A100 の少なくとも 2 倍高速と言われています。

今年 3 月、Nvidia は、800 億個のトランジスタを搭載し、同社の高速 NVLink インターコネクトをサポートする H100 アクセラレータ GPU を発売しました。自然言語処理で使用される Transformer ベースのモデルの実行を前世代と比較して 6 倍高速化できる専用エンジンを備えています。 MLPerf ベンチマークを使用した最近のテストでは、ほとんどの深層学習テストで H100 が Gaudi2 を上回るパフォーマンスを示しています。 Nvidia はソフトウェア スタックでも優位性を持っていると考えられています。

多くのユーザーは、一元化されたソフトウェアのエコシステムにアクセスできるため、GPU を選択します。NVIDIA がこれほど成功している理由は、エコシステム戦略を確立しているからです。

ハイパースケール クラウド コンピューティング企業は、チップメーカーよりも先にこの分野に参入しています。 Google LLC の Tensor プロセッシング ユニットは、2016 年に発売された特定用途向け集積回路で、現在は第 4 世代です。アマゾン ウェブ サービスは 2018 年に機械学習用の推論処理アクセラレータを発表し、GPU アクセラレーション インスタンスの 2 倍以上のパフォーマンスを提供すると主張しました。

先月、同社は、Trainium チップをベースにしたクラウド インスタンスの一般提供を発表し、深層学習モデルのトレーニング シナリオでは、同等のパフォーマンスで、コスト比は GPU の EC2 に基づいていると述べました。は 50% 低くなります。両社の取り組みは主にクラウドサービスを通じた配信に焦点を当てている。

確立された市場リーダーが漸進的な改善に焦点を当てている一方で、より興味深いイノベーションの多くが AI 固有のハードウェアを構築する新興企業の間で起こっています。データによると、昨年チップ新興企業に投資された18億ドルの大部分はベンチャーキャピタリストに集まっており、これは2017年の2倍以上となっている。

彼らは巨額の利益をもたらす可能性のある市場を追いかけており、世界の人工知能チップ市場は、2020 年の 80 億米ドルから 2030 年までに 1,950 億米ドル近くに成長すると予想されています。

より小型、高速、より安価

x86 CPU の置き換えを希望するスタートアップ企業はほとんどありませんが、それはそうするための影響力が比較的小さいためです。チップはもはやボトルネックではなく、異なるチップ間の通信が大きなボトルネックとなっています。

CPU は、ファイルの管理やタスクの割り当てなどの低レベルの操作を実行しますが、純粋に CPU 固有のアプローチは拡張機能には適していません。CPU は、ファイルを開くことからすべてを行うように設計されています。メモリキャッシュの管理まで、アクティビティは普遍的でなければなりません。これは、AI モデルのトレーニングに必要な超並列行列算術演算にはあまり適していないことを意味します。

市場のほとんどの活動は、コプロセッサ アクセラレータ、特定用途向け集積回路、そして程度は低いものの、特定の用途に合わせて微調整できるフィールド プログラマブル ゲート アレイを中心に展開しています。

Google は、ソフトウェアとして実行するのではなく、プロセッサにハードコーディングすることでアルゴリズムをターゲットにするために、CPU と連携して動作するコプロセッサを開発するという Google の取り組みに誰もが注目しています。 AIのワークロード。

加速方程式

加速方程式は、自動運転車やビデオ監視などのエッジ コンピューティング シナリオ向けの、いわゆるグラフィック ストリーム プロセッサを開発するために使用されます。完全にプログラム可能なチップセットは、CPU の機能の多くを引き受けますが、タスク レベルの並列処理とストリーミング実行処理に最適化されており、消費電力はわずか 7 ワットです。

このアーキテクチャはグラフ データ構造に基づいており、オブジェクト間の関係は接続されたノードとエッジとして表されます。各機械学習フレームワークはグラフの概念を使用し、チップの設計全体にわたって同じセマンティクスを維持します。 CMM を含むカスタム ノードを含むグラフ全体を実行できます。これらのグラフでは、並列処理を高速化できます。

そのグラフィックベースのアーキテクチャは、GPU と CPU の容量制限の一部を解決し、さまざまな種類の AI タスクにより柔軟に適応できます。また、開発者はより多くの処理をエッジに移動して、推論を向上させることもできます。企業が処理の 80% を前処理できれば、時間とコストを大幅に節約できます。

これらのアプリケーションは、インテリジェンスをデータに近づけ、迅速な意思決定を可能にします。ほとんどの目標は、より計算量の多いトレーニング タスクではなく、AI モデルのフィールド展開である推論です。

ある企業は、インメモリ コンピューティングを使用して遅延と外部ストレージ デバイスの必要性を削減するチップを開発しています。その人工知能プラットフォームは、高い精度を維持しながら柔軟性と複数のニューラル ネットワークを実行する機能を提供します。

そのデータ処理ユニット シリーズは、数十のタスクを並行して実行できるスケーラブルな 80 コア プロセッサを備えた大規模な並列プロセッサ アレイです。主要な革新は、各処理要素内のテンソル コプロセッサの緊密な統合と、メモリ帯域幅のボトルネックを回避するための要素間の直接テンソル データ交換のサポートです。これにより、前処理と後処理が同じ処理要素で実行されるため、効率的な AI アプリケーションの高速化が可能になります。

一部の企業は、サムネイルサイズのチップセットを使用した深層学習モデルの推論に重点を置いており、同社によれば、消費電力を 3 ワットまで削減しながら 1 秒あたり 26 兆回の演算を実行できると主張しています。これは、深層学習モデルをトレーニングするために使用される各ネットワーク層を必要なコンピューティング要素に分解し、それらを深層学習専用に構築されたチップ上に統合することによって部分的に実現されます。

オンボード メモリの使用により、オーバーヘッドがさらに削減されます。ネットワーク全体がチップ内にあり、外部メモリがないため、チップを小型化でき、消費電力も少なくなります。このチップは、ほぼリアルタイムの高解像度画像上で深層学習モデルを実行でき、単一のデバイスで 4 車線で自動ナンバー プレート認識を同時に実行できるようになります。

ハードウェアの現在の開発

一部のスタートアップは、AI モデルのトレーニングとそれが実行するプラットフォーム全体を再定義することを目的として、よりムーンショット的なアプローチを採用しています。の上。

たとえば、機械学習用に最適化された AI プロセッサは、約 9,000 の同時スレッドと 900 メガバイトのプロセッサ内メモリにより、1 秒あたり最大 350 万の処理オペレーションを管理できます。この統合コンピューティング システムは Bow-2000IPU マシンと呼ばれ、1 秒あたり 1.4 ペタフロップスの演算能力があると言われています。

他との違いは、3 次元積層チップ設計であり、これにより、単一チップに約 1,500 個の並列処理コアをパッケージ化できます。これらのビジネスはすべて、まったく異なるビジネスを実行することができます。これは、大きなデータ ブロックに対して同じ操作を実行することを好む、広く使用されている GPU アーキテクチャとは異なります。

別の例として、一部の企業は相互接続、つまり集積回路内の接続コンポーネント間の配線の問題を解決しています。プロセッサが理論上の最大速度に達するにつれて、特に複数のプロセッサが同時にメモリにアクセスする場合、ビットを移動するパスがますますボトルネックになりますが、今日のチップではインターコネクトのボトルネックではなくなりました。

このチップは人工知能プラットフォームにナノフォトニック導波路を使用しており、低エネルギーパッケージで高速性と広帯域幅を組み合わせているという。これは本質的に、他の複数のプロセッサやアクセラレータを接続できる光通信層です。

AI の結果の品質は、非常に大規模で複雑なモデルを同時にサポートしながら、非常に高いスループットの応答を達成できる能力によってもたらされます。この両方は達成可能です。これは、人工知能のほとんどのアプリケーションを含め、線形代数を使用して実行できるすべてのことに当てはまります。

ハードウェアとソフトウェアの統合プラットフォームに対する期待は非常に高いです。企業は、データセンターからエッジまでどこでも人工知能やその他のデータ集約型アプリケーションを実行できる研究開発プラットフォームなど、この点を活用しています。

ハードウェア プラットフォームは、機械学習と深層学習用に設計されたカスタム 7nm チップを使用します。再構成可能なデータフロー アーキテクチャは AI に最適化されたソフトウェア スタックを実行し、ハードウェア アーキテクチャはメモリ アクセスを最小限に抑えるように設計されているため、相互接続のボトルネックが軽減されます。

プロセッサは、AI またはハイパフォーマンス コンピューティング HPC ワークロードに適応するように再構成できます。プロセッサは、より高いパフォーマンス レベルで大規模な行列演算を処理できるように設計されており、ワークロードが変化するクライアントにとってはプラスです。

CPU、GPU、さらには FPGA はトランザクション システムや ERP などの決定論的ソフトウェアに適していますが、機械学習アルゴリズムは確率的であるため、結果は事前にはわかりません。まったく異なるハードウェア インフラストラクチャです。

プラットフォームは、1TB の高速ダブル データ レート同期メモリをプロセッサに接続することで相互接続の問題を最小限に抑え、基本的に 20 倍高速なオンチップ メモリでマスクします。DDR コントローラのレイテンシは、そのため、これはユーザーにとって透過的であり、タイリングやダウンサンプリングを行わずに、より多くのパラメーター数の言語モデルと最高解像度の画像をトレーニングできるようになります。

タイリングは、画像を小さなチャンクに分割し、各チャンクを分析してからそれらを再結合することにより、計算能力の必要性を軽減する画像分析に使用される手法です。ダウンサンプリングは、トレーニング データのランダムなサブセットに基づいてモデルをトレーニングし、時間とコンピューティング リソースを節約します。その結果、GPU ベースのシステムよりも高速なだけでなく、より大きな問題を解決できるシステムが実現しました。

要約

多くの企業が同じ問題の解決策を模索しているため、淘汰は避けられませんが、この淘汰がすぐに起こるとは誰も予想していません。 GPU は長期間にわたって存在し、おそらく、極端なパフォーマンスを必要としない AI トレーニングおよび推論プロジェクトにとって最もコスト効率の高いソリューションであり続けるでしょう。

それでも、市場のハイエンドモデルが大型化、複雑化するにつれて、機能的に特化したアーキテクチャの必要性が高まっています。今から 3 ~ 5 年後には、GPU と AI アクセラレータが急増することになるでしょう。これが、この 10 年の終わり以降の需要に合わせて拡張できる唯一の方法です。

大手チップメーカーは、得意なことを継続し、既存のテクノロジーを徐々に構築することが期待されています。多くの企業もインテルに倣い、人工知能に焦点を当てたスタートアップ企業を買収するだろう。ハイパフォーマンス コンピューティング コミュニティは、大規模シミュレーションや気候モデリングなどの古典的な問題の解決に役立つ人工知能の可能性にも注目しています。

ハイパフォーマンス コンピューティング エコシステムは、常に時代の先を行くために吸収できる新しいテクノロジーを探しており、人工知能が何を実現できるかを模索しています。舞台裏には量子コンピューティングが潜んでいます。量子コンピューティングは、まだ実用的というよりは理論的な技術ですが、コンピューティングに革命を起こす可能性を秘めています。

どの新しいアーキテクチャが注目を集めるかに関係なく、人工知能の急増により、ソフトウェアの新たなフロンティアを切り開くハードウェア革新の可能性への関心が再燃していることは間違いありません。

以上が人工知能がハードウェアの開発をどのように改善できるかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。