人工知能がハードウェアの開発をどのように改善できるか-AI-php.cn

ホームページ

テクノロジー周辺機器

人工知能がハードウェアの開発をどのように改善できるか

王林

Apr 13, 2023 am 08:13 AM

AIai

人工知能がハードウェアの開発をどのように改善できるか

コンピュータハードウェアは長年にわたって市場が活発ではありませんでした。主流の x86 マイクロプロセッサアーキテクチャは、小型化によって達成できるパフォーマンス向上の限界に達しているため、メーカーは主に、より多くのコアをチップに詰め込むことに重点を置いています。

機械学習とディープラーニングの急速な発展にとって、GPU は救世主です。もともとグラフィック処理用に設計された GPU は、数千の小型コアを搭載できるため、AI トレーニングに必要な並列処理機能に最適です。

人工知能の本質は並列処理の恩恵を受けることであり、約 10 年前、画面上にピクセルを表示するように設計された GPU が並列処理であるため、これに最適であることが発見されました。多くのコアを搭載できるエンジン。

これは Nvidia にとって朗報です。同社の時価総額は、2015 年の 180 億ドル未満から、昨年市場が縮小する前には 7,350 億ドルまで急増しました。最近まで、同社は事実上市場全体を独占していました。しかし、多くの競合他社がこの状況を変えようとしています。

人工知能のワークロードに関しては、これまで主に Nvidia の GPU が使用されてきましたが、ユーザーはそれを次のレベルに引き上げることができるテクノロジーを探しています。ハイパフォーマンスコンピューティングと AI のワークロードが融合し続ける中、私たちはより多様なアクセラレーターが登場するでしょう。

新しいハードウェアの開発の加速

大手チップメーカーは立ち止まっていません。 3年前、インテルはイスラエルのチップメーカー、ハバナ・ラブズを買収し、同社を人工知能開発の取り組みの中心とした。

ハバナが昨春発売した Gaudi2 トレーニング最適化プロセッサと Greco 推論プロセッサは、Nvidia の主力プロセッサ A100 の少なくとも 2 倍高速と言われています。

今年 3 月、Nvidia は、800 億個のトランジスタを搭載し、同社の高速 NVLink インターコネクトをサポートする H100 アクセラレータ GPU を発売しました。自然言語処理で使用される Transformer ベースのモデルの実行を前世代と比較して 6 倍高速化できる専用エンジンを備えています。 MLPerf ベンチマークを使用した最近のテストでは、ほとんどの深層学習テストで H100 が Gaudi2 を上回るパフォーマンスを示しています。 Nvidia はソフトウェアスタックでも優位性を持っていると考えられています。

多くのユーザーは、一元化されたソフトウェアのエコシステムにアクセスできるため、GPU を選択します。NVIDIA がこれほど成功している理由は、エコシステム戦略を確立しているからです。

ハイパースケールクラウドコンピューティング企業は、チップメーカーよりも先にこの分野に参入しています。 Google LLC の Tensor プロセッシングユニットは、2016 年に発売された特定用途向け集積回路で、現在は第 4 世代です。アマゾンウェブサービスは 2018 年に機械学習用の推論処理アクセラレータを発表し、GPU アクセラレーションインスタンスの 2 倍以上のパフォーマンスを提供すると主張しました。

先月、同社は、Trainium チップをベースにしたクラウドインスタンスの一般提供を発表し、深層学習モデルのトレーニングシナリオでは、同等のパフォーマンスで、コスト比は GPU の EC2 に基づいていると述べました。は 50% 低くなります。両社の取り組みは主にクラウドサービスを通じた配信に焦点を当てている。

確立された市場リーダーが漸進的な改善に焦点を当てている一方で、より興味深いイノベーションの多くが AI 固有のハードウェアを構築する新興企業の間で起こっています。データによると、昨年チップ新興企業に投資された18億ドルの大部分はベンチャーキャピタリストに集まっており、これは2017年の2倍以上となっている。

彼らは巨額の利益をもたらす可能性のある市場を追いかけており、世界の人工知能チップ市場は、2020 年の 80 億米ドルから 2030 年までに 1,950 億米ドル近くに成長すると予想されています。

より小型、高速、より安価

x86 CPU の置き換えを希望するスタートアップ企業はほとんどありませんが、それはそうするための影響力が比較的小さいためです。チップはもはやボトルネックではなく、異なるチップ間の通信が大きなボトルネックとなっています。

CPU は、ファイルの管理やタスクの割り当てなどの低レベルの操作を実行しますが、純粋に CPU 固有のアプローチは拡張機能には適していません。CPU は、ファイルを開くことからすべてを行うように設計されています。メモリキャッシュの管理まで、アクティビティは普遍的でなければなりません。これは、AI モデルのトレーニングに必要な超並列行列算術演算にはあまり適していないことを意味します。

市場のほとんどの活動は、コプロセッサアクセラレータ、特定用途向け集積回路、そして程度は低いものの、特定の用途に合わせて微調整できるフィールドプログラマブルゲートアレイを中心に展開しています。

Google は、ソフトウェアとして実行するのではなく、プロセッサにハードコーディングすることでアルゴリズムをターゲットにするために、CPU と連携して動作するコプロセッサを開発するという Google の取り組みに誰もが注目しています。 AIのワークロード。

加速方程式

加速方程式は、自動運転車やビデオ監視などのエッジコンピューティングシナリオ向けの、いわゆるグラフィックストリームプロセッサを開発するために使用されます。完全にプログラム可能なチップセットは、CPU の機能の多くを引き受けますが、タスクレベルの並列処理とストリーミング実行処理に最適化されており、消費電力はわずか 7 ワットです。

このアーキテクチャはグラフデータ構造に基づいており、オブジェクト間の関係は接続されたノードとエッジとして表されます。各機械学習フレームワークはグラフの概念を使用し、チップの設計全体にわたって同じセマンティクスを維持します。 CMM を含むカスタムノードを含むグラフ全体を実行できます。これらのグラフでは、並列処理を高速化できます。

そのグラフィックベースのアーキテクチャは、GPU と CPU の容量制限の一部を解決し、さまざまな種類の AI タスクにより柔軟に適応できます。また、開発者はより多くの処理をエッジに移動して、推論を向上させることもできます。企業が処理の 80% を前処理できれば、時間とコストを大幅に節約できます。

これらのアプリケーションは、インテリジェンスをデータに近づけ、迅速な意思決定を可能にします。ほとんどの目標は、より計算量の多いトレーニングタスクではなく、AI モデルのフィールド展開である推論です。

ある企業は、インメモリコンピューティングを使用して遅延と外部ストレージデバイスの必要性を削減するチップを開発しています。その人工知能プラットフォームは、高い精度を維持しながら柔軟性と複数のニューラルネットワークを実行する機能を提供します。

そのデータ処理ユニットシリーズは、数十のタスクを並行して実行できるスケーラブルな 80 コアプロセッサを備えた大規模な並列プロセッサアレイです。主要な革新は、各処理要素内のテンソルコプロセッサの緊密な統合と、メモリ帯域幅のボトルネックを回避するための要素間の直接テンソルデータ交換のサポートです。これにより、前処理と後処理が同じ処理要素で実行されるため、効率的な AI アプリケーションの高速化が可能になります。

一部の企業は、サムネイルサイズのチップセットを使用した深層学習モデルの推論に重点を置いており、同社によれば、消費電力を 3 ワットまで削減しながら 1 秒あたり 26 兆回の演算を実行できると主張しています。これは、深層学習モデルをトレーニングするために使用される各ネットワーク層を必要なコンピューティング要素に分解し、それらを深層学習専用に構築されたチップ上に統合することによって部分的に実現されます。

オンボードメモリの使用により、オーバーヘッドがさらに削減されます。ネットワーク全体がチップ内にあり、外部メモリがないため、チップを小型化でき、消費電力も少なくなります。このチップは、ほぼリアルタイムの高解像度画像上で深層学習モデルを実行でき、単一のデバイスで 4 車線で自動ナンバープレート認識を同時に実行できるようになります。

ハードウェアの現在の開発

一部のスタートアップは、AI モデルのトレーニングとそれが実行するプラットフォーム全体を再定義することを目的として、よりムーンショット的なアプローチを採用しています。の上。

たとえば、機械学習用に最適化された AI プロセッサは、約 9,000 の同時スレッドと 900 メガバイトのプロセッサ内メモリにより、1 秒あたり最大 350 万の処理オペレーションを管理できます。この統合コンピューティングシステムは Bow-2000IPU マシンと呼ばれ、1 秒あたり 1.4 ペタフロップスの演算能力があると言われています。

他との違いは、3 次元積層チップ設計であり、これにより、単一チップに約 1,500 個の並列処理コアをパッケージ化できます。これらのビジネスはすべて、まったく異なるビジネスを実行することができます。これは、大きなデータブロックに対して同じ操作を実行することを好む、広く使用されている GPU アーキテクチャとは異なります。

別の例として、一部の企業は相互接続、つまり集積回路内の接続コンポーネント間の配線の問題を解決しています。プロセッサが理論上の最大速度に達するにつれて、特に複数のプロセッサが同時にメモリにアクセスする場合、ビットを移動するパスがますますボトルネックになりますが、今日のチップではインターコネクトのボトルネックではなくなりました。

このチップは人工知能プラットフォームにナノフォトニック導波路を使用しており、低エネルギーパッケージで高速性と広帯域幅を組み合わせているという。これは本質的に、他の複数のプロセッサやアクセラレータを接続できる光通信層です。

AI の結果の品質は、非常に大規模で複雑なモデルを同時にサポートしながら、非常に高いスループットの応答を達成できる能力によってもたらされます。この両方は達成可能です。これは、人工知能のほとんどのアプリケーションを含め、線形代数を使用して実行できるすべてのことに当てはまります。

ハードウェアとソフトウェアの統合プラットフォームに対する期待は非常に高いです。企業は、データセンターからエッジまでどこでも人工知能やその他のデータ集約型アプリケーションを実行できる研究開発プラットフォームなど、この点を活用しています。

ハードウェアプラットフォームは、機械学習と深層学習用に設計されたカスタム 7nm チップを使用します。再構成可能なデータフローアーキテクチャは AI に最適化されたソフトウェアスタックを実行し、ハードウェアアーキテクチャはメモリアクセスを最小限に抑えるように設計されているため、相互接続のボトルネックが軽減されます。

プロセッサは、AI またはハイパフォーマンスコンピューティング HPC ワークロードに適応するように再構成できます。プロセッサは、より高いパフォーマンスレベルで大規模な行列演算を処理できるように設計されており、ワークロードが変化するクライアントにとってはプラスです。

CPU、GPU、さらには FPGA はトランザクションシステムや ERP などの決定論的ソフトウェアに適していますが、機械学習アルゴリズムは確率的であるため、結果は事前にはわかりません。まったく異なるハードウェアインフラストラクチャです。

プラットフォームは、1TB の高速ダブルデータレート同期メモリをプロセッサに接続することで相互接続の問題を最小限に抑え、基本的に 20 倍高速なオンチップメモリでマスクします。DDR コントローラのレイテンシは、そのため、これはユーザーにとって透過的であり、タイリングやダウンサンプリングを行わずに、より多くのパラメーター数の言語モデルと最高解像度の画像をトレーニングできるようになります。

タイリングは、画像を小さなチャンクに分割し、各チャンクを分析してからそれらを再結合することにより、計算能力の必要性を軽減する画像分析に使用される手法です。ダウンサンプリングは、トレーニングデータのランダムなサブセットに基づいてモデルをトレーニングし、時間とコンピューティングリソースを節約します。その結果、GPU ベースのシステムよりも高速なだけでなく、より大きな問題を解決できるシステムが実現しました。

要約

多くの企業が同じ問題の解決策を模索しているため、淘汰は避けられませんが、この淘汰がすぐに起こるとは誰も予想していません。 GPU は長期間にわたって存在し、おそらく、極端なパフォーマンスを必要としない AI トレーニングおよび推論プロジェクトにとって最もコスト効率の高いソリューションであり続けるでしょう。

それでも、市場のハイエンドモデルが大型化、複雑化するにつれて、機能的に特化したアーキテクチャの必要性が高まっています。今から 3 ～ 5 年後には、GPU と AI アクセラレータが急増することになるでしょう。これが、この 10 年の終わり以降の需要に合わせて拡張できる唯一の方法です。

大手チップメーカーは、得意なことを継続し、既存のテクノロジーを徐々に構築することが期待されています。多くの企業もインテルに倣い、人工知能に焦点を当てたスタートアップ企業を買収するだろう。ハイパフォーマンスコンピューティングコミュニティは、大規模シミュレーションや気候モデリングなどの古典的な問題の解決に役立つ人工知能の可能性にも注目しています。

ハイパフォーマンスコンピューティングエコシステムは、常に時代の先を行くために吸収できる新しいテクノロジーを探しており、人工知能が何を実現できるかを模索しています。舞台裏には量子コンピューティングが潜んでいます。量子コンピューティングは、まだ実用的というよりは理論的な技術ですが、コンピューティングに革命を起こす可能性を秘めています。

どの新しいアーキテクチャが注目を集めるかに関係なく、人工知能の急増により、ソフトウェアの新たなフロンティアを切り開くハードウェア革新の可能性への関心が再燃していることは間違いありません。

以上が人工知能がハードウェアの開発をどのように改善できるかの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

AIのスキルギャップは、サプライチェーンのダウンを遅くしていますApr 26, 2025 am 11:13 AM

「AI-Ready労働力」という用語は頻繁に使用されますが、サプライチェーン業界ではどういう意味ですか？サプライチェーン管理協会（ASCM）のCEOであるAbe Eshkenaziによると、批評家ができる専門家を意味します

1つの会社がAIを永遠に変えるために静かに取り組んでいる方法Apr 26, 2025 am 11:12 AM

分散型AI革命は静かに勢いを増しています。今週の金曜日、テキサス州オースティンでは、ビテンサーのエンドゲームサミットは極めて重要な瞬間を示し、理論から実用的な応用に分散したAI（DEAI）を移行します。派手なコマーシャルとは異なり

Nvidiaは、AIエージェント開発を合理化するためにNEMOマイクロサービスをリリースしますApr 26, 2025 am 11:11 AM

エンタープライズAIはデータ統合の課題に直面していますエンタープライズAIの適用は、ビジネスデータを継続的に学習することで正確性と実用性を維持できるシステムを構築する大きな課題に直面しています。 NEMOマイクロサービスは、NVIDIAが「データフライホイール」と呼んでいるものを作成することにより、この問題を解決し、AIシステムがエンタープライズ情報とユーザーインタラクションへの継続的な露出を通じて関連性を維持できるようにします。この新しく発売されたツールキットには、5つの重要なマイクロサービスが含まれています。 NEMOカスタマイザーは、より高いトレーニングスループットを備えた大規模な言語モデルの微調整を処理します。 NEMO評価者は、カスタムベンチマークのAIモデルの簡素化された評価を提供します。 Nemo Guardrailsは、コンプライアンスと適切性を維持するためにセキュリティ管理を実装しています

aiは芸術とデザインの未来のために新しい絵を描きますApr 26, 2025 am 11:10 AM

AI：芸術とデザインの未来人工知能（AI）は、前例のない方法で芸術とデザインの分野を変えており、その影響はもはやアマチュアに限定されませんが、より深く影響を与えています。 AIによって生成されたアートワークとデザインスキームは、広告、ソーシャルメディアの画像生成、Webデザインなど、多くのトランザクションデザインアクティビティで従来の素材画像とデザイナーに迅速に置き換えられています。ただし、プロのアーティストやデザイナーもAIの実用的な価値を見つけています。 AIを補助ツールとして使用して、新しい美的可能性を探求し、さまざまなスタイルをブレンドし、新しい視覚効果を作成します。 AIは、アーティストやデザイナーが繰り返しタスクを自動化し、さまざまなデザイン要素を提案し、創造的な入力を提供するのを支援します。 AIはスタイル転送をサポートします。これは、画像のスタイルを適用することです

エージェントAIとのズームがどのように革命を起こしているか：会議からマイルストーンまでApr 26, 2025 am 11:09 AM

最初はビデオ会議プラットフォームで知られていたZoomは、エージェントAIの革新的な使用で職場革命をリードしています。 ZoomのCTOであるXD Huangとの最近の会話は、同社の野心的なビジョンを明らかにしました。エージェントAIの定義 huang d

大学に対する実存的な脅威Apr 26, 2025 am 11:08 AM

AIは教育に革命をもたらしますか？この質問は、教育者と利害関係者の間で深刻な反省を促しています。 AIの教育への統合は、機会と課題の両方をもたらします。 Tech Edvocate NotesのMatthew Lynch、Universitとして

プロトタイプ：アメリカの科学者は海外の仕事を探していますApr 26, 2025 am 11:07 AM

米国における科学的研究と技術の開発は、おそらく予算削減のために課題に直面する可能性があります。 Natureによると、海外の雇用を申請するアメリカの科学者の数は、2024年の同じ期間と比較して、2025年1月から3月まで32％増加しました。以前の世論調査では、調査した研究者の75％がヨーロッパとカナダでの仕事の検索を検討していることが示されました。 NIHとNSFの助成金は過去数か月で終了し、NIHの新しい助成金は今年約23億ドル減少し、3分の1近く減少しました。リークされた予算の提案は、トランプ政権が科学機関の予算を急激に削減していることを検討しており、最大50％の削減の可能性があることを示しています。基礎研究の分野での混乱は、米国の主要な利点の1つである海外の才能を引き付けることにも影響を与えています。 35

Openaiは、強力なGPT-4.1シリーズを発表しました。実際のアプリケーション向けに設計された3つの高度な言語モデルのファミリー。この大幅な飛躍は、より速い応答時間、理解の強化、およびTと比較した大幅に削減されたコストを提供します

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

Safe Exam Browser

Safe Exam Browser は、オンライン試験を安全に受験するための安全なブラウザ環境です。このソフトウェアは、あらゆるコンピュータを安全なワークステーションに変えます。あらゆるユーティリティへのアクセスを制御し、学生が無許可のリソースを使用するのを防ぎます。

DVWA

Damn Vulnerable Web App (DVWA) は、非常に脆弱な PHP/MySQL Web アプリケーションです。その主な目的は、セキュリティ専門家が法的環境でスキルとツールをテストするのに役立ち、Web 開発者が Web アプリケーションを保護するプロセスをより深く理解できるようにし、教師/生徒が教室環境で Web アプリケーションを教え/学習できるようにすることです。安全。 DVWA の目標は、シンプルでわかりやすいインターフェイスを通じて、さまざまな難易度で最も一般的な Web 脆弱性のいくつかを実践することです。このソフトウェアは、