ホームページ  >  記事  >  テクノロジー周辺機器  >  Microsoftは、ChatGPTを開発するためにOpenAI用のスーパーコンピュータを組み立てるのに数億ドルを費やし、数万個のNvidiaチップを使用したことを明らかにした

Microsoftは、ChatGPTを開発するためにOpenAI用のスーパーコンピュータを組み立てるのに数億ドルを費やし、数万個のNvidiaチップを使用したことを明らかにした

王林
王林転載
2023-04-12 13:52:03853ブラウズ

Microsoftは、ChatGPTを開発するためにOpenAI用のスーパーコンピュータを組み立てるのに数億ドルを費やし、数万個のNvidiaチップを使用したことを明らかにした

米国現地時間3月14日月曜日、Microsoftは、OpenAIが人気のチャットロボットChatGPTの開発を支援するAIスーパーコンピューターの組み立てに数億ドルを費やしたことを明らかにする文書を公表した。このスーパーコンピューターは数万個の NVIDIA グラフィックス チップ A100 を使用しており、OpenAI がますます強力な AI モデルをトレーニングできるようになります。

OpenAI は、ますます大規模な AI モデルをトレーニングしようとします。これにより、より多くのデータが取り込まれ、AI システムがトレーニングと再トレーニングを通じて把握する変数であるパラメーターがますます学習されます。これは、OpenAI が強力なクラウド コンピューティング サービスのサポートを獲得するには長い時間がかかることを意味します。

この課題に対処するために、Microsoft が 2019 年に OpenAI に 10 億ドルを投資したとき、同社は AI 研究のスタートアップのために大規模な最先端のスーパーコンピューターを組み立てることに同意しました。問題は、Microsoft には OpenAI に必要なものが何もなく、Azure クラウド サービスを中断することなくこれほど巨大なデバイスを構築できるかどうか完全に自信がないことです。

これを実現するために、Microsoft は、数万個の Nvidia の A100 グラフィックス チップを接続する方法を見つけ、停電を防ぐためにラックにサーバーを配置する方法を変更する必要がありました。 A100 グラフィックス チップは、AI モデルのトレーニングに主力です。 MicrosoftのクラウドコンピューティングおよびAI担当エグゼクティブバイスプレジデントであるスコット・ガスリー氏は、プロジェクトの具体的な費用については明らかにしなかったが、数億ドル規模になる可能性があると示唆した。

Microsoft Azure AI インフラストラクチャのゼネラル マネージャーである Nidhi Capell 氏は次のように述べています。「私たちは、非常に大規模に実行でき、非常に信頼性の高いシステム アーキテクチャを構築しました。これが ChatGPT の成功の重要な理由です。これはほんの 1 つの理由です。」

このテクノロジーに基づいて、OpenAI は人気のあるチャットボット ChatGPT をリリースしました。昨年 11 月のローンチから数日以内に 100 万人以上のユーザーを獲得し、現在では他社のビジネス モデルに組み込まれています。 ChatGPT のような生成人工知能 (AIGC) ツールに対する企業や消費者の関心が高まるにつれ、Microsoft、Amazon、Google などのクラウド サービス プロバイダーは、自社のデータ センターが必要とする膨大なコンピューティング能力を確実に提供できるようにするという、より大きなプレッシャーに直面することになります。

一方、Microsoft は現在、OpenAI 用に構築したインフラストラクチャを使用して、先月発売された新しい Bing 検索チャットボットを含む独自の大規模 AI モデルをトレーニングおよび実行し始めています。同社はこのシステムを他の顧客にも販売しています。ソフトウェア大手は、MicrosoftとOpenAIとの提携拡大の一環として、すでに次世代AIスーパーコンピューターの開発に取り組んでおり、この契約ではMicrosoftが投資に100億ドルを追加した。

Guthrie 氏はインタビューで次のように述べています。「最初はカスタマイズされていましたが、OpenAI 用に何もカスタマイズしませんでしたが、大規模な言語モデルをトレーニングしたい人が誰でも利用できるように、常に一般化された方法で構築しました。これは、より広範な規模でより優れた AI インテリジェント クラウドになるのに非常に役立ちます。」モデルを使用した後、ユーザーのクエリによって提示されたすべての質問に答えるには (推論と呼ばれるプロセス)、少し異なる設定が必要になります。この目的のために、Microsoft は推論用のグラフィックス チップも導入していますが、これらのプロセッサ (数千個) は、同社の 60 以上のデータ センターに地理的に分散しています。 Microsoftは現在、AIワークロード用の最新のNvidia H100グラフィックスチップと、データ共有を高速化するための最新バージョンのInfinibandネットワーキングテクノロジーを追加していると述べた。

新しい Bing はまだテスト段階にあり、Microsoft はテスト リストから徐々にユーザーを追加しています。ガスリーのチームは毎日、約 20 名の従業員とミーティングを行っています。彼は彼らを「ピット クルー」と呼んでいますが、これはもともとレースにおけるチームのメンテナンス チームのメカニックを指します。これらの人々の仕事は、より多くのコンピューティング能力をオンラインに迅速に導入し、発生する問題を解決する方法を見つけ出すことです。

クラウド サービスは、サーバー、パイプ、建物のコンクリート、さまざまな金属や鉱物など、何千もの異なるコンポーネントに依存しており、1 つのコンポーネントの遅延や不足は、たとえどれほど軽微であっても、プロジェクト全体に混乱を引き起こす可能性があります。最近、「ピットクルー」はケーブルトレイ(マシンの下を流れるケーブルを保持するバスケットのような装置)の不足に対応しなければならなかった。そこで彼らは新しいケーブル トレイを設計しました。ガスリー氏は、新しい建物の完成を待たなくても済むように、世界中の既存のデータセンターにできるだけ多くのサーバーを詰め込む方法にも取り組んでいると語った。

OpenAI または Microsoft が大規模な AI モデルのトレーニングを開始するときは、作業を一度に行う必要があります。作業はすべての GPU に分散され、ある時点で、これらの GPU は互いに通信して、実行中の作業を共有する必要があります。 AI スーパーコンピューターの場合、マイクロソフトはすべてのチップ間の通信を処理するネットワーク機器がこの負荷を処理できることを確認し、GPU とネットワーク機器を最大限に活用するソフトウェアを開発する必要があります。同社は現在、数十兆のパラメーターを使用して AI モデルをトレーニングするために使用できるソフトウェアを開発しました。

すべてのマシンが同時に起動されるため、Microsoft はマシンをどこに配置するか、電源をどこに配置するかを検討する必要があります。そうしないと、最終的にデータセンターの電源が失われる可能性があります。 Azure のグローバル インフラストラクチャ担当ディレクターの Alistair Speirs 氏は、Microsoft はまた、これらすべてのマシンとチップを確実に冷却できるようにする必要があると述べました。暑い気候の沼地のクーラー。

ガスリー氏は、マイクロソフトはカスタマイズされたサーバーとチップの設計、および速度、効率、コスト削減を最大化するためにサプライチェーンを最適化する方法に引き続き取り組んでいくと述べた。同氏は、「現在世界を驚かせているAIモデルは、私たちが数年前に構築を始めたスーパーコンピューター上に構築されており、新しいモデルは現在トレーニング中の新しいスーパーコンピューターを使用することになる。このコンピューターははるかに大型で、より優れた性能を達成できる」と述べた。複雑なテクノロジー。」

Microsoft はすでに Azure の AI 機能をより強力にすることに取り組んでおり、Nvidia の H100 および A100 Tensor コア GPU、および Quantum-2 InfiniBand ネットワーキングを使用する新しい仮想マシンを発売しています。 Microsoftによれば、これによりOpenAIやAzureに依存するその他の企業は、より大規模で複雑なAIモデルをトレーニングできるようになるという。

Microsoft の Azure AI 担当エンタープライズ バイスプレジデントである Eric Boyd 氏は声明の中で次のように述べています。彼らはトレーニング環境を整える上で必要な重要な条件やその他必要なことを理解するために彼らと緊密に協力しています。」 (Xiao Xiao)

以上がMicrosoftは、ChatGPTを開発するためにOpenAI用のスーパーコンピュータを組み立てるのに数億ドルを費やし、数万個のNvidiaチップを使用したことを明らかにしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事は51cto.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。