Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開-AI-php.cn

ホームページ

テクノロジー周辺機器

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

PHPz

Apr 07, 2023 pm 02:54 PM

グーグルai

Google は、2020 年の早い段階で、当時最も強力な AI チップである TPU v4 を自社のデータセンターに導入しました。

しかし、Google がこの AI スーパーコンピューターの技術的詳細を初めて発表したのは、今年 4 月 4 日のことでした。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

文書アドレス: https://arxiv.org/abs/2304.01433

TPU v3 と比較して、TPU v4 のパフォーマンスは 2.1 倍高く、4096 チップを統合した後のスーパーコンピューターのパフォーマンスは 10 倍向上します。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

さらに、Google は、自社のチップが Nvidia A100 よりも高速でエネルギー効率が高いとも主張しています。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

A100 と競合、1.7 倍高速

Google は論文の中で、同等のサイズのシステムでは TPU v4 が必要であると述べています。 NVIDIA A100 よりも 1.7 倍優れたパフォーマンスを提供しながら、エネルギー効率も 1.9 倍向上します。

さらに、Google のスーパーコンピューティング速度は、Graphcore IPU Bow よりも約 4.3 倍から 4.5 倍高速です。

Google は、TPU v4 パッケージと、回路基板に実装された 4 つのパッケージをデモしました。

TPU v3 と同様、各 TPU v4 には 2 つの TensorCore (TC) が含まれています。各 TC には、4 つの 128x128 行列乗算ユニット (MXU)、128 チャネル (チャネルあたり 16 ALU) を持つベクトル処理ユニット (VPU)、および 16 MiB ベクトルメモリ (VMEM) が含まれています。

2 つの TC は 128 MiB の共通メモリ (CMEM) を共有します。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

A100 チップと Google の第 4 世代 TPU が同時に発売されたことは注目に値します。そのため、具体的なパフォーマンスはどのように比較されるのでしょうか?

Google は、5 つの MLPerf ベンチマークで各 DSA の最速パフォーマンスを個別に実証しました。これらには、BERT、ResNET、DLRM、RetinaNet、MaskRCNN が含まれます。

その中で、Graphcore IPU は BERT と ResNET で結果を提出しました。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

ResNet と BERT の 2 つのシステムの結果を以下に示します。点間の点線はチップ数に基づく補間です。

TPU v4 と A100 の両方の MLPerf 結果は、IPU よりも大規模なシステム (4096 チップ対 256 チップ) まで拡張できます。

同様のサイズのシステムの場合、TPU v4 は BERT 上で A100 より 1.15 倍、IPU より約 4.3 倍高速です。 ResNet の場合、TPU v4 はそれぞれ 1.67 倍、約 4.5 倍高速です。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

MLPerf ベンチマークでの電力使用量については、A100 は平均して 1.3 倍から 1.9 倍の電力を使用しました。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

#1 秒あたりの浮動小数点演算のピーク値は実際のパフォーマンスを予測しますか?機械学習分野の多くの人は、1 秒あたりの浮動小数点演算のピーク値がパフォーマンスの良い指標であると信じていますが、実際はそうではありません。

たとえば、TPU v4 は、1 秒あたりのピーク浮動小数点演算では 1.10 倍の利点しかないにもかかわらず、2 つの MLPerf ベンチマークでは、同じサイズのシステム上の IPU Bow よりも 4.3 倍から 4.5 倍高速です。

別の例では、A100 の 1 秒あたりのピーク浮動小数点演算は TPU v4 の 1.13 倍ですが、同じチップ数の場合、TPU v4 は 1.15 ～ 1.67 倍高速です。

次の図は、ルーフラインモデルを使用して、ピーク FLOPS/秒とメモリ帯域幅の関係を示しています。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

そこで問題は、なぜ Google が Nvidia の最新の H100 と比較しないのかということです。

Googleは、H100はGoogleのチップ発売後の新しいテクノロジーを使用して構築されたため、第4世代製品をNvidiaの現在の主力チップであるH100チップと比較しなかったと述べた。

ただし、Google は Nvidia H100 と競合する新しい TPU を開発していることを示唆しましたが、詳細は明らかにしませんでした。グーグルの研究者ジュッピ氏はロイターのインタビューで、グーグルには「将来のチップの生産ライン」があると述べた。

TPU と GPU

ChatGPT と Bard が「戦っている」一方で、2 つの巨大企業も舞台裏で稼働を維持するために懸命に働いています - NVIDIA CUDA サポートGPU (グラフィックスプロセッシングユニット) と Google がカスタマイズした TPU (テンソルプロセッシングユニット)。

言い換えれば、これはもはや ChatGPT 対 Bard の問題ではなく、TPU 対 GPU、そして行列乗算をいかに効率的に実行できるかの問題です。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

ハードウェアアーキテクチャの優れた設計により、NVIDIA の GPU は行列乗算タスクに最適であり、複数の CUDA コア間で効果的に切り替え、並列処理を実装します。

したがって、2012 年以降、GPU 上でモデルをトレーニングすることがディープラーニングの分野のコンセンサスとなり、それは今日に至るまで変わっていません。

NVIDIA DGX の発売により、NVIDIA は、知的財産権の欠如により競合他社が提供できない、ほぼすべての AI タスクに対するワンストップのハードウェアおよびソフトウェアソリューションを提供できるようになります。

対照的に、Google は 2016 年に第 1 世代のテンソルプロセッシングユニット (TPU) を発売しました。これにはカスタム ASIC (専用集積回路) が含まれているだけでなく、独自のアプリケーション向けに最適化されています。 TensorFlow フレームワーク。これにより、TPU は行列乗算以外の他の AI コンピューティングタスクでも利点が得られ、微調整タスクや推論タスクを高速化することもできます。

さらに、Google DeepMind の研究者は、より優れた行列乗算アルゴリズムである AlphaTensor を作成する方法も発見しました。

ただし、Google が自社開発テクノロジーと新たな AI コンピューティング最適化手法を通じて良好な結果を達成したにもかかわらず、Microsoft と Nvidia の長期にわたる綿密な協力は、それぞれの専門知識に依存してきました。製品の蓄積により、双方の競争優位性が同時に拡大しました。

#第 4 世代 TPU

## 2021 年の Google I/O カンファレンスで、ピチャイ氏が初めてこれを発表しました。 Google の最新世代 AI チップ TPU v4。

「これは、当社が Google に導入した中で最速のシステムであり、当社にとって歴史的なマイルストーンです。」

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開 ##Google の Bard や OpenAI の ChatGPT のような大規模な言語モデルがパラメータスケールで実装されているため、この改善は AI スーパーコンピュータを構築する企業間の競争において重要なポイントとなっています。

これは、単一のチップが保存できる容量よりもはるかに大きく、コンピューティングパワーの需要が巨大な「ブラックホール」であることを意味します。

したがって、これらの大規模なモデルは数千のチップに分散する必要があり、その後、モデルをトレーニングするためにそれらのチップが数週間、またはさらに長い間連携して動作する必要があります。

現在、これまでに公開された Google の最大の言語モデルである PaLM には 5,400 億個のパラメータがあり、これを 2 台の 4,000 チップスーパーコンピュータに分割して 50 日以内にトレーニングしました。

Google によると、自社のスーパーコンピューターはチップ間の接続を簡単に再構成して問題を回避し、パフォーマンスの調整を行うことができます。

Google 研究者の Norm Jouppi 氏と Google の著名なエンジニア David Patterson 氏は、このシステムについてブログ投稿で次のように書いています。

「回線切り替えによりバイパスが可能になります。「故障したコンポーネントを簡単に克服できます。この柔軟性により、スーパーコンピューターの相互接続のトポロジを変更して、機械学習モデルのパフォーマンスを加速することもできます。」

Google は現在、関連する詳細を公開しているところですが、そのスーパーコンピューターは、オクラホマ州メイズ郡にあるデータセンターで 2020 年からオンラインになっています。

Google によると、Midjourney はモデルのトレーニングにこのシステムを使用しており、最新バージョンの V5 では誰もが驚くべき画像生成を確認できるとのことです。

Googleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開

最近、ピチャイ氏はニューヨーク・タイムズとのインタビューで、バード氏がLaMDAからPaLMに異動すると述べた。

TPU v4 スーパーコンピューターの恩恵を受けて、Bard はさらに強くなります。

以上がGoogleの超AIスーパーコンピューターがNVIDIA A100を粉砕！ TPU v4性能10倍向上、詳細初公開の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事は51CTO.COMで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

カリフォルニアは、AIをタップして、速い追跡の山火事回復許可を促進しますMay 04, 2025 am 11:10 AM

AIは、野火の回復許可を合理化しますオーストラリアのハイテク企業ArchistarのAIソフトウェアは、機械学習とコンピュータービジョンを利用して、地域の規制に準拠するための建築計画の評価を自動化します。この前検証は重要です

米国がエストニアのAI駆動型デジタル政府から学ぶことができることMay 04, 2025 am 11:09 AM

エストニアのデジタル政府：米国のモデル？米国は官僚的な非効率性と闘っていますが、エストニアは説得力のある代替品を提供しています。この小さな国は、AIを搭載した、ほぼ100％デジタル化された市民中心の政府を誇っています。これはそうではありません

生成AIによる結婚式の計画May 04, 2025 am 11:08 AM

結婚式を計画することは記念碑的な仕事であり、しばしば最も組織化されたカップルでさえ圧倒されます。この記事は、AIの影響に関する進行中のフォーブスシリーズの一部（こちらのリンクを参照）で、生成AIが結婚式の計画にどのように革命をもたらすことができるかを調べます。結婚式のpl

デジタル防衛AIエージェントとは何ですか？May 04, 2025 am 11:07 AM

政府は、さまざまな確立されたタスクにそれらを利用している一方で、企業はAIエージェントを販売のためにますます活用しています。ただし、消費者の支持者は、個人がターゲットのターゲットに対する防御として自分のAIエージェントを所有する必要性を強調しています

生成エンジン最適化に関するビジネスリーダーのガイド（GEO）May 03, 2025 am 11:14 AM

Googleはこのシフトをリードしています。その「AIの概要」機能はすでに10億人以上のユーザーにサービスを提供しており、誰もがリンクをクリックする前に完全な回答を提供しています。[^2] 他のプレイヤーも速く地位を獲得しています。 ChatGpt、Microsoft Copilot、およびPE

このスタートアップは、AIエージェントを使用して悪意のある広告となりすましアカウントと戦っていますMay 03, 2025 am 11:13 AM

2022年、彼はソーシャルエンジニアリング防衛のスタートアップDoppelを設立してまさにそれを行いました。そして、サイバー犯罪者が攻撃をターボチャージするためのより高度なAIモデルをハーネスするにつれて、DoppelのAIシステムは、企業が大規模に戦うのに役立ちました。

世界モデルがどのように生成AIとLLMの未来を根本的に再形成しているかMay 03, 2025 am 11:12 AM

出来上がりは、適切な世界モデルとの対話を介して、生成AIとLLMを実質的に後押しすることができます。それについて話しましょう。革新的なAIブレークスルーのこの分析は、最新のAIで進行中のForbes列のカバレッジの一部であり、

2050年5月：私たちは祝うために何を残しましたか？May 03, 2025 am 11:11 AM

労働者2050年。全国の公園は、ノスタルジックなパレードが街の通りを通り抜ける一方で、伝統的なバーベキューを楽しんでいる家族でいっぱいです。しかし、お祝いは現在、博物館のような品質を持っています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

EditPlus 中国語クラック版

サイズが小さく、構文の強調表示、コードプロンプト機能はサポートされていません

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。