ホームページ >よくある問題 >TPU と GPU: 実際のシナリオにおけるパフォーマンスと速度の比較差

TPU と GPU: 実際のシナリオにおけるパフォーマンスと速度の比較差

王林転載: 2023-04-25 16:34:086237ブラウズ

この記事では、TPU と GPU を比較します。しかし、本題に入る前に、知っておくべきことがあります。

機械学習と人工知能テクノロジーは、インテリジェントなアプリケーションの開発を加速します。この目的を達成するために、半導体企業は、より複雑なアプリケーションを処理するために、TPU や CPU などのアクセラレータやプロセッサを開発し続けています。

一部のユーザーは、コンピュータタスクを完了するためにどのような場合に TPU が推奨されるのか、またどのような場合に GPU が使用されるのかを理解するのに苦労しています。

グラフィックスプロセッシングユニットとも呼ばれる GPU は、視覚的で没入型の PC エクスペリエンスを提供する PC のビデオカードです。たとえば、PC が GPU を検出しない場合は、簡単な手順に従うことができます。

これらの状況をより深く理解するには、TPU とは何か、また TPU と GPU がどのように比較されるのかを明確にする必要もあります。

TPUとは何ですか?

TPU または Tensor Processing Unit は、特定のアプリケーションに使用される、ASIC (Application Specific Integrated Circuit) とも呼ばれる特定用途向け集積回路 (IC) です。 Google は TPU をゼロから作成し、2015 年に使用を開始し、2018 年に一般公開しました。

#TPU は、マイナーシリコンバージョンまたはクラウドバージョンとして利用できます。 TensorFlow ソフトウェアを使用してニューラルネットワークの機械学習を加速するために、クラウド TPU は複雑な行列演算とベクトル演算を驚異的な速度で解決します。

Google Brain チームは、TensorFlow を使用して、研究者、開発者、企業が Cloud TPU ハードウェアを使用して AI モデルを構築および運用できるオープンソースの機械学習プラットフォームを開発しました。

複雑で堅牢なニューラルネットワークモデルをトレーニングする場合、TPU は正確な値に到達するまでの時間を短縮します。これは、GPU を使用すると、数週間かかる可能性のある深層学習モデルのトレーニングがその時間のほんの一部で済むことを意味します。

TPU と GPU は同じですか?

両者はアーキテクチャが大きく異なります。グラフィックスプロセッシングユニットは、ベクトル化された数値プログラミングにパイプされていますが、それ自体がプロセッサーです。 GPU は実際には次世代の Cray スーパーコンピューターです。

TPU は命令自体を実行しないコプロセッサです。コードは CPU 上で実行され、小さな操作のフローが TPU に提供されます。

TPU をいつ使用する必要がありますか?

クラウド内の TPU は、特定のアプリケーション向けに調整されています。場合によっては、機械学習タスクを実行するために GPU または CPU を使用することを好む場合があります。一般に、次の原則は、TPU がワークロードにとって最適な選択であるかどうかを評価するのに役立ちます。

行列計算がモデルを支配する
モデルのメイントレーニングループには、次のものが含まれます。カスタム TensorFlow 操作はありません。
これらは、数週間または数か月かけてトレーニングされたモデルです。
これらは、広範囲の有効なバッチサイズを持つ大規模なモデルです。

それでは、TPU と GPU の比較に直接移りましょう。

GPU と TPU の違いは何ですか?

TPU と GPU アーキテクチャ

TPU は非常に複雑なハードウェアではなく、従来の X86 派生アーキテクチャというよりは、レーダーアプリケーション用の信号処理エンジンのように感じられます。

行列の乗算や除算はたくさんありますが、GPU というよりはコプロセッサに似ており、ホストが受け取ったコマンドのみを実行します。

行列乗算コンポーネントに入力される重みが非常に多いため、TPU の DRAM は単一ユニットとして並列実行されます。

さらに、TPU は行列演算のみを実行できるため、TPU ボードは CPU ベースのホストシステムに接続され、TPU が処理できないタスクを完了します。

ホストは、TPU へのデータの転送、前処理、およびクラウドストレージからの詳細の取得を担当します。

#GPU は、低遅延キャッシュにアクセスすることよりも、アプリケーションが動作するために利用可能なコアを確保することを重視します。

複数の SM (ストリーミングマルチプロセッサ) を備えた多くの PC (プロセッサのクラスタ) は、単一の GPU ガジェットになり、それぞれに第 1 レベルの命令キャッシュ層と付随するコアが含まれます。

SM は通常、グローバル GDDR-5 メモリからデータをフェッチする前に、2 つのキャッシュされた共有レイヤーと 1 つのキャッシュされたプライベートレイヤーを使用します。 GPU アーキテクチャはメモリ遅延を許容できます。

GPU は最小数のメモリキャッシュレベルで動作します。ただし、GPU には処理専用のトランジスタが多数あるため、メモリ内のデータへのアクセスにかかる時間はあまり気にされません。

GPU は常に十分な計算によって占有されるため、メモリアクセスの遅延の可能性は隠れます。

TPU と GPU 速度

このオリジナルの TPU は、トレーニングされたモデルではなく学習されたモデルを使用して、ターゲットを絞った推論を生成します。

TPU は、ニューラルネットワーク推論を使用する商用 AI アプリケーションにおいて、現在の GPU や CPU よりも 15 ～ 30 倍高速です。

さらに、TPU は非常にエネルギー効率が高く、TOPS/ワット値は 30 ～ 80 倍に増加します。

専門家によるヒント: 一部の PC の問題は、特にリポジトリが破損している場合や Windows ファイルが見つからない場合に解決が困難です。エラーを修正できない場合は、システムが部分的に破損している可能性があります。マシンをスキャンしてどこに障害があるかを特定できるツール、Restoro をインストールすることをお勧めします。
ここをクリックしてダウンロードして修復を開始してください。

したがって、TPU と GPU の速度を比較すると、Tensor Processing Unit が有利になる可能性が高くなります。

TPU と GPU のパフォーマンス

TPU は、Tensorflow グラフ計算を高速化するために設計されたテンソル処理マシンです。

単一ボード上で、各 TPU は最大 64 GB の高帯域幅メモリと 180 テラフロップスの浮動小数点パフォーマンスを提供します。

Nvidia GPU と TPU の比較を以下に示します。 Y 軸は 1 秒あたりの写真の数を表し、X 軸はさまざまなモデルを表します。

#TPU と GPU の機械学習

以下は、異なるバッチサイズと各エポック反復を使用した CPU と GPU のトレーニング時間です:

アクセラレータGPU (NVIDIA K80)熱可塑性ポリウレタントレーニング精度 (%)96.594.1検証精度 (%)65.168.6反復あたりの時間 (ミリ秒)69173 #エポックあたりの時間(秒)69173合計時間 (分)3072

##反復/エポック: 1000、バッチサイズ: 100、合計エポック: 25、パラメーター: 1.84 M、モデルタイプ: Keras Mobilenet V1 (アルファ 0.75)

以上がTPU と GPU: 実際のシナリオにおけるパフォーマンスと速度の比較差の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

batch 架构 edge 循环 windows 算法人工智能 tensorflow keras nlp 物联网数据中心

声明：

この記事はyundongfang.comで複製されています。侵害がある場合は、admin@php.cn までご連絡ください。

前の記事：Windows 11 Insider では、ウィンドウモードで実行される従来のゲーム向けに最適化が行われました。次の記事：Windows 11 Insider では、ウィンドウモードで実行される従来のゲーム向けに最適化が行われました。

続きを見る

GPU (NVIDIA K80)	熱可塑性ポリウレタン
97.4	96.9
45.2	45.3
185	252
18	25
16	21

TPU と GPU: 実際のシナリオにおけるパフォーマンスと速度の比較差

TPUとは何ですか?