집 >일반적인 문제 >TPU와 GPU: 실제 시나리오의 성능과 속도 비교 차이

TPU와 GPU: 실제 시나리오의 성능과 속도 비교 차이

王林앞으로: 2023-04-25 16:34:086248검색

이 기사에서는 TPU와 GPU를 비교하겠습니다. 하지만 자세히 알아보기 전에 알아야 할 사항이 있습니다.

기계 학습 및 인공 지능 기술은 지능형 애플리케이션 개발을 가속화합니다. 이를 위해 반도체 회사들은 더욱 복잡한 애플리케이션을 처리하기 위해 TPU, CPU 등의 가속기와 프로세서를 계속해서 개발하고 있습니다.

일부 사용자는 TPU가 권장되는 시기와 컴퓨터 작업을 완료하기 위해 GPU를 사용해야 하는 시기를 이해하는 데 어려움을 겪고 있습니다.

그래픽 처리 장치라고도 알려진 GPU는 시각적이고 몰입감 넘치는 PC 경험을 제공하는 PC의 비디오 카드입니다. 예를 들어, PC가 GPU를 감지하지 못하는 경우 간단한 단계를 따를 수 있습니다.

이러한 상황을 더 잘 이해하려면 TPU가 무엇인지, GPU와 비교하는 방법도 명확히 해야 합니다.

TPU란 무엇인가요?

TPU 또는 텐서 처리 장치는 특정 애플리케이션에 사용되는 ASIC(주문형 집적 회로)라고도 하는 애플리케이션별 집적 회로(IC)입니다. Google은 처음부터 TPU를 만들어 2015년에 사용하기 시작했으며 2018년에 대중에게 공개했습니다.

TPU는 보조 칩 또는 클라우드 버전으로 제공됩니다. TensorFlow 소프트웨어를 사용하여 신경망의 기계 학습을 가속화하기 위해 클라우드 TPU는 놀라운 속도로 복잡한 행렬 및 벡터 연산을 해결합니다.

Google Brain팀은 TensorFlow를 통해 연구원, 개발자, 기업이 Cloud TPU 하드웨어를 사용하여 AI 모델을 구축하고 운영할 수 있는 오픈소스 머신러닝 플랫폼을 개발했습니다.

복잡하고 강력한 신경망 모델을 훈련할 때 TPU는 정확한 값에 도달하는 시간을 줄여줍니다. 이는 몇 주가 걸릴 수 있는 딥 러닝 모델을 훈련하는 데 GPU를 사용하면 그 시간의 일부만 소요된다는 것을 의미합니다.

TPU와 GPU는 동일한가요?

그들은 건축학적으로 매우 다릅니다. 그래픽 처리 장치는 벡터화된 수치 프로그래밍에 연결되어 있지만 그 자체로 프로세서입니다. GPU는 실제로 차세대 Cray 슈퍼컴퓨터입니다.

TPU는 명령 자체를 실행하지 않는 보조 프로세서입니다. 코드는 TPU에 작은 작업 스트림을 제공하는 CPU에서 실행됩니다.

TPU는 언제 사용해야 하나요?

클라우드의 TPU는 특정 애플리케이션에 맞게 조정되었습니다. 경우에 따라 기계 학습 작업을 수행하기 위해 GPU 또는 CPU를 사용하는 것이 더 좋을 수도 있습니다. 일반적으로 다음 원칙은 TPU가 워크로드에 가장 적합한 선택인지 평가하는 데 도움이 될 수 있습니다.

행렬 계산이 모델을 지배합니다.
모델의 기본 훈련 루프에는 사용자 정의 TensorFlow 작업이 없습니다.
이들은 훈련된 모델입니다. 몇 주 또는 몇 달
광범위하고 효과적인 배치 크기를 갖춘 대형 모델입니다.

이제 TPU와 GPU를 직접 비교해 보겠습니다.

GPU와 TPU의 차이점은 무엇인가요?

TPU 대 GPU 아키텍처

TPU는 매우 복잡한 하드웨어가 아니며 전통적인 X86 파생 아키텍처가 아닌 레이더 애플리케이션을 위한 신호 처리 엔진처럼 느껴집니다.

행렬 곱셈과 나눗셈이 많지만 GPU보다는 보조 프로세서에 더 가깝습니다. 호스트에서 받은 명령만 실행합니다.

행렬 곱셈 구성 요소에 입력해야 할 가중치가 너무 많기 때문에 TPU의 DRAM은 단일 단위로 병렬로 실행됩니다.

또한 TPU는 매트릭스 연산만 수행할 수 있기 때문에 TPU 보드는 CPU 기반 호스트 시스템에 연결되어 TPU가 처리할 수 없는 작업을 수행합니다.

호스트는 데이터를 TPU로 전송하고, 전처리하고, 클라우드 저장소에서 자세한 정보를 가져오는 일을 담당합니다.

GPU는 지연 시간이 짧은 캐시에 액세스하는 것보다 애플리케이션이 작동할 수 있는 코어를 확보하는 데 더 관심이 있습니다.

여러 SM(스트리밍 멀티프로세서)이 있는 많은 PC(프로세서 클러스터)는 단일 GPU 가젯이 되며, 각 SM에는 첫 번째 수준 명령 캐시 레이어와 그에 수반되는 코어가 포함됩니다.

SM은 일반적으로 글로벌 GDDR-5 메모리에서 데이터를 가져오기 전에 두 개의 캐시된 공유 레이어와 하나의 캐시된 개인 레이어를 사용합니다. GPU 아키텍처는 메모리 대기 시간을 허용할 수 있습니다.

GPU는 최소한의 메모리 캐시 수준으로 실행됩니다. 그러나 GPU에는 처리 전용 트랜지스터가 더 많기 때문에 메모리의 데이터에 액세스하는 데 걸리는 시간에 대해서는 덜 고려합니다.

GPU는 항상 충분한 계산으로 점유되므로 가능한 메모리 액세스 지연이 숨겨집니다.

TPU 대 GPU 속도

이 원본 TPU는 학습된 모델이 아닌 학습된 모델을 사용하여 타겟 추론을 생성합니다.

TPU는 신경망 추론을 사용하는 상용 AI 애플리케이션에서 현재 GPU 및 CPU보다 15~30배 빠릅니다.

또한 TPU는 TOPS/와트 값이 30~80배 증가하여 에너지 효율성이 매우 높습니다.

전문가 팁: 일부 PC 문제는 해결하기 어렵습니다. 특히 저장소가 손상되었거나 Windows 파일이 누락된 경우 더욱 그렇습니다. 오류를 수정하는 데 문제가 있는 경우 시스템이 부분적으로 손상되었을 수 있습니다. 시스템을 스캔하고 결함이 있는 위치를 확인할 수 있는 도구인 Restoro를 설치하는 것이 좋습니다.
다운로드하고 수리를 시작하려면 여기를 클릭하세요.

따라서 TPU와 GPU 속도를 비교할 때 텐서 처리 장치가 유리할 확률이 높습니다.

TPU 대 GPU 성능

TPU는 Tensorflow 그래프 계산을 가속화하도록 설계된 텐서 처리 기계입니다.

각 TPU는 단일 보드에서 최대 64GB의 고대역폭 메모리와 180테라플롭스의 부동 소수점 성능을 제공합니다.

Nvidia GPU와 TPU의 비교는 아래와 같습니다. Y축은 초당 사진 수를 나타내고 X축은 다양한 모델을 나타냅니다.

TPU 대 GPU 기계 학습

다음은 Epoch당 다양한 배치 크기와 반복을 사용하는 CPU 및 GPU에 대한 훈련 시간입니다.

반복 횟수/에포크 수: 100, 배치 크기: 1000, 총 에포크: 25, 매개변수: 1.84M, 모델 유형: Keras Mobilenet V1(알파 0.75).

Accelerator	GPU(NVIDIA K80)	열가소성 폴리우레탄
훈련 정확도(%)	96.5	94.1
검증 정확도(%)	65.1	68.6
반복당 시간(ms)	69	173
시대당 시간(초)	69	173
총 시간(분)	30	72

반복 횟수: 1000, 배치 크기: 100, 총 신기원: 25, 매개변수: 1.84M, 모델 유형: Keras Mobilenet V1(알파 0.75)

Accelerator	GPU(NVIDIA K80 )	열가소성 폴리우레탄
훈련 정확도(%)	97.4	96.9
검증 정확도(%)	45.2	45.3
각 반복에 대한 시간(ms)	185	252
시대당 시간(초)	18	25
총 시간(분)	16	21

훈련 시간에서 볼 수 있듯이 TPU는 더 작은 배치 크기로 더 긴 훈련 시간이 필요합니다. 그러나 배치 크기가 증가할수록 TPU 성능은 GPU에 가까워집니다.

따라서 TPU와 GPU 교육을 비교할 때 에포크 및 배치 크기와 많은 관련이 있습니다.

TPU 대 GPU 벤치마크

0.5W/TOPS로 단일 Edge TPU는 초당 4조 개의 작업을 수행할 수 있습니다. 이것이 애플리케이션 성능으로 얼마나 잘 변환되는지에 영향을 미치는 몇 가지 변수가 있습니다.

신경망 모델은 요구 사항이 다르며 전체 출력은 USB 가속기 장치의 호스트 USB 속도, CPU 및 기타 시스템 리소스에 따라 달라집니다.

이를 염두에 두고 아래 그래프는 다양한 표준 모델을 사용하여 Edge TPU에서 단일 추론을 수행하는 데 걸리는 시간을 비교합니다. 물론, 비교 목적으로 실행되는 모든 모델은 TensorFlow Lite 버전입니다.

위의 데이터는 모델을 실행하는 데 필요한 시간을 나타냅니다. 그러나 애플리케이션 및 시스템에 따라 달라지는 입력 데이터를 처리하는 데 필요한 시간은 포함되지 않습니다.

GPU 벤치마크 결과를 사용자가 기대하는 게임 품질 설정 및 해상도와 비교하세요.

70,000개 이상의 벤치마크 평가를 바탕으로 우리는 90% 신뢰할 수 있는 게임 성능 추정치를 생성하기 위해 정교한 알고리즘을 신중하게 구축했습니다.

그래픽 카드 성능은 게임마다 다르지만 아래 비교 차트는 일부 그래픽 카드에 대한 광범위한 등급 지수를 제공합니다.

TPU vs GPU 가격

가격 차이가 큽니다. TPU는 GPU보다 비용이 5배 더 비쌉니다. 다음은 몇 가지 예입니다.

Nvidia Tesla P100 GPU 시간당 $1.46
Google TPU v3 시간당 $8.00
GCP 주문형 액세스가 포함된 TPUv2 시간당 $4.50

비용 최적화가 목표라면 다음 중 하나를 선택해야 합니다. TPU는 GPU보다 5배 빠르게 모델을 훈련하는 경우에만 해당됩니다.

CPU, GPU, TPU의 차이점은 무엇인가요?

TPU, GPU, CPU의 차이점은 CPU는 컴퓨터의 모든 계산, 논리, 입력 및 출력을 처리하는 비특정 목적 프로세서라는 것입니다.

반면, GPU는 그래픽 인터페이스(GI)를 개선하고 고급스러운 활동을 수행하는 데 사용되는 추가 프로세서입니다. TPU는 TensorFlow와 같은 특정 프레임워크를 사용하여 개발된 프로젝트를 실행하는 데 사용되는 강력한 특수 프로세서입니다.

우리는 이를 다음과 같이 분류합니다:

중앙 처리 장치(CPU) – 컴퓨터의 모든 측면을 제어합니다.
그래픽 처리 장치(GPU) – 컴퓨터의 그래픽 성능을 향상시킵니다.
Tensor 처리 장치(TPU) – TensorFlow용으로 설계되었습니다. ASIC은 NVIDIA가 만든 프로젝트

를 위해 설계되었나요?

많은 사람들이 NVIDIA가 Google의 TPU에 어떻게 대응할지 궁금해했지만 이제 답을 얻었습니다.

NVIDIA는 걱정하지 않고 TPU를 합리적일 때 사용할 수 있는 도구로 성공적으로 재배치하면서도 여전히 CUDA 소프트웨어와 GPU를 최전선에 유지했습니다.

기술을 오픈소스화하여 IoT 머신러닝 도입을 위한 제어점을 유지합니다. 그러나 이 접근 방식의 위험은 데이터 센터 추론 엔진에 대한 NVIDIA의 장기 목표에 도전할 수 있는 개념을 알릴 수 있다는 것입니다.

GPU나 TPU가 더 좋나요?

결론적으로 TPU를 효율적으로 사용할 수 있는 알고리즘을 개발하는 데 추가 비용이 발생하더라도 일반적으로 훈련 비용 절감이 추가 프로그래밍 비용보다 크다고 말해야 합니다.

TPU를 선택하는 또 다른 이유는 v3-128이 Nvidia GPU에 비해 8G의 비디오 메모리를 가지고 있어 v3-8이 NLU 및 NLP와 관련된 대규모 데이터 세트를 처리하는 데 더 나은 선택이라는 사실을 포함합니다.

속도가 높을수록 개발 주기의 반복 속도가 빨라져 더 빠르고 빈번한 혁신이 이루어지며 시장 성공 가능성이 높아집니다.

TPU는 혁신 속도, 사용 용이성, 경제성 측면에서 GPU보다 뛰어납니다. 소비자와 클라우드 설계자는 ML 및 AI 계획에서 TPU를 고려해야 합니다.

Google의 TPU는 사용자가 과부하가 발생하지 않도록 데이터 입력을 조정해야 할 만큼 충분한 처리 능력을 갖추고 있습니다.

그것으로 TPU와 GPU의 전체 비교입니다. 우리는 귀하의 생각을 알고 싶고, 테스트를 수행했는지, TPU 및 GPU에서 어떤 결과를 얻었는지 알고 싶습니다.

Windows 11용 최고의 그래픽 카드를 사용하면 몰입형 PC 환경을 즐길 수 있다는 점을 기억하세요.

위 내용은 TPU와 GPU: 실제 시나리오의 성능과 속도 비교 차이의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

batch 架构 edge 循环 windows 算法人工智能 tensorflow keras nlp 物联网数据中心

성명：

이 기사는 yundongfang.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Windows 11 Insiders는 이제 창 모드에서 실행되는 레거시 게임에 대해 최적화되었습니다.다음 기사：Windows 11 Insiders는 이제 창 모드에서 실행되는 레거시 게임에 대해 최적화되었습니다.