찾다
기술 주변기기일체 포함Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

Google은 당시 가장 강력한 AI 칩인 TPU v4를 이르면 2020년에 자체 데이터 센터에 배포했습니다.

하지만 올해 4월 4일이 되어서야 Google은 이 AI 슈퍼컴퓨터의 기술적 세부 사항을 처음으로 발표했습니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

논문 주소: https://arxiv.org/abs/2304.01433

TPU v3에 비해 TPU v4의 성능은 2.1배 향상되었으며, 4096개의 칩을 통합한 후 성능이 향상되었습니다. 슈퍼컴퓨팅 성능이 10배 향상되었습니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

또한 Google은 자체 칩이 NVIDIA A100보다 빠르고 에너지 효율적이라고 주장합니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

A100과 경쟁하면 속도가 1.7배 빠릅니다

문서에서 Google은 비슷한 크기의 시스템에서 TPU v4가 Nvidia A100보다 1.7배 더 나은 성능을 제공하는 동시에 에너지 효율성도 향상시킬 수 있다고 밝혔습니다. 1.9배.

또한 Google의 슈퍼컴퓨팅 속도는 Graphcore IPU Bow보다 약 4.3~4.5배 빠릅니다.

Google은 TPU v4 패키지와 회로 기판에 탑재된 4개의 패키지를 선보였습니다.

TPU v3과 마찬가지로 각 TPU v4에는 2개의 TensorCore(TC)가 포함되어 있습니다. 각 TC에는 4개의 128x128 MXU(행렬 곱셈 장치), 128개 채널(채널당 16개의 ALU)이 있는 벡터 처리 장치(VPU) 및 16MiB 벡터 메모리(VMEM)가 포함되어 있습니다.

두 TC는 128MiB 공통 메모리(CMEM)를 공유합니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

A100 칩이 구글의 4세대 TPU와 동시에 출시되었다는 점에 주목할 필요가 있는데 구체적인 성능을 비교하면 어떨까?

Google은 5개의 MLPerf 벤치마크에서 개별적으로 각 DSA의 가장 빠른 성능을 시연했습니다. 여기에는 BERT, ResNET, DLRM, RetinaNet 및 MaskRCNN이 포함됩니다.

그 중 Graphcore IPU는 BERT 및 ResNET에 결과를 제출했습니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

다음은 ResNet과 BERT에서 두 시스템의 결과를 보여줍니다. 점 사이의 점선은 칩 수에 따른 보간입니다.

TPU v4 및 A100에 대한 MLPerf 결과는 IPU보다 더 큰 시스템으로 확장됩니다(4096 칩 대 256 칩).

비슷한 크기의 시스템에서 TPU v4는 BERT의 A100보다 1.15배 빠르며 IPU보다 약 4.3배 빠릅니다. ResNet의 경우 TPU v4는 각각 1.67배, 약 4.5배 더 빠릅니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

MLPerf 벤치마크의 전력 사용량에서 A100은 평균 1.3배~1.9배 더 많은 전력을 사용했습니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

피크 FLOPS가 실제 성능을 예측합니까? 기계 학습 분야의 많은 사람들은 초당 최대 부동 소수점 연산이 성능을 나타내는 좋은 지표라고 믿지만 실제로는 그렇지 않습니다.

예를 들어 TPU v4는 초당 최대 부동 소수점 연산에서 1.10배의 이점만 있음에도 불구하고 동일한 크기 시스템의 IPU Bow보다 2개의 MLPerf 벤치마크에서 4.3~4.5배 더 빠릅니다.

또 다른 예는 A100의 초당 최대 부동 소수점 연산이 TPU v4의 1.13배이지만 동일한 수의 칩에 대해 TPU v4가 1.15배~1.67배 더 빠르다는 것입니다.

아래에 표시된 것처럼 Roofline 모델은 최대 FLOPS/초와 메모리 대역폭 간의 관계를 보여주는 데 사용됩니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

그래서 질문은 왜 Google이 Nvidia의 최신 H100과 비교하지 않는 걸까요?

Google은 H100이 Google 칩 출시 이후 새로운 기술을 사용하여 만들어졌기 때문에 자사의 4세대 제품을 Nvidia의 현재 주력 제품인 H100 칩과 비교하지 않았다고 밝혔습니다.

그러나 Google은 Nvidia H100과 경쟁하기 위해 새로운 TPU를 개발하고 있음을 암시했지만 자세한 내용은 제공하지 않았습니다. Google 연구원인 Jouppi는 Reuters와의 인터뷰에서 Google이 "미래 칩을 위한 생산 라인"을 보유하고 있다고 말했습니다.

TPU 대 GPU

ChatGPT와 Bard가 "싸움"을 벌이는 동안 두 거대 기업도 이를 계속 실행하기 위해 뒤에서 열심히 노력하고 있습니다. 바로 Nvidia의 CUDA 기반 GPU(그래픽 처리 장치)와 Google의 맞춤형 TPU(Tensor)입니다. 처리 장치).

즉, 이것은 더 이상 ChatGPT 대 Bard가 아니라 TPU 대 GPU와 그들이 행렬 곱셈을 얼마나 효율적으로 수행할 수 있는지에 관한 것입니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

NVIDIA의 GPU는 뛰어난 하드웨어 아키텍처 설계로 인해 행렬 곱셈 작업에 매우 적합합니다. 즉, 여러 CUDA 코어 간의 병렬 처리를 효과적으로 달성하는 것입니다.

따라서 GPU에서의 모델 훈련은 2012년부터 딥러닝 분야에서 합의가 되었으며 오늘날까지도 변함이 없습니다.

NVIDIA DGX 출시로 NVIDIA는 지적 재산권 부족으로 경쟁업체가 제공할 수 없는 거의 모든 AI 작업에 대한 원스톱 하드웨어 및 소프트웨어 솔루션을 제공할 수 있게 되었습니다.

이에 반해 Google은 2016년에 1세대 텐서 처리 장치(TPU)를 출시했습니다. 여기에는 텐서 컴퓨팅에 최적화된 맞춤형 ASIC(Application-Specific Integrated Circuit)이 포함되었을 뿐만 아니라 자체 TensorFlow 프레임워크도 포함되어 있습니다. 최적화되었습니다. 이는 또한 행렬 곱셈 외에 다른 AI 컴퓨팅 작업에서도 TPU에 이점을 제공하고 미세 조정 및 추론 작업을 가속화할 수도 있습니다.

또한 Google DeepMind의 연구원들은 더 나은 행렬 곱셈 알고리즘인 AlphaTensor를 만드는 방법도 발견했습니다.

Google은 자체 개발한 기술과 새로운 AI 컴퓨팅 최적화 방법을 통해 좋은 결과를 얻었음에도 불구하고 Microsoft와 NVIDIA 간의 장기적인 심층 협력은 각자의 축적을 활용하여 양 당사자의 범위를 동시에 확장했습니다. 업계의 경쟁 우위.

4세대 TPU

2021년 Google I/O 컨퍼런스에서 Pichai는 Google의 최신 세대 AI 칩 TPU v4를 처음으로 발표했습니다.

"이것은 우리가 Google에 배포한 시스템 중 가장 빠른 시스템이며 우리에게 역사적인 이정표입니다."

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

이러한 개선은 회사가 AI 슈퍼컴퓨터를 구축하는 계기가 되었습니다. 이것이 경쟁의 핵심 포인트입니다. Google의 Bard 또는 OpenAI의 ChatGPT와 같은 대규모 언어 모델의 매개변수 크기가 폭발적으로 증가했습니다.

이는 단일 칩이 저장할 수 있는 용량보다 훨씬 크고, 컴퓨팅 파워에 대한 수요가 거대한 "블랙홀"이라는 것을 의미합니다.

따라서 이러한 대형 모델은 수천 개의 칩에 분산되어야 하며, 그런 다음 해당 칩은 모델을 훈련하기 위해 몇 주 또는 그 이상 동안 함께 작동해야 합니다.

현재 구글이 공개한 언어 모델 중 최대 규모인 PaLM은 5,400억 개의 매개변수를 갖고 있는데, 이를 4,000칩 슈퍼컴퓨터 2대로 나누어 50일 이내에 학습시킨다.

Google은 자사의 슈퍼컴퓨터가 칩 간의 연결을 쉽게 재구성하여 문제를 방지하고 성능 조정을 수행할 수 있다고 말했습니다.

Google 연구원 Norm Jouppi와 Google의 저명한 엔지니어 David Patterson은 시스템에 대한 블로그 게시물에서 다음과 같이 썼습니다.

"회로 전환을 사용하면 실패한 구성 요소를 쉽게 우회할 수 있습니다. 이러한 유연성을 통해 울트라 컴퓨팅 상호 연결 토폴로지를 변경할 수도 있습니다.

Google은 현재 슈퍼컴퓨터에 대한 세부 정보를 공개하고 있지만 2020년부터 오클라호마에 있었습니다. Mayes County 데이터 센터에서 온라인으로 접속하세요.

Google은 Midjourney가 이 시스템을 사용하여 모델을 훈련했으며 최신 버전의 V5를 사용하면 누구나 놀라운 이미지 생성을 볼 수 있다고 말했습니다.

Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개

최근 Pichai는 New York Times와의 인터뷰에서 Bard가 LaMDA에서 PaLM으로 이적할 것이라고 말했습니다.

이제 TPU v4 슈퍼컴퓨터의 축복으로 바드는 더욱 강해질 것입니다.

위 내용은 Google의 슈퍼 AI 슈퍼컴퓨터가 NVIDIA A100을 압도했습니다! TPU v4 성능 10배 향상, 세부정보 최초 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
신속한 엔지니어링에서 생각의 그래프는 무엇입니까?신속한 엔지니어링에서 생각의 그래프는 무엇입니까?Apr 13, 2025 am 11:53 AM

소개 신속한 엔지니어링에서 "Thought of Thought"는 그래프 이론을 사용하여 AI의 추론 과정을 구성하고 안내하는 새로운 접근법을 나타냅니다. 종종 선형 S와 관련된 전통적인 방법과 달리

Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Genai 에이전트와 함께 조직의 이메일 마케팅을 최적화하십시오Apr 13, 2025 am 11:44 AM

소개 축하해요! 당신은 성공적인 사업을 운영합니다. 웹 페이지, 소셜 미디어 캠페인, 웹 세미나, 컨퍼런스, 무료 리소스 및 기타 소스를 통해 매일 5000 개의 이메일 ID를 수집합니다. 다음 명백한 단계는입니다

Apache Pinot을 사용한 실시간 앱 성능 모니터링Apache Pinot을 사용한 실시간 앱 성능 모니터링Apr 13, 2025 am 11:40 AM

소개 오늘날의 빠르게 진행되는 소프트웨어 개발 환경에서 최적의 애플리케이션 성능이 중요합니다. 응답 시간, 오류율 및 자원 활용과 같은 실시간 메트릭 모니터링 메인이 도움이 될 수 있습니다.

Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Chatgpt가 10 억 명의 사용자를 쳤습니까? Openai CEO는'몇 주 만에 두 배가되었습니다Apr 13, 2025 am 11:23 AM

"얼마나 많은 사용자가 있습니까?" 그는 자극했다. Altman은“마지막으로 우리가 마지막으로 말한 것은 매주 5 억 명의 행위자이며 매우 빠르게 성장하고 있다고 생각합니다. 앤더슨은 계속해서“당신은 나에게 몇 주 만에 두 배가되었다고 말했습니다. “저는 그 개인이라고 말했습니다

Pixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaPixtral -12B : Mistral AI의 첫 번째 멀티 모드 모델 -Anuctics VidhyaApr 13, 2025 am 11:20 AM

소개 Mistral은 최초의 멀티 모드 모델, 즉 Pixtral-12B-2409를 발표했습니다. 이 모델은 Mistral의 120 억 개의 매개 변수 인 NEMO 12B를 기반으로합니다. 이 모델을 차별화하는 것은 무엇입니까? 이제 이미지와 Tex를 모두 가져갈 수 있습니다

생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 Vidhya생성 AI 응용 프로그램을위한 에이전트 프레임 워크 - 분석 VidhyaApr 13, 2025 am 11:13 AM

쿼리에 응답 할뿐만 아니라 자율적으로 정보를 모으고, 작업을 실행하며, 여러 유형의 데이터 (텍스트, 이미지 및 코드를 처리하는 AI 구동 조수가 있다고 상상해보십시오. 미래처럼 들리나요? 이것에서

금융 부문에서 생성 AI의 응용금융 부문에서 생성 AI의 응용Apr 13, 2025 am 11:12 AM

소개 금융 산업은 효율적인 거래 및 신용 가용성을 촉진함으로써 경제 성장을 주도하기 때문에 모든 국가 개발의 초석입니다. 거래가 발생하는 용이성 및 신용

온라인 학습 및 수동 공격 알고리즘 안내온라인 학습 및 수동 공격 알고리즘 안내Apr 13, 2025 am 11:09 AM

소개 소셜 미디어, 금융 거래 및 전자 상거래 플랫폼과 같은 소스에서 전례없는 속도로 데이터가 생성되고 있습니다. 이 지속적인 정보 스트림을 처리하는 것은 어려운 일이지만

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.