NVIDIA, 당신이 승리했습니다!
방금 끝난 GTC 컨퍼런스에서 "생성 AI"로 가득 찬 화면과 ChatGPT 컴퓨팅 성능을 지원하고 속도를 10배로 높이는 H100 NVLINK 칩을 갖춘 Huang은 거의 다음과 같은 말을 얼굴에 쓸 뻔했습니다. 승자".
ChatGPT, Microsoft 365, Azure, Stable Diffusion, DALL-E, Midjourney...이러한 인기 있고 폭발적인 AI 제품 모두 NVIDIA에서 공유할 수 있습니다.
올해 초 ChatGPT의 세계적인 인기로 인해 Nvidia의 주가가 급등했으며, 시장 가치가 700억 달러 이상 직접적으로 증가했습니다. 현재 Nvidia의 시장 가치는 6,400억 달러입니다.
이제 iPhone의 AI 순간이 도래하고 4차 기술 혁명이 시작될 예정이며 A100과 H100을 갖춘 Nvidia가 가장 큰 승자가 될 수 있습니다.
GTC 컨퍼런스에서 Huang은 GPU, 가속 라이브러리, 전산 리소그래피 및 클라우드 플랫폼 분야에서 NVIDIA의 놀라운 발전을 발표했으며 심지어 대담한 성명도 발표했습니다. NVIDIA는 AI 분야에서 TSMC가 될 것입니다!
일부 사람들은 오늘의 연설이 모두 H100의 AIGC 모델을 사용하여 생성되었다고 추측했습니다.
이번 컨퍼런스에서 가장 큰 발표는 ChatGPT용으로 제작된 NVIDIA H100 NVLINK입니다.
컴퓨팅 성능에 대한 엄청난 수요로 인해 NVIDIA는 듀얼 GPU NVLINK, 94B 메모리가 장착된 ChatGPT, PCIE H100과 같은 LLM 추론을 위한 새로운 Hopper GPU를 출시했습니다.
사실 딥러닝의 역사는 2012년부터 NVIDIA와 긴밀하게 연관되어 왔습니다.
Lao Huang은 2012년 딥 러닝 베테랑 Hinton과 학생 Alex Kerchevsky, Ilya Suskever가 AlexNet을 교육할 때 GeForce GTX 580을 사용했다고 말했습니다.
이후 AlexNet은 ImageNet 이미지 분류 대회에서 단숨에 우승하며 딥러닝 폭발의 특이점이 되었습니다.
그리고 10년 후 OpenAI의 Ilya Suskever도 NVIDIA의 DGX를 사용하여 ChatGPT 뒤에서 GPT3 및 GPT3.5를 교육했습니다.
Lao Huang은 현재 ChatGPT를 실제로 처리할 수 있는 클라우드의 유일한 GPU는 HGX A100이라고 자랑스럽게 말했습니다.
하지만 A100에 비해 H100 4쌍과 듀얼 GPU NVLINK를 탑재한 서버는 10배 빠릅니다! H100은 LLM 처리 비용을 몇 배나 줄일 수 있기 때문입니다.
생성 AI가 기회의 물결을 만들어 추론 워크로드가 단계적으로 증가함에 따라 AI는 변곡점에 있습니다.
과거에는 생성 AI를 처리하기 위한 클라우드 데이터 센터를 설계하는 것이 큰 도전이었습니다.
하나의 가속기를 사용하여 데이터 센터를 탄력적으로 만드는 것이 이상적으로 더 좋지만, 다른 한편으로는 알고리즘, 모델, 데이터 유형 및 크기의 다양성을 최적으로 처리할 수 있는 가속기는 없습니다. Nvidia의 One Architecture 플랫폼은 가속 기능과 유연성을 모두 갖추고 있습니다.
그리고 오늘 NVIDIA는 새로운 추론 플랫폼의 출시를 발표했습니다. 각 구성은 특정 유형의 워크로드에 최적화되어 있습니다.
예를 들어, AI 비디오 워크로드를 위해 NVIDIA는 비디오 디코딩 및 트랜스코딩, 비디오 콘텐츠 검토, 화상 통화 기능을 최적화한 L4를 출시했습니다.
그리고 8-GPU L4 서버는 AI 비디오 처리에 사용되는 100개 이상의 듀얼 소켓 CPU 서버를 대체할 것입니다.
동시에 NVIDIA는 Omniverse, 그래픽 렌더링, 텍스트-이미지/비디오 등 생성 AI를 위한 L40도 출시했습니다. 성능은 Nvidia의 가장 인기 있는 클라우드 추론 GPU T4의 10배입니다.
현재 Runway에서 출시한 Gen-1 및 Gen-2 생성 AI 모델의 강력한 기능은 NVIDIA GPU에 의존합니다.
또한 NVIDIA는 추천 시스템 및 벡터 데이터베이스에 적합한 새로운 슈퍼 칩 Grace-Hopper를 출시했습니다.
칩 분야에서 NVIDIA는 TSMC, ASML, Synopsys와 함께 4년 만에 마침내 전산 리소그래피 기술의 획기적인 발전을 이루었습니다. - NVIDIA cuLitho 전산 리소그래피 케쿠.
2nm 공정의 한계에 도달한 후, 포토리소그래피가 획기적인 포인트입니다.
전산 리소그래피는 빛이 광학 요소를 통과한 후 포토레지스트와 상호 작용할 때 빛의 동작을 시뮬레이션합니다. 역물리 알고리즘을 적용하여 마스크의 패턴을 예측하여 웨이퍼의 최종 패턴을 생성할 수 있습니다.
전산 리소그래피는 칩 설계 및 제조 분야에서 가장 큰 컴퓨팅 작업량으로 매년 수백억 개의 CPU 시간을 소비합니다. 이와 대조적으로 NVIDIA가 만든 새로운 알고리즘을 사용하면 점점 더 복잡해지는 전산 리소그래피 워크플로우를 GPU에서 병렬로 실행할 수 있습니다.
요약하자면, cuLitho는 컴퓨팅 속도를 40배 향상시킬 수 있을 뿐만 아니라 전력 소비를 최대 9배까지 줄일 수 있습니다.
예를 들어 Nvidia의 H100에는 89개의 마스크가 필요합니다.
CPU로 처리하는 경우 각 마스크는 2주가 소요됩니다. GPU에서 cuLitho를 실행하면 마스크를 처리하는 데 8시간밖에 걸리지 않습니다.
또한 TSMC는 500개의 DGX H100 시스템에서 4,000개의 Hopper GPU를 사용하여 이전에 최대 40,000개의 CPU 기반 서버가 필요했던 작업을 완료할 수 있으며 전력은 35MW에서 5MW로 감소됩니다.
cuLitho 가속 라이브러리가 Ampere 및 Volta 아키텍처 GPU와도 호환된다는 점은 주목할 가치가 있지만 Hopper가 가장 빠른 솔루션입니다.
Lao Huang은 포토리소그래피 기술이 이미 물리학의 한계에 도달했기 때문에 웨이퍼 공장에서는 생산량을 늘리고 2nm 이상의 개발을 준비할 수 있다고 말했습니다.
AI의 iPhone Moment
지난 몇 달 동안 ChatGPT는 압도적이었고 4차 기술 혁명을 시작하려고 합니다. “우리는 아이폰 AI 시대에 있다”는 말도 널리 퍼지고 있다.
GTC 컨퍼런스에서 Lao Huang은 이 문장을 세 번이나 신나게 반복했습니다.
iPhone 시대가 다가오고 있습니다. OpenAI와 같은 스타트업은 파괴적인 제품과 비즈니스 모델을 구축하기 위해 경쟁하고 있는 반면, Google 및 Microsoft와 같은 기존 기업은 이에 대처할 방법을 찾고 있습니다.
그들의 모든 행동은 전 세계적으로 생성 AI를 통해 촉발된 AI 전략 수립에 대한 긴박감에서 비롯됩니다.
NVIDIA 가속 컴퓨팅은 현재 대규모 언어 모델의 혁신을 뒷받침하는 엔진이기도 한 DGX AI 슈퍼컴퓨터에서 시작됩니다.
GTC에서 Lao Huang은 제가 직접 세계 최초의 DGX를 OpenAI에 넘겼다고 자랑스럽게 말했습니다.
그 이후로 Fortune 100대 기업 중 절반이 DGXAI 슈퍼컴퓨터를 설치했습니다.
DGX에는 8개의 H100 GPU 모듈이 탑재되어 있으며, H100에는 ChatGPT와 같은 놀라운 모델을 처리할 수 있는 Transformer 엔진이 탑재되어 있습니다.
8개의 H100 모듈은 NVLINK 스위치를 통해 서로 연결되어 포괄적인 비차단 통신을 구현합니다. 8개의 H100이 거대한 GPU처럼 함께 작동합니다.
Lao Huang을 더욱 흥미롭게 만드는 것은 Microsoft가 Azure가 H100 AI 슈퍼컴퓨터의 비공개 미리 보기 버전을 공개할 것이라고 발표했다는 것입니다.
그리고 "DGX 슈퍼컴퓨터는 현대 AI 공장입니다. 우리는 iPhone의 AI 시대에 있습니다."라고 말했습니다.
지난 10년 동안 가속과 수직의 결합 확장을 통해 다양한 애플리케이션이 수백, 만 배의 성능 향상을 달성할 수 있게 되었습니다.
가장 인상적인 사례는 2012년 AlexNet 딥러닝 프레임워크 도입입니다.
당시 Alex Krizhevsky, Ilya Suskever 및 Hinton은 262페타플롭의 부동 소수점 연산을 처리할 수 있는 GeForce GTX 580에서 1,400만 개의 이미지를 사용하여 훈련을 완료했습니다.
10년 후, 트랜스포머가 나왔습니다.
Ilya Suskever는 다음 단어를 예측하도록 GPT-3를 교육했는데, 이는 AlexNet 모델을 교육하는 것보다 백만 배 더 많은 부동 소수점 연산이 필요했습니다.
그래서 세상을 놀라게 한 AI, ChatGPT가 탄생했습니다.
라오황의 한 문장으로 요약하자면:
이것은 새로운 컴퓨팅 플랫폼이 탄생하고 AI의 "iPhone 순간"이 도래했음을 의미합니다. 가속 컴퓨팅과 AI 기술이 현실로 들어왔습니다.
가속 라이브러리는 가속 컴퓨팅의 핵심입니다. 이러한 가속 라이브러리는 다양한 애플리케이션을 연결하고, 이후 다양한 산업과 연결되어 네트워크 내에서 네트워크를 형성합니다.
30년간의 개발 끝에 과학 및 산업의 거의 모든 분야를 포괄하는 수천 개의 애플리케이션이 NVIDIA 라이브러리에 의해 가속화되었습니다.
현재 모든 NVIDIA GPU는 CUDA와 호환됩니다.
기존 300개의 가속 라이브러리와 400개의 AI 모델은 양자 컴퓨팅, 데이터 처리, 기계 학습 등 광범위한 분야를 포괄합니다.
이번 GTC 컨퍼런스에서 Nvidia는 그 중 100개를 업데이트했다고 발표했습니다.
NVIDIA Quantum 플랫폼은 연구자가 양자 프로그래밍 모델, 시스템 아키텍처 및 알고리즘을 발전시킬 수 있는 라이브러리와 시스템으로 구성됩니다.
cuQuantum은 IBM 및 Baidu와 같은 회사에서 이 가속 라이브러리를 시뮬레이션 프레임워크에 통합했습니다.
Open Quantum CUDA는 NVIDIA의 하이브리드 GPU-Quantum 프로그래밍 모델입니다.
Nvidia는 Quantum Machines와 협력하여 개발된 양자 제어 링크 출시도 발표했습니다. Nvidia GPU를 양자 컴퓨터에 연결하여 매우 빠른 속도로 오류 수정을 수행할 수 있습니다.
인덱싱, 데이터 로딩 및 최근접 이웃 검색 속도를 높이기 위해 새로운 RAFT 라이브러리도 출시되었습니다.
또한 NVIDIA는 DGX를 기반으로 구축되고 최신 오픈 소스 CUDA Quantum을 활용하는 DGX Quantum도 발표했습니다. 이 새로운 플랫폼은 양자 컴퓨팅에 종사하는 연구자에게 혁신적인 고성능 및 저지연 아키텍처를 제공합니다.
NVIDIA는 데이터 센터 전체에서 Triton 추론 인스턴스를 자동으로 확장하고 조정하는 NVIDIA Triton 관리 서비스 소프트웨어도 출시했습니다. GPT-3와 같은 대규모 언어 모델의 다중 GPU 및 다중 노드 추론에 적합합니다.
컴퓨터 비전용 CV-CUDA와 비디오 처리용 VPF는 NVIDIA의 새로운 클라우드 규모 가속 라이브러리입니다.
Lao Huang은 CV-CUDA Beta가 전처리 및 후처리를 최적화하여 더 높은 클라우드 처리량을 달성하고 비용과 에너지 소비를 1/4로 줄인다고 발표했습니다.
현재 Microsoft는 시각적 검색을 처리하고 Runway는 CV-CUDA 및 VRF 라이브러리를 사용하는 생성 AI 비디오 처리 프로세스를 처리합니다.
또한 NVIDIA 가속 컴퓨팅은 유전체학이 획기적인 발전을 달성하는 데도 도움이 되었습니다. NVIDIA 기반 기기를 사용하여 전체 게놈 시퀀싱 비용을 100달러로 줄이는 것은 또 다른 이정표가 되었습니다.
NVIDIA Parabrics 가속 라이브러리는 클라우드 또는 기기 내에서 엔드투엔드 게놈 분석에 사용할 수 있으며 다양한 퍼블릭 클라우드 및 게놈학 플랫폼에 적합합니다.
이제 ChatGPT, Stable Diffusion, DALL-E 및 Midjourney가 생성 AI에 대한 세계의 인식을 일깨웠습니다.
인기 치킨챗GPT는 출시 2개월 만에 월간 사용자 1억 명을 돌파하며 역사상 가장 빠르게 성장하는 애플리케이션으로 자리매김했습니다.
컴퓨터라고 할 수 있죠. 텍스트를 생성하고, 시를 쓰고, 연구 논문을 다시 작성하고, 수학 문제를 해결하고, 심지어 프로그래밍까지 할 수 있습니다.
많은 획기적인 결과가 오늘날의 생성 AI를 탄생시켰습니다.
Transformer는 대규모 병렬 방식으로 데이터의 관계와 종속성으로부터 컨텍스트와 의미를 학습할 수 있습니다. 이를 통해 LLM은 엄청난 양의 데이터로부터 학습하고 명시적인 교육 없이 다운스트림 작업을 수행할 수 있습니다.
또한 물리학에서 영감을 받은 확산 모델은 비지도 학습을 통해 이미지를 생성할 수 있습니다.
Lao Huang은 불과 12년 만에 고양이를 식별하는 것에서 우주복을 입고 달 위를 걷는 고양이를 생성하는 것으로 발전했다고 결론지었습니다.
이제 생성 AI는 새로운 종류의 컴퓨터, 인간의 언어로 프로그래밍할 수 있는 컴퓨터라고 할 수 있습니다.
예전에는 컴퓨터에게 문제를 해결하라고 명령하는 것이 프로그래머만의 특권이었다면, 이제는 누구나 프로그래머가 될 수 있습니다.
Bill Gates와 마찬가지로 Huang도 비슷한 정의를 내렸습니다. Generative AI는 PC, 인터넷, 모바일 장치 및 클라우드와 유사한 새로운 컴퓨팅 플랫폼입니다.
Debuild를 통해 우리가 원하는 것이 무엇인지 명확히 하면 웹 애플리케이션을 직접 설계하고 배포할 수 있습니다.
생성 AI가 거의 모든 산업을 변화시킬 것이라는 것은 분명합니다.
이러한 맥락에서 전문 기업은 자체 독점 데이터를 활용하여 맞춤형 모델을 구축해야 합니다.
그런 다음 Lao Huang은 맞춤형 대형 언어 모델을 구축하려면 업계에 TSMC와 유사한 파운드리가 필요하다고 자랑스럽게 발표했으며 NVIDIA가 바로 이 "TSMC"입니다!
컨퍼런스에서 NVIDIA는 고객이 LLM 및 생성 AI를 맞춤 설정할 수 있는 NVIDIA AI Foundations 클라우드 서비스 출시를 발표했습니다.
이 클라우드 서비스에는 언어, 시각 및 생물학적 모델 제작 서비스가 포함됩니다.
그 중 Nemo는 맞춤형 언어 텍스트-텍스트 생성 모델을 구축하는 데 사용됩니다.
그리고 Picasso는 이미지, 비디오, 3D 애플리케이션을 포함한 맞춤형 모델을 훈련하는 데 사용할 수 있는 시각적 언어 모델 메이커입니다.
텍스트 프롬프트와 메타데이터가 포함된 API 호출을 Picasso에 보내면 Picasso는 DGX Cloud의 모델을 사용하여 생성된 자료를 애플리케이션에 다시 보냅니다.
더 놀라운 점은 이러한 자료를 NVIDIA Omniverse로 가져오면 현실적인 메타버스 애플리케이션과 디지털 트윈 시뮬레이션을 구축할 수 있다는 것입니다.
또한 NVIDIA는 Shutterstock과 협력하여 Edify-3D 생성 모델을 개발하고 있습니다.
동시에 NVIDIA와 Adobe 간의 협력은 계속 확장되어 생성 AI를 마케터와 창의적인 사람들의 일상적인 작업 흐름에 통합하고 아티스트의 저작권 보호에 특별한 관심을 기울이고 있습니다.
세 번째 분야는 생물학입니다.
오늘날 의약품 연구개발 산업의 가치는 거의 2조 위안에 이르렀으며, R&D 투자액은 최대 2,500억 달러에 이릅니다.
NVIDIA Clara는 이미징, 계측, 게놈 분석 및 약물 개발을 위한 의료 및 건강 애플리케이션 프레임워크입니다.
최근 생물권에서 인기 있는 방향은 생성 AI를 활용해 질병 대상을 발굴하고 새로운 분자나 단백질 약물을 설계하는 것입니다.
이에 따라 BIONEMO를 통해 사용자는 독점 데이터를 사용하여 AlphaFold, ESMFold 및 OpenFold와 같은 단백질 예측 모델을 포함한 맞춤형 모델을 생성, 미세 조정 및 제공할 수 있습니다.
마지막으로 Lao Huang은 NVIDIA AI Foundations가 맞춤형 언어 모델과 생성 AI를 구축하기 위한 클라우드 서비스이자 파운드리라고 결론지었습니다.
라오황 클라우드 서비스, 월 임대료는 US$36,999
NVIDIA도 이번에 클라우드 서비스를 출시했습니다.
NVIDIA AI에 대한 더 간단하고 빠른 액세스에 대한 고객의 요구를 예리하게 파악하여 NVIDIA DGX Cloud를 출시했습니다.
DGX Cloud는 Microsoft Azure, Google GCP 및 Oracle OCI와 협력하고 있습니다. 브라우저와 NVIDIA DGX AI 슈퍼컴퓨터만 있으면 모든 회사에 즉시 액세스할 수 있습니다!
이 클라우드에서는 NVIDIA AI Enterprise 가속 라이브러리 제품군을 실행하여 AI의 엔드 투 엔드 개발 및 배포를 직접 해결할 수 있습니다.
또한 클라우드는 NVIDIA AI뿐만 아니라 전 세계 여러 주요 클라우드 서비스 제공업체도 제공합니다.
그리고 NVIDIA의 첫 번째 NVIDIA DGX Cloud는 OCI(Oracle Cloud Infrastructure)입니다.
OCI에서는 NVIDIA CX-7과 BlueField-3가 결합되어 강력한 슈퍼컴퓨터를 만듭니다.
보고서에 따르면 기업은 이제 월 US$36,999부터 DGX Cloud를 임대할 수 있습니다.
마지막으로 연례 GTC 컨퍼런스인 Omniverse의 예약 프로그램도 있습니다. Lao Huang은 메타버스 플랫폼 Omniverse의 업데이트를 발표했습니다.
이제 Microsoft와 NVIDIA는 수억 명의 Microsoft 365 및 Azure 사용자에게 Omniverse를 제공할 준비를 하고 있습니다.
또한 H100이 규정에 맞게 중국으로 수출될 수 있도록 Lao Huang이 이전 A800의 경험을 바탕으로 특별히 'H800'을 설계하여 칩 간 데이터 전송 속도를 줄였다는 소식이 있습니다. H100 약 50%.
요약하자면, Lao Huang은 이번 컨퍼런스에서 NVIDIA가 AI 분야의 TSMC가 되어 웨이퍼 공장과 같은 OEM을 제공하고 이를 기반으로 업계의 다른 회사가 알고리즘을 훈련할 수 있기를 원한다는 점을 확실히 밝혔습니다.
이 비즈니스 모델이 성공할 수 있을까요?
위 내용은 Lao Huang은 ChatGPT가 사이트를 폭발시키기 위해 특별한 '핵폭탄'을 보유하고 있으며 NVIDIA H100 Extreme Edition은 10배 더 빠릅니다!의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!