>  기사  >  기술 주변기기  >  Meta는 2개의 새로운 10,000개 카드 클러스터를 추가하고 거의 50,000개의 NVIDIA H100 GPU를 투자했습니다.

Meta는 2개의 새로운 10,000개 카드 클러스터를 추가하고 거의 50,000개의 NVIDIA H100 GPU를 투자했습니다.

WBOY
WBOY앞으로
2024-03-15 09:34:13657검색

Meta新增两大万卡集群,投入近50000块英伟达H100 GPU

Meta는 최근 곧 출시될 Llama 3을 포함한 차세대 생성 AI 모델의 훈련을 지원하기 위해 두 개의 강력한 GPU 클러스터를 출시했습니다.

두 데이터 센터 모두 이전에 출시된 것보다 더 크고 복잡한 생성 AI 모델을 지원하도록 설계된 최대 24,576개의 GPU를 장착한 것으로 알려졌습니다.

인기 있는 오픈 소스 알고리즘 모델인 Meta의 Llama는 OpenAI의 GPT 및 Google의 Gemini와 비슷합니다.

Meta는 AI 클러스터의 규모를 새로 고칩니다.

Geek.com에 따르면 이 두 GPU 클러스터에는 NVIDIA의 가장 강력한 H100 GPU가 탑재되어 있으며, 이는 이전에 Meta가 출시한 대규모 클러스터보다 훨씬 큽니다. 이전에 Meta의 클러스터에는 약 16,000개의 Nvidia A100 GPU가 있었습니다.

Meta가 수천 대의 Nvidia 최신 GPU를 구입한 것으로 알려졌습니다. 시장 조사 회사인 Omdia는 최신 보고서에서 Meta가 Nvidia의 가장 중요한 고객 중 하나가 되었다고 지적했습니다.

Meta 엔지니어들은 새로운 GPU 클러스터를 사용하여 기존 AI 시스템을 미세 조정하여 Llama 3를 비롯한 더욱 새롭고 강력한 AI 시스템을 훈련할 계획이라고 발표했습니다.

엔지니어는 Llama 3의 개발이 현재 '진행 중'이라고 지적했지만 언제 출시될지는 공개하지 않았습니다.

Meta의 장기적인 목표는 일반 인공지능(AGI) 시스템을 개발하는 것입니다. AGI는 창의성 측면에서 인간에 더 가깝고 기존 생성 AI 모델과 크게 다르기 때문입니다.

새로운 GPU 클러스터는 Meta가 이러한 목표를 달성하는 데 도움이 될 것입니다. 또한 회사는 더 많은 GPU를 지원하기 위해 PyTorch AI 프레임워크를 개선하고 있습니다.

두 개의 GPU 클러스터는 서로 다른 아키텍처를 사용합니다.

두 클러스터의 GPU 수가 정확히 동일하고 초당 400GB 엔드포인트에서 서로 연결할 수 있지만 서로 다른 아키텍처를 사용한다는 점은 언급할 가치가 있습니다.

그 중 GPU 클러스터는 Wedge400 및 Minipack2 OCP 랙 스위치와 함께 Arista Networks의 Arista 7800을 사용하여 구축된 통합 이더넷 네트워크 패브릭을 통해 직접 메모리 또는 RDMA에 원격으로 액세스할 수 있습니다. 또 다른 GPU 클러스터는 Nvidia의 Quantum2 InfiniBand 네트워크 패브릭 기술을 사용하여 구축되었습니다.

두 클러스터 모두 대규모 AI 워크로드를 지원하도록 설계된 Meta의 개방형 GPU 하드웨어 플랫폼인 Grand Teton을 사용합니다. Grand Teton은 이전 버전인 Zion-EX 플랫폼에 비해 호스트-GPU 대역폭이 4배, Zion-EX보다 2배의 컴퓨팅 성능, 대역폭 및 성능을 제공합니다.

Meta는 이 두 클러스터가 최신 개방형 랙 전원 및 랙 인프라를 채택하여 데이터 센터 설계에 더 큰 유연성을 제공한다고 말했습니다. Open Rack v3을 사용하면 전원 랙을 버스바에 고정하지 않고 랙 내부 어느 곳에나 장착할 수 있으므로 보다 유연한 구성이 가능합니다.

Meta新增两大万卡集群,投入近50000块英伟达H100 GPU

또한 랙당 서버 수를 맞춤 설정할 수 있어 각 서버의 처리 용량 측면에서 보다 효과적인 균형을 유지할 수 있습니다.

스토리지 측면에서 이 두 GPU 클러스터는 YV3 Sierra Point 서버 플랫폼을 기반으로 하며 가장 진보된 E1.S 솔리드 스테이트 드라이브를 사용합니다.

더 많은 GPU가 출시되고 있습니다

Meta 엔지니어들은 기사에서 회사가 AI 하드웨어 스택의 개방형 혁신에 전념하고 있음을 강조했습니다. "미래를 바라보면서 우리는 이전에 효과가 있었던 것이나 현재의 것이 미래의 요구 사항을 충족하기에 충분하지 않을 수 있다는 것을 인식합니다. 이것이 바로 우리가 인프라를 지속적으로 평가하고 개선하는 이유입니다.

Meta는 최근 결성된 AI Alliance의 회원입니다." . 이 동맹은 AI 개발의 투명성과 신뢰를 높이고 모든 사람이 혁신의 혜택을 누릴 수 있도록 보장하는 개방형 생태계를 만드는 것을 목표로 합니다.

Meta는 또한 더 많은 Nvidia H100 GPU를 계속 구매할 것이며 올해 말까지 350,000개 이상의 GPU를 보유할 계획이라고 밝혔습니다. 이러한 GPU는 계속해서 AI 인프라를 구축하는 데 사용될 것이며, 이는 앞으로 점점 더 강력한 GPU 클러스터를 사용할 수 있음을 의미합니다.

위 내용은 Meta는 2개의 새로운 10,000개 카드 클러스터를 추가하고 거의 50,000개의 NVIDIA H100 GPU를 투자했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제