>  기사  >  기술 주변기기  >  Ant의 오픈 소스 분산 훈련 확장 라이브러리 AToch는 대규모 모델 훈련 컴퓨팅 성능의 60%에 달하는 유효 활용률을 달성합니다.

Ant의 오픈 소스 분산 훈련 확장 라이브러리 AToch는 대규모 모델 훈련 컴퓨팅 성능의 60%에 달하는 유효 활용률을 달성합니다.

WBOY
WBOY앞으로
2024-01-14 19:57:121338검색

Ant Group은 최근 오픈 소스 도구인 ATorch라는 대규모 모델 분산 훈련 가속화 확장 라이브러리의 출시를 발표했습니다. ATorch의 목표는 자동 리소스 동적 최적화 및 분산 학습 안정성 향상을 통해 딥러닝의 지능 향상을 돕는 것입니다. 대규모 모델 훈련에서 ATorch는 수천억 개의 모델에 대한 킬로칼로리 수준 훈련의 컴퓨팅 파워 활용률을 60%까지 높일 수 있는 것으로 이해됩니다. 이는 스포츠카에 강력한 엔진을 추가하는 것과 같습니다. 이는 딥 러닝 연구원과 개발자가 대형 모델을 보다 효율적으로 훈련하고 최적화하는 데 도움이 되는 중요한 도구가 될 것입니다.

Ant의 오픈 소스 분산 훈련 확장 라이브러리 AToch는 대규모 모델 훈련 컴퓨팅 성능의 60%에 달하는 유효 활용률을 달성합니다.사진: ATorch는 대규모 모델 교육을 더욱 효율적이고 재현 가능하게 만들기 위해 최선을 다하고 있습니다

생성형 대규모 모델이 폭발적으로 증가함에 따라 모델 교육을 위한 데이터 세트 및 매개 변수의 규모가 기하급수적으로 증가했습니다. 이 거대 기업의 교육 요구 사항을 충족하고 모델을 빠르게 반복하기 위해 분산 교육이 솔루션 중 하나가 되었습니다. 이 분야에서는 PyTorch 및 TensorFlow와 같은 딥 러닝 프레임워크가 모델 구축 및 교육에 널리 채택됩니다. 대규모 모델 훈련에 더 잘 적응하기 위해 업계에서는 많은 노력을 기울여 왔으며 그 중 하나가 Ant의 오픈 소스 ATorch 툴킷입니다. ATorch는 대규모 모델 훈련에 더 적합한 기능과 도구를 갖춘 PyTorch와 같은 딥 러닝 프레임워크를 제공하여 개발자와 연구원이 모델 훈련 작업을 보다 효율적으로 완료할 수 있도록 돕습니다. 이 툴킷의 오픈 소스는 대규모 모델 교육의 개발을 더욱 촉진하고 연구 및 응용 분야에 더 많은 기회와 도전을 가져올 것입니다.

ATorch는 명확한 기능과 포괄적인 디자인을 갖춘 계층형 아키텍처 디자인을 채택하여 개발자에게 매우 간소화된 개발 경험과 선도적인 안정성 보장을 제공할 수 있는 것으로 이해됩니다. 여기에는 주로 통합 분산 최적화 전략 구성 인터페이스, 자동 분산 전략 검색, 자동 탄력적 내결함성, 효율적인 동적 메모리 관리 라이브러리, 자체 개발한 최적화 프로그램 가속 수렴과 같은 핵심 기능이 포함됩니다. PyTorch 프레임워크의 고성능 확장 가속 라이브러리인 ATorch는 사용자 코드 침입을 최소화하고 수천억 개의 매개변수가 있는 대형 모델의 킬로 카드 수준 훈련을 위한 사용하기 쉬운 고성능 솔루션을 제공할 수 있습니다.

최근 ATorch는 오픈 소스 모델을 대상으로 한 대규모 모델 훈련 최적화 실행에서 탁월한 결과를 얻었습니다. 예를 들어, Tsinghua University의 오픈 소스 GLM-65b 대형 모델의 킬로칼로리 사전 학습 컴퓨팅 전력 활용률을 28.8%에서 62%로 성공적으로 높이고 LLama2-70b 대형 모델의 사전 학습 컴퓨팅 전력 활용률을 높였습니다. Meta가 개발한 수치는 28.8%에서 62%로 42%에서 60%로 증가했고, 영국 AI 기업 Stability AI가 개발한 대규모 멀티모달 모델인 Stable Diffusion의 훈련 컴퓨팅 파워 활용률도 21.8%에서 58.7%로 증가했습니다. . 또한, ATorch는 킬로칼로리 훈련 안정성 측면에서 좋은 성능을 보였습니다. 일일 평균 순수 훈련 시간은 95%로 증가했으며, ckpt 저장 시간은 1분 이내로 제어되며, 훈련 다시 시작 시간은 가장 빠른 경우 5분만 소요되어 도달합니다. 업계 최고 수준에 도달했습니다.

현재 ATorch는 클라우드 네이티브 기술을 기반으로 구축된 지능형 분산 딥 러닝 시스템인 Ant Group의 오픈 소스 제품 DLRover에 통합되었습니다. ATorch를 추가하면 대규모 모델 개발자가 지루한 엔지니어링 세부 사항을 처리할 필요 없이 모델 아키텍처 설계에 더 집중할 수 있으므로 교육 효율성과 지능이 향상됩니다.

위 내용은 Ant의 오픈 소스 분산 훈련 확장 라이브러리 AToch는 대규모 모델 훈련 컴퓨팅 성능의 60%에 달하는 유효 활용률을 달성합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제