>  기사  >  기술 주변기기  >  쉽고 효율적인 Transformer(NetEase 초대형 모델 온라인 추론 엔진)

쉽고 효율적인 Transformer(NetEase 초대형 모델 온라인 추론 엔진)

王林
王林앞으로
2024-01-24 10:45:05387검색

Easy and Efficient Transformer(网易超大模型线上推理引擎)

변압기 기반 모델을 위한 NetEase의 오픈 소스 추론 가속화 프레임워크는 중저가 암페어 아키텍처에서 수백억 개의 모델에 대한 단일 카드 고성능 추론을 지원합니다.

프로젝트 배경

Transformer 기반의 대규모 모델은 여러 분야의 다양한 작업에서 그 효율성이 입증되었습니다. 그러나 이를 산업생산에 적용하려면 추론 비용을 줄이기 위해 상당한 노력이 필요하다. 이러한 격차를 메우기 위해 우리는 EET(Easy and Efficient Transformer)라는 확장 가능한 추론 솔루션을 제안합니다. EET는 알고리즘 및 구현 수준에서 일련의 Transformer 추론 최적화를 포함하는 시스템입니다. EET는 Transformer의 계산 및 데이터 프로세스를 최적화함으로써 추론 비용을 크게 줄이고 모델의 효율성과 성능을 향상시킬 수 있습니다. 우리의 실험 결과는 EET가 모델 정확도를 잃지 않고 추론 속도와 리소스 활용도를 크게 향상시켜 산업 생산의 대규모 모델 적용을 위한 간단하고 효과적인 솔루션을 제공할 수 있음을 보여줍니다.

먼저, 긴 입력과 큰 숨겨진 크기에 맞게 고도로 최적화된 커널을 설계했습니다.

또한 대규모 모델을 배포할 때 메모리 공간을 줄이기 위해 유연한 CUDA 메모리 관리자를 제안합니다. 최첨단 Transformer 추론 라이브러리(Faster Transformer v4.0)와 비교하여 EET는 A100 GPU에서 평균 1.40~4.20x 디코딩 레이어 가속을 달성할 수 있습니다.

논문 주소

https://arxiv.org/abs/2104.12470

Github 주소

https://github.com/NetEase-FuXi/EET

위 내용은 쉽고 효율적인 Transformer(NetEase 초대형 모델 온라인 추론 엔진)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제