집 >기술 주변기기 >일체 포함 >Ant Group, 대규모 모델 추론 속도를 2~6배 높일 수 있는 새로운 알고리즘 출시

Ant Group, 대규모 모델 추론 속도를 2~6배 높일 수 있는 새로운 알고리즘 출시

王林앞으로: 2024-01-17 21:33:05945검색

최근 앤트그룹은 대형 모델의 추론 속도를 2~6배 향상시킬 수 있는 새로운 알고리즘 세트를 오픈소스화해 업계의 주목을 받고 있다.

사진: 다양한 오픈 소스 대형 모델에서 새로운 알고리즘의 속도 향상 성능.

이 새로운 알고리즘은 Lookahead Inference Acceleration Framework이라고 하며, 이는 무손실 플러그 앤 플레이 방식입니다. 이 알고리즘은 수많은 개미 장면에서 구현되어 시간 소모적인 추론을 크게 줄입니다.

Llama2-7B-chat 모델과 Dolly 데이터 세트를 예로 들어 실제 측정을 수행한 결과 토큰 생성 속도가 48.2/초에서 112.9/초로 2.34배 증가한 것으로 나타났습니다. Ant의 내부 RAG(Retrieval Enhanced Generation) 데이터 세트에서 Bailing 대형 모델 AntGLM의 10B 버전 가속 비율은 5.36에 도달했습니다. 동시에 비디오 메모리와 메모리 소비의 증가는 거의 무시할 수 있습니다.

현재 대규모 모델은 일반적으로 자동 회귀 디코딩을 기반으로 하며 한 번에 하나의 토큰만 생성합니다. 이 방법은 GPU의 병렬 처리 성능을 낭비할 뿐만 아니라 과도한 사용자 경험 지연을 초래하여 원활성에 영향을 미칩니다. 이 문제를 개선하기 위해 병렬 디코딩을 사용하여 동시에 여러 토큰을 생성하여 효율성과 사용자 경험을 향상시킬 수 있습니다.

예를 들어 원래 토큰 생성 과정은 초기 중국어 입력 방법과 비교할 수 있습니다. 사용자는 텍스트를 입력하려면 키보드를 한 단어씩 탭해야 합니다. 하지만 Ant의 가속 알고리즘을 채택한 후 토큰 생성 과정은 최신 Lenovo 입력 방식과 유사하며 Lenovo 기능을 통해 전체 문장을 직접 팝업할 수 있습니다. 이러한 개선으로 입력 속도와 효율성이 크게 향상되었습니다.

일부 최적화 알고리즘은 이전에 업계에서 등장했는데, 주로 더 나은 품질의 초안을 생성하는 방법(즉, 토큰 시퀀스 추측 및 생성)에 중점을 둡니다. 그러나 초안의 길이가 30개 토큰을 초과하면 엔드 투 엔드 추론의 효율성을 더 이상 향상시킬 수 없다는 것이 실제로 입증되었습니다. 분명히 이 길이는 GPU의 컴퓨팅 성능을 완전히 활용하지 못합니다.

하드웨어 성능을 더욱 향상시키기 위해 Ant Lookahead 추론 가속 알고리즘은 다중 분기 전략을 채택합니다. 이는 초안 시퀀스에 더 이상 하나의 분기만 있는 것이 아니라 동시에 확인할 수 있는 여러 병렬 분기가 포함되어 있음을 의미합니다. 이러한 방식으로 순방향 프로세스에 소요되는 시간은 기본적으로 변경되지 않은 상태로 유지하면서 순방향 프로세스에서 생성되는 토큰 수를 늘릴 수 있습니다.

Ant Lookahead 추론 가속 알고리즘은 트리 트리를 사용하여 토큰 시퀀스를 저장 및 검색하고 여러 초안에 동일한 상위 노드를 병합하여 컴퓨팅 효율성을 더욱 향상시킵니다. 사용 편의성을 높이기 위해 이 알고리즘의 트리 트리 구성은 추가 초안 모델에 의존하지 않고 동적 구성을 위한 추론 과정에서 프롬프트와 생성된 답변만 사용하여 사용자의 액세스 비용을 줄입니다.

알고리즘은 이제 GitHub(https://www.php.cn/link/51200d29d1fc15f5a71c1dab4bb54f7c)에 오픈 소스이며, 관련 논문은 ARXIV(https://www.php.cn/link/24a29a235c0678859695b1089651)에 게재되어 있습니다. 3b3d) .

공개 정보에 따르면 앤트 그룹은 풍부한 비즈니스 시나리오 요구 사항을 기반으로 인공 지능에 지속적으로 투자하고 대형 모델, 지식 그래프, 운영 최적화, 그래프 학습 및 신뢰할 수 있는 AI를 포함한 기술 분야를 마련했습니다.

위 내용은 Ant Group, 대규모 모델 추론 속도를 2~6배 높일 수 있는 새로운 알고리즘 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Token 并发 github 算法人工智能 https prompt

성명：

이 기사는 jiqizhixin.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：할리우드 인공지능 활용 범위 더욱 확대│블루미디어 GPT다음 기사：할리우드 인공지능 활용 범위 더욱 확대│블루미디어 GPT