집 >기술 주변기기 >일체 포함 >단일 카드 A100은 10배 더 빠른 수백만 개의 토큰 추론을 달성할 수 있습니다. 이는 Microsoft의 공식 대규모 모델 추론 가속화입니다.

단일 카드 A100은 10배 더 빠른 수백만 개의 토큰 추론을 달성할 수 있습니다. 이는 Microsoft의 공식 대규모 모델 추론 가속화입니다.

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-07-12 17:14:05828검색

이 Microsoft 연구를 통해 개발자는 단일 카드 시스템에서 1M이 넘는 입력 텍스트를 10배 더 빠르게 처리할 수 있습니다.

LLM(Large Language Model)이 긴 컨텍스트 처리 시대에 돌입했고, 그것이 지원하는 컨텍스트 창도 이전 128K에서 128K로 급증했다. 10M 토큰 수준.

그러나 어텐션 메커니즘의 2차 복잡성으로 인해 모델이 입력 프롬프트(즉, 채우기 전 단계)를 처리하고 첫 번째 토큰 생성을 시작합니다. 결과적으로 첫 번째 토큰 생성 시간이 너무 길어 사용자 경험에 심각한 영향을 미치고 긴 컨텍스트 LLM의 광범위한 적용도 크게 제한됩니다.

예를 들어(그림 2a 참조) A100이 장착된 단일 머신에서 LLaMA-3-8B에 대한 서비스를 제공할 때 300,000개의 토큰이 있다는 메시지가 표시되면 , 모델이 사전 채우기 단계를 완료하는 데 6분이 소요됩니다. 프롬프트가 100만 개의 토큰으로 증가하면 이 숫자는 30분으로 늘어납니다.

단일 카드 A100은 10배 더 빠른 수백만 개의 토큰 추론을 달성할 수 있습니다. 이는 Microsoft의 공식 대규모 모델 추론 가속화입니다.

self-attention 계산의 오버헤드는 전체 사전 채우기 지연의 90% 이상을 차지하므로 LLM이 긴 컨텍스트를 처리할 때 주요 병목 현상이 됩니다. 기존의 가속화된 사전 채우기 방법은 긴 컨텍스트 LLM에 적용될 때 허용 가능한 정확성이나 효율성을 유지하지 못하는 경우가 많습니다.

위 문제를 해결하기 위해 Microsoft와 Surrey 대학의 연구진은 긴 시퀀스 처리 사전 채우기 속도를 높이기 위해 고안된 희소 계산 방법인 MInference(Milliontokens)를 제안했습니다. 추론).

논문 주소: https://arxiv.org/pdf/2407.02490
논문 홈페이지: https://hqjiang.com/minference.html
논문 제목: MInference 1.0: Dynamic Sparse Attention을 통해 Long-Context LLM에 대한 사전 채우기 가속화

MInference는 사전 훈련 설정을 수정하거나 추가적인 미세 조정 없이 기존 LLM에 직접 적용할 수 있습니다.

다양한 다운스트림 작업(InfiniteBench, RULER, PG-19 및 Needle In A Haystack 포함) 및 모델(LLaMA-3-1M, Yi-200K, GLM 포함) 테스트를 통해 -4-1M, Phi-3-128K 및 Qwen2-128K), 실험에서는 MInference가 정확도를 유지하면서 A100에서 미리 채워진 추론 지연 시간을 최대 10배까지 효과적으로 줄일 수 있음을 보여줍니다.

단일 카드 A100은 10배 더 빠른 수백만 개의 토큰 추론을 달성할 수 있습니다. 이는 Microsoft의 공식 대규모 모델 추론 가속화입니다.

^{MInference 1.0 사용, 긴 컨텍스트 LLM(예: LLaMA-3-8B-1M, GLM -4-1M)은 단일 A100에서 추론 속도가 10배 향상되었으며 더 정확합니다. .}

방법 소개

저자가 제안한 MInference, 이 이 이름은 A100 시스템에서 백만 개의 토큰 추론을 달성하려는 야망을 반영합니다.

MInference는 동적 희소 관심을 기반으로 하는 긴 컨텍스트 LLM의 채우기 전 단계에 대한 훈련이 필요 없는 효율적인 방법입니다.

연구자들은 특히 긴 맥락에서 주의가 희박하고 역동적이라고 믿습니다. 즉, 다양한 입력에서 희박 패턴이 매우 다릅니다. 이 동적 희소성은 모든 입력에 적용되는 세 가지 고유한 공간 집계 패턴(A자형, 수직 슬래시 및 블록 희소)을 나타냅니다.

MInference는 먼저 알고리즘 1에 표시된 대로 커널 인식 희소 패턴 검색 알고리즘을 사용하여 각 헤드에 대해 오프라인에서 가장 좋은 동적 희소 패턴을 결정합니다. 추론하는 동안 알고리즘 2, 3과 같이 머리의 패턴을 기반으로 동적 희소성 지수를 동적으로 근사화합니다. 마지막으로 저자는 최적화된 GPU 커널을 사용하여 효율적인 동적 희소 주의 계산을 수행하여 긴 컨텍스트 LLM의 채우기 전 단계 대기 시간을 크게 줄입니다.

예를 들어 "수직-대각선" 모드의 경우 저자는 먼저 마지막 Q와 K 사이의 attention 계산을 사용하여 최적의 수직선과 대각선을 추정합니다. . 색인. 그런 다음 동적 스파스 컴파일러 PIT 및 Triton을 활용하여 주의 계산을 가속화하는 수직 슬래시 FlashAttention 커널을 구축했습니다. A자형, 수직 기울기 및 블록 희소 패턴의 경우 저자는 먼저 주의 계산에서 Q와 K의 평균 풀링을 사용합니다. 평균 풀링과 MatMul의 교환 속성을 사용하여 블록 희소 지수를 추정할 수 있습니다. 그런 다음 Triton 빌딩 블록 희소 FlashAttention 커널을 사용하여 주의 계산을 가속화했습니다. 커널의 자세한 구현은 부록 C.4 및 코드를 참조하세요.

장기 컨텍스트 벤치마크 평가 결과

저자는 MInference에 있습니다. QA, 인코딩, 검색 기반 작업, 멀티 홉 QA, 요약 및 수학 작업을 포함한 일련의 시나리오에서 테스트되었습니다. RULER 벤치마크에는 LLM의 실제 컨텍스트 창 크기를 효과적으로 반영하는 여러 복잡한 다중 홉 또는 다중 바늘 작업이 포함되어 있습니다. 표 1에 표시된 것처럼 MInference는 LLM의 실제 컨텍스트 창 처리 기능을 효과적으로 보존하고 실제 컨텍스트 창 크기를 32K로 약간 확장합니다.

저자는 표 2에 표시된 것처럼 평균 토큰 길이가 214K인 InfiniteBench를 사용하여 더 넓은 범위의 작업에 대해 MInference를 테스트했습니다. SoTA 기준과 비교하여 MInference는 모든 작업에서 지속적으로 우수한 성능을 유지합니다. 특히 KV 검색 작업과 같은 보다 까다로운 검색 작업에서는 모든 기준선이 1.2% 미만의 정확도로 정확한 예측을 하지 못했습니다. 그러나 MInference는 동적 KV 쌍 검색을 처리하는 기능을 성공적으로 유지합니다.

프롬프트에서 다양한 컨텍스트 길이와 주요 정보의 다양한 위치에 대한 성능을 추가로 평가하기 위해 저자는 "건초 더미 속의 바늘" 작업을 사용하여 다양한 모델과 방법을 테스트했습니다. . 그림 1에 표시된 것처럼 MInference는 다양한 모델, 컨텍스트 창 및 큐 정보 위치에서 잘 작동하며 성능은 원래 모델과 동일하거나 약간 향상되었습니다. LLaMA-3-8B 및 GLM-4-9B-1M의 경우 MInference는 최대 1M의 컨텍스트 창에서 완전한 친환경 성능을 달성합니다. 이에 비해 StreamingLLM 및 InfLLM 성능은 70K 컨텍스트 창에서도 프롬프트 중간에 20% 미만으로 떨어집니다.

저자는 또한 최대 100,000개의 토큰이 포함된 PG-19를 사용하여 언어 모델 작업에 대한 MInference를 테스트했습니다.그림 2에 표시된 것처럼 MInference는 LLaMA-3-8B 및 Yi-9B-200K의 혼란을 효과적으로 유지하는 반면 모든 기준선은 다양한 정도의 혼란 저하를 경험합니다. 또한 팽창 및 보폭 구성을 사용하는 StreamingLLM은 표준 StreamingLLM에 비해 난해성 성능을 더 잘 유지합니다.

커널의 Latency와 Sparse 모드

그림 3은 제안된 방법을 보여준다. 이 문서 FlashAttention의 세 가지 주의 모드와 마이크로 벤치마크 결과입니다. Vertical-Slash는 세 가지 모드 중 가장 느리지만 1M 컨텍스트 창에서는 여전히 FlashAttention에 비해 13배의 가속을 달성합니다.

그림 4는 Vertical-Slash 헤더 커널의 희소 인덱스를 보여줍니다. 수직선은 PIT FlashAttention을 통해 1x64 블록을 사용하여 계산되고, 대각선은 블록 수준 FlashAttention을 통해 64x64 블록을 사용하여 계산됩니다.

^{참고링크: https://hqjiang.com/minference.html}

위 내용은 단일 카드 A100은 10배 더 빠른 수백만 개의 토큰 추론을 달성할 수 있습니다. 이는 Microsoft의 공식 대규모 모델 추론 가속화입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

html for Token 算法 https llama

성명：

이전 기사：DAMO 아카데미, 새로운 AI 워크플로우를 만드는 원스톱 AI 영상 제작 플랫폼 'Xunguang' 출시다음 기사：DAMO 아카데미, 새로운 AI 워크플로우를 만드는 원스톱 AI 영상 제작 플랫폼 'Xunguang' 출시