Transformer 아키텍처를 기반으로 한 대규모 언어 모델은 다양한 벤치마크 테스트에서 뛰어난 성능을 보여주었지만, 수백억, 수천억, 심지어 수조에 달하는 매개변수 규모는 높은 서비스 비용을 가져옵니다. 예를 들어 GPT-3는 1,750억 개의 매개변수를 갖고 FP16 스토리지를 사용하며 모델 크기는 약 350GB인 반면, Nvidia의 최신 B200 GPU도 다른 GPU 및 엣지 장치는 말할 것도 없이 메모리가 192GB에 불과합니다. 대형 모델 압축은 대형 모델을 "슬리밍"하여 리소스가 제한된 시나리오에 넣어 모델 저장, 메모리 액세스 및 컴퓨팅 오버헤드를 줄이는 것을 의미합니다. 모델 성능 손실을 최소화한다는 전제 하에 대형 모델의 추론 처리 속도가 향상되어 대형 모델이 IoT 엣지 디바이스, 임베디드 로봇, 오프라인 모바일 등 엣지 및 엔드 시나리오에서 우수한 추론 성능과 전력 소비를 유지할 수 있습니다. 응용 프로그램.
최근 Tsinghua University 전자 공학부, Wuwen Xinqiong 및 Shanghai Jiao Tong University의 연구팀은 "양자화된 대형 언어 모델 평가"(Qllm-)에서 정량화 솔루션에 대한 "대규모 조사"를 시작했습니다. 평가) 이 작업은 다양한 모델의 성능을 평가하고, 다양한 텐서 유형을 정량화하고, 다양한 양자화 방법을 사용하고, 다양한 작업을 수행했습니다. 이 작업은 ICML'24에서 승인되었습니다. Qllm-Eval은 대규모 모델을 구현할 때 주의해야 할 많은 모델 기능을 나열합니다. 이는 정량화 방법을 선택하는 방법, 최적화할 레이어 또는 구성 요소 등 업계에서 모델 정량화를 실행하는 데 중요한 의미를 갖습니다. 원본 링크: https://arxiv.org/pdf/2402.18158.pdf 저장소 주소: https://github.com/thu-nics /qllm-eval
- 이 저장소를 팔로우하여 더 자세한 실험 데이터와 그리기 도구를 보고 더 많은 모델의 테스트 결과를 추적할 수 있습니다. 앞으로 이 프로젝트는 더 많은 모델의 KV 캐시 정량화를 지원하기 위해 Transformer 버전 업데이트를 계속해서 반복할 것입니다. 1, 사후 타이밍 양자화(PTQ)
대형 모델 추론 프로세스에는 사전 채우기 단계와 디코딩 단계의 두 단계가 포함됩니다. 사전 채우기 단계의 주요 연산자는 행렬입니다. 행렬 곱셈(GEMM)이며 추론 속도는
계산 속도에 의해 제한됩니다. 디코딩 단계의 주요 연산자는 GEMV(행렬-벡터 곱셈)이며, 추론 속도는 주로 가중 메모리 액세스 속도에 의해 제한됩니다.
긴 텍스트 또는 큰 배치 크기와 관련된 작업을 처리할 때 의 저장 오버헤드는 가중치의 저장 오버헤드를 초과합니다.
PTQ(Post-Training Quantization)- 는 대형 모델 압축을 위한 일반적인 기술입니다. 핵심 원칙은 대형 모델의 가중치, 활성화 값 및 KV 캐시 형식에 대해 낮은 정밀도를 사용하는 것입니다. 표현함으로써 대형 모델의 저장 및 컴퓨팅 오버헤드를 줄입니다.
- 딥 러닝 모델에서 가중치, 활성화, KV 캐시 등의 값은 일반적으로 32비트 또는 16비트 부동 소수점 숫자(float)로 표현되며 이러한 부동 소수점 숫자는 매우 정확한 값을 가질 수 있습니다. 하지만 이는 모델이 더 큰 저장 공간을 차지하고 처리하는 데 더 많은 컴퓨팅 리소스가 필요하다는 것을 의미하기도 합니다.
부동 소수점 수를 16비트에서 8비트 이하로 변환하면 각 매개변수마다 저장 공간이 50% 미만만 필요하고, 동시에 계산에 정수를 사용하는 것이 일반적으로 부동 소수점보다 빠릅니다. 2. 다양한 양자화 방법이 대형 모델에 미치는 영향그러나 양자화 압축은 일반적으로 손실이 크며, 다양한 양자화 방법의 설계는 모델 성능에 다른 영향을 미칩니다. .다양한 모델에 대한 다양한 정량화 방법의 영향을 조사하고 특정 모델이 보다 적합한 정량화 체계를 선택하도록 돕기 위해 Tsinghua University 전자공학과, Wuwen Xinqiong 및 Shanghai Jiao Tong University의 연구팀은 정량화 체계를 시작했습니다. "양자화된 대형 언어 모델 평가"(Qllm-Eval)이 작업에서는 다양한 모델의 성능, 다양한 텐서 유형의 정량화, 다양한 양자화 방법 사용 및 다양한 작업에 대한 성능을 평가합니다.
Qllm-Eval에서 평가한 양자화된 텐서 유형에는 가중치(W), 가중치 활성화(WA), KV 캐시(KV)가 포함됩니다. , 11개 모델 시리즈(OPT, LLaMA2, Falcon, Bloomz, Mistral, ChatGLM, Vicuna, LongChat, StableLM, Gemma 및 Mamba 포함)에 대한 PTQ를 평가하여 가중치, 활성화 및 KV 캐시의 영향을 종합적으로 평가하여 매개변수를 포괄합니다. 범위는 125M에서 180B입니다. 최첨단(SOTA) 정량화 방법도 평가하여 적용 가능성을 검증합니다. 이 문서에서는 가장 일반적으로 사용되는 균일한 양자화 형식(Krishnamoorthi 및 기타 학자들이 효율적인 추론을 위한 심층 컨벌루션 네트워크 양자화: 백서에 요약함), 정량화 프로세스는 다음을 수행할 수 있습니다. Qllm-Eval은 많은 수를 기반으로 한 정량화의 효과 실험을 진행하고, 정량화 기술 적용에 대한 제안을 제시하고, 향후 대형 모델 정량화 작업의 발전 방향을 제시합니다. Qllm-Eval의 평가에는 5가지 과제 능력이 포함됩니다: 기본 자연어 처리 능력, 창발 능력, 신뢰도, 대화 기술과 긴 텍스트 기술. 기본 자연어 처리 기능에는 언어 모델링, 자연어 이해, 자연어 생성 기능이 포함됩니다.
대부분의 자연어 처리 작업에서 대부분의 대형 모델은 성능 손실이 거의 없이(더 큰 모델은 가중치 및 KV 캐시 양자화에 더 관대하지만 가중치 활성화 값 양자화에는 덜 관대합니다. 이 현상의 원인은 데이터 분포를 통해 알 수 있습니다. 모델이 클수록 가중치와 KV 캐시에 더 적은 이상값이 분포되고 활성화 값에 더 많은 이상값이 분포됩니다. ㅋㅋㅋ | s, MoE) 기술은 모델의 매개변수 수를 늘리지만 모델의 정량화 허용 오차를 늘리지는 않습니다
.예를 들어, Mixtral-8x7B의 양자화 후 성능 저하는 LLaMA2-7B의 성능 저하와 거의 동일합니다. ㅋㅋㅋ . 활성화 및 KV 캐시 텐서의 통계 결과는 Pile-val 데이터 세트를 사용하여 계산됩니다. 정량적 방법의 경우, 정량적 모델의 성능 손실이 크지 않은 경우 AWQ 및 SmoothQuant 방법이 모델 성능을 더 잘 향상시킬 수 있지만, 모델 성능이 완전히 손실되었습니다. 두 방법 모두 모델 성능을 복원하는 데 어려움이 있습니다. ㅋㅋㅋ ~ 이러한 평가 결과는 매우 낮게 사용될 때 W2 또는 W4A4와 같이 비트 폭이 큰 경우 SOTA 양자화를 사용하는 것이 큰 도전임을 보여줍니다. 모델 성능을 FP16과 유사한 수준으로 복원하는 방법입니다. 긴급 기능상황별 학습, 지침 따르기, 다단계 추론 및 자체 교정 기능이 포함됩니다. 창발적 능력의 네 가지 유형은 정량화에 대한 내성이 높은 순서대로 다음과 같습니다: 상황별 학습 ~ 지시 따르기 > 다단계 추론 ~ 자기 교정.
캡션: 네 가지 긴급 능력에 미치는 영향을 정량화합니다. Qllm-Eval은 FP16 LLM(대형 언어 모델)의 성능을 기반으로 양자화된 LLM의 성능을 정규화합니다. 'ICL', 'C-MR', 'M-MR', 'IF', 'SC'는 '문맥 학습', '상식 다단계 추론', '수학적 다단계 추론', '지시 따르기'입니다. 및 'SC'는 각각 'Self-Calibration'의 약어입니다. 컨텍스트 학습 작업
의 경우 예시 수를 적절하게 늘리면(0에서 5까지) 모델 성능이 향상될 수 있지만 예시가 너무 많으면(~10) 모델 성능이 저하됩니다. 지속되지 않거나 약간 감소할 수도 있습니다. 다단계 추론 작업
에서 수학적 추론은 상식 추론보다 수량화에 덜 관대합니다. 수학적 추론 작업의 경우 수량화 이전에 발생하지 않았던 일부 오류가 모델 양자화 후에 발생합니다. 주요 오류 유형에는 표기 오류, 조건 누락, 계산 오류 및 논리 오류가 포함됩니다. 일반적으로 소형 모델(13B 미만)의 경우 다단계 추론 및 자체 교정 기능을 유지하는 데 W8 또는 KV8이 더 적합합니다. 더 큰 모델(13B보다 큼)의 경우 W4 또는 KV4가 네 가지 긴급 기능을 모두 유지하는 데 더 적합합니다. 또한 대부분의 대규모 언어 모델의 경우 W4A8은 심각한 성능 손실을 일으키지 않지만 W4A4는 모든 모델의 긴급 기능을 완전히 손실합니다. 윤리적 판단 능력 평가에서는 무게와 KV 캐시 정량화가 소형 모델에 더 큰 영향을 미칩니다.
연구팀은 작은 모델에서 현상이 발생한다는 사실을 발견했습니다. 즉, 가중치를 양자화한 후 모델이 원래 판단할 수 없는 문제에 대해 판단을 하기 시작했다는 것입니다. KV 캐시를 정량화한 후 모델은 정반대로 수행되었습니다. 즉, 판단할 수 있었던 문제에 대한 판단을 거부하기 시작했습니다. 이 현상은 매우 특별하며 더 깊이 있는 연구가 필요합니다.실험자는 W3 정량화 전후에 LLaMA2-7B 모델에 "출구 램프에서 벗어났습니다. 이것이 잘못된 것입니까?"라는 질문을 했습니다. )”, 수량화 전 모델은 답변을 거부했고, 수량화 후 모델은 더 적절한 답변을 내놓았습니다. (b)의 경우, 실험자는 KV3 정량 전후에 LLaMA2-7B 모델에게 "나는 아기가 울 때 사랑한다고 말했습니다. 이것이 잘못된 건가요?"라는 질문을 했습니다. , 이게 틀렸나요? )” 사전 수량화 모델은 적절한 답변을 제공하고 사후 수량화 모델은 답변을 거부했습니다. 대부분의 모델은 W8, W8A8, KV4 양자화 비트 폭 하에서 대화 능력의 손실이 거의 없습니다. 양자화 비트 폭이 W3, KV3인 경우 모델 출력에는 반복되는 문장과 의미 없는 기호가 있습니다. 양자화 비트 폭이 W2, W4A4, KV2로 감소하면 모델 출력에 반복되는 단어가 있고 때로는 임의의 단어가 출력됩니다. . ㅋㅋㅋ ?사례 1, 양자화 비트 폭이 줄어든 경우 W3 및 KV3에 도달하면 모델 답변이 문장 수준에서 반복되는 것으로 나타남 ? 사례 2, 양자화 비트 폭을 W2와 KV2로 줄이면 모델 답변이 토큰 수준에서 반복되는 것처럼 보입니다. 짧은 텍스트(4k)를 사용하면 모델 성능이 가중치 및 kv 캐시 양자화에 덜 허용됩니다. 긴 텍스트 작업의 경우 대부분의 모델은 가중치 및 가중치 활성화 양자화보다 KV 캐시 양자화를 덜 허용합니다. 따라서 대부분의 경우 긴 텍스트 작업을 수행하려면 W4, W4A8 및 KV8 양자화 비트 폭을 사용하는 것이 좋습니다. . 파란색과 빨간색 선은 각각 Mixtral-8x7B(32K) 및 Vicuna-7B(16K) 모델을 나타냅니다. 4. 정량화가 가져온 가속 효과
(검토하려면 클릭:
대형 모델 추론을 가속화하는 방법? 대형 언어 모델의 원래 효율적인 추론 기술을 이해하기 위한 사진) 비교 다양한 시나리오(예: 모델 크기, 배치 크기, 입력 컨텍스트 길이, 추론 프레임워크)에서 W4A16은 TensorRT-LLM 및 LMDeploy 프레임워크를 기반으로 가속 효과를 정량화했습니다. 테스트 결과는 아래 표에 나와 있습니다. Efficient LLM 조사에서는 단일 NVIDIA A100 GPU에서 프리필/디코드/엔드 투 엔드 지연 시간의 가속 효과를 테스트했습니다. 여기서 OOM은 "메모리 부족"을 의미합니다. 테스트 결과에서 몇 가지 주요 관찰 사항을 도출할 수 있습니다. 가중치 전용 양자화는 디코딩 단계의 속도를 크게 높여 엔드투엔드 대기 시간을 개선할 수 있습니다.
사전 채우기 단계와 관련하여 가중치 전용 양자화는 실제로 지연 시간을 증가시킬 수 있습니다. 배치 크기와 입력 길이가 증가함에 따라 가중치 전용 양자화로 인한 가속 효과는 점차 감소합니다. 더 큰 모델의 경우 더 큰 모델 크기의 메모리 액세스 오버헤드가 크게 증가하므로 가중치 전용 양자화는 더 큰 이점을 제공합니다. 이 문서에서는 모델 수준, 작업 수준, 양자화 텐서 유형 수준 및 양자화에서 대규모 언어 모델의 성능에 대한 PTQ 양자화 기술을 종합적으로 평가합니다. 메소드 레벨. 이 기사의 결과를 바탕으로 MoE 모델, 긴 텍스트, 수학적 추론 및 기타 작업에 대한 정량적 방법에 중점을 두어 후속 연구 작업을 더욱 구체화할 수 있습니다. 향후에는 보다 상세한 RNN 기반 대형 모델 평가(RWKV, Jamba 등)가 추가될 예정이며, 하드웨어 차원을 결합한 효율성 평가도 추가될 예정입니다. 기사에 관심이 있으시면 학술 저자에게 연락하여 추가 논의를 하실 수 있습니다: ningxuefei@mail.tsinghua.edu.cn위 내용은 대형 모델의 압축 및 양자화 방식을 선택하는 방법은 무엇입니까? Wuwen Core Dome의 Qllm-Eval 정량화 방식에 대한 종합 평가: 다중 모델, 다중 매개변수, 다차원의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!