>  기사  >  기술 주변기기  >  Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |

Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |

WBOY
WBOY앞으로
2024-04-28 09:01:12791검색

대형 모델의 힘으로 LLaMA3가 새로운 차원에 도달했습니다.

대규모로 사전 학습된 15T+ 토큰 데이터에서 인상적인 성능 향상이 이루어졌으며 권장 수준을 훨씬 초과하여 다시 한 번 폭발했습니다. Chinchilla 오픈 소스 커뮤니티 토론의 볼륨.

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð

동시에 실제 적용 수준에서는 또 다른 뜨거운 주제도 표면화되었습니다.

제한된 자원이 있는 시나리오에서 LLaMA3의 정량적 성능은 어떻게 될까요?

홍콩대학교, 베이항대학교, 취리히 연방공과대학교가 공동으로 LLaMA3의 낮은 비트 양자화 기능을 완전히 공개하는 실증적 연구를 시작했습니다.

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð

연구원들은 기존의 10가지 학습 후 양자화 LoRA 미세 조정 방법을 사용하여 1~8비트 및 다양한 평가 데이터 세트로 LLaMA3의 결과를 평가했습니다. 그들은 다음을 발견했습니다:

인상적인 성능에도 불구하고 LLaMA3은 낮은 비트 양자화, 특히 매우 낮은 비트 폭에서 여전히 무시할 수 없는 성능 저하를 겪고 있습니다.

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð

이 프로젝트는 GitHub에서 오픈 소스로 공개되었으며 HuggingFace에서도 정량 모델이 출시되었습니다.

실증적 결과를 구체적으로 살펴보겠습니다.

트랙 1: 훈련 후 양자화

표 1과 표 2는 1비트에서 8비트까지의 넓은 범위의 비트 폭을 포괄하는 8가지 PTQ 방법에서 LLaMA3-8B 및 LLaMA3-70B의 낮은 비트 성능을 제공합니다.

1. 낮은 비트 권한 가중치

그 중 가장 가까운 곳으로 반올림(RTN)은 기본적인 반올림 양자화 방법입니다.

GPTQ는 현재 사용 가능한 가장 효율적이고 효과적인 가중치 전용 양자화 방법 중 하나이며 양자화에서 오류 보상을 활용합니다. 그러나 2~3비트에서 GPTQ는 LLaMA3을 양자화할 때 심각한 정확도 붕괴를 일으킵니다.

AWQ는 비정상적인 채널 억제 방법을 사용하여 가중치 양자화의 어려움을 줄이는 반면, QuiP은 행렬 계산을 최적화하여 가중치와 헤세 행렬 간의 불일치를 보장합니다. 이들은 모두 LLaMA3의 기능을 3비트로 유지하고 2비트 양자화도 유망한 수준으로 끌어올립니다.

2. 초저 비트 폭 LLM 가중치 압축

최근 등장한 이진 LLM 양자화 방법은 초저 비트 폭 LLM 가중치 압축을 달성합니다.

PB-LLM은 혼합 정밀도 양자화 전략을 채택하여 중요한 가중치의 작은 부분에 대한 전체 정밀도를 유지하면서 대부분의 가중치를 1비트로 양자화합니다.

DB-LLM은 이중 이진화 가중치 분할을 통해 효율적인 LLM 압축을 달성하고, 2비트 LLM 성능을 더욱 향상시키기 위한 편향 인식 증류 전략을 제안합니다.

BiLLM은 중요한 가중치의 잔차 근사화와 중요하지 않은 가중치의 그룹화된 양자화를 통해 LLM 양자화 경계를 1.1비트로 더욱 낮춥니다. 매우 낮은 비트 폭을 위해 특별히 설계된 이러한 LLM 양자화 방법은 GPTQ, AWQ 및 QuIP와 같은 방법을 2비트(경우에 따라 3비트)에서 훨씬 능가하는 ⩽2비트에서 더 높은 정밀도의 양자화 LLaMA3-8B를 달성할 수 있습니다.

3. 낮은 비트 양자화 활성화

또한 SmoothQuant를 통해 양자화 활성화에 대한 LLaMA3 평가를 수행했습니다. 이는 양자화 난이도를 활성화에서 가중치로 전환하여 활성화 이상값을 완화합니다. 평가 결과 SmoothQuant는 8비트 및 6비트 가중치와 활성화에서 LLaMA3의 정확도를 유지할 수 있지만 4비트에서는 면이 붕괴되는 것으로 나타났습니다.

Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð
Llama 3低比特量化性能下降显著!全面评估结果来了 | 港大&北航Ð

트랙 2: LoRA 미세 조정 양자화

MMLU 데이터세트에서 LoRA-FT 양자화 하의 LLaMA3-8B에 대해 가장 눈에 띄는 관찰은 Alpaca 데이터세트에 대한 낮은 순위 미세 조정뿐만 아니라 양자화 보상 실패 도입된 버그는 성능 저하를 더욱 악화시킵니다.

구체적으로 4비트에서 다양한 LoRA-FT 양자화 방법으로 얻은 양자화된 LLaMA3 성능은 LoRA-FT가 없는 4비트 해당 버전보다 나쁩니다. 이는 4비트 하위 미세 조정 양자화 버전이 MMLU의 원래 FP16 버전보다 쉽게 ​​성능을 발휘하는 LLaMA1 및 LLaMA2의 유사한 현상과 뚜렷한 대조를 이룹니다.

직관적 분석에 따르면 이 현상의 주된 이유는 LLaMA3의 강력한 성능이 대규모 사전 훈련의 이점을 누리기 때문입니다. 즉, 원본 모델의 양자화 후 성능 손실은 소량의 학습으로는 수행할 수 없습니다. 낮은 순위 매개변수 데이터 보정을 위한 미세 조정(이는 원래 모델의 하위 집합으로 간주될 수 있음)

양자화로 인한 심각한 열화는 미세 조정으로 보상할 수 없지만, 4비트 LoRA-FT 양자화된 LLaMA3-8B는 다양한 양자화 방법에서 LLaMA1-7B 및 LLaMA2-7B보다 성능이 훨씬 뛰어납니다. 예를 들어, QLoRA 방법을 사용하면 4비트 LLaMA3-8B의 평균 정확도는 57.0(FP16: 64.8)으로 4비트 LLaMA1-7B(FP16: 34.6)의 38.4보다 18.6, 43.9를 초과합니다. 4비트 LLaMA2-7B (FP16: 45.5 ) 13.1. 이는 LLaMA3 시대에 새로운 LoRA-FT 양자화 패러다임의 필요성을 보여줍니다.

CommonSenseQA 벤치마크에서도 비슷한 현상이 발생했습니다. QLoRA 및 IR-QLoRA로 미세 조정된 모델 성능도 LoRA-FT가 없는 4비트 모델에 비해 감소했습니다(예: QLoRA의 경우 평균 2.8% 감소 대 IR-QLoRA의 경우 평균 2.4% 감소). 이는 LLaMA3에서 고품질 데이터 세트를 사용하는 이점과 일반 데이터 세트 Alpaca가 다른 작업에서 모델 성능에 기여하지 않는다는 것을 추가로 보여줍니다.

결론

이 논문에서는 학습 후 양자화 및 LoRA 미세 조정 양자화를 포함한 다양한 낮은 비트 양자화 기술에서 LLaMA3의 성능을 종합적으로 평가합니다.

이 연구 결과는 LLaMA3가 양자화 후에도 여전히 뛰어난 성능을 보여주지만 양자화와 관련된 성능 저하가 상당하며 많은 경우 더 큰 저하로 이어질 수 있음을 보여줍니다.

이 발견은 리소스가 제한된 환경에서 LLaMA3를 배포할 때 직면할 수 있는 잠재적인 문제를 강조하고 낮은 비트 양자화의 맥락에서 성장과 개선을 위한 충분한 여지를 강조합니다. 낮은 비트 양자화로 인한 성능 저하를 해결함으로써 후속 양자화 패러다임을 통해 LLM이 더 낮은 계산 비용으로 더 강력한 기능을 달성하고 궁극적으로 대표적인 생성 인공 지능을 새로운 차원으로 끌어올릴 수 있을 것으로 기대됩니다.

논문 링크: https://arxiv.org/abs/2404.14047.

프로젝트 링크: https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ.

위 내용은 Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제