Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |
대형 모델의 힘으로 LLaMA3가 새로운 차원에 도달했습니다.
대규모로 사전 학습된 15T+ 토큰 데이터에서 인상적인 성능 향상이 이루어졌으며 권장 수준을 훨씬 초과하여 다시 한 번 폭발했습니다. Chinchilla 오픈 소스 커뮤니티 토론의 볼륨.
동시에 실제 적용 수준에서는 또 다른 뜨거운 주제도 표면화되었습니다.
제한된 자원이 있는 시나리오에서 LLaMA3의 정량적 성능은 어떻게 될까요?
홍콩대학교, 베이항대학교, 취리히 연방공과대학교가 공동으로 LLaMA3의 낮은 비트 양자화 기능을 완전히 공개하는 실증적 연구를 시작했습니다.
연구원들은 기존의 10가지 학습 후 양자화 LoRA 미세 조정 방법을 사용하여 1~8비트 및 다양한 평가 데이터 세트로 LLaMA3의 결과를 평가했습니다. 그들은 다음을 발견했습니다:
인상적인 성능에도 불구하고 LLaMA3은 낮은 비트 양자화, 특히 매우 낮은 비트 폭에서 여전히 무시할 수 없는 성능 저하를 겪고 있습니다.
이 프로젝트는 GitHub에서 오픈 소스로 공개되었으며 HuggingFace에서도 정량 모델이 출시되었습니다.
실증적 결과를 구체적으로 살펴보겠습니다.
트랙 1: 훈련 후 양자화
표 1과 표 2는 1비트에서 8비트까지의 넓은 범위의 비트 폭을 포괄하는 8가지 PTQ 방법에서 LLaMA3-8B 및 LLaMA3-70B의 낮은 비트 성능을 제공합니다.
1. 낮은 비트 권한 가중치
그 중 가장 가까운 곳으로 반올림(RTN)은 기본적인 반올림 양자화 방법입니다.
GPTQ는 현재 사용 가능한 가장 효율적이고 효과적인 가중치 전용 양자화 방법 중 하나이며 양자화에서 오류 보상을 활용합니다. 그러나 2~3비트에서 GPTQ는 LLaMA3을 양자화할 때 심각한 정확도 붕괴를 일으킵니다.
AWQ는 비정상적인 채널 억제 방법을 사용하여 가중치 양자화의 어려움을 줄이는 반면, QuiP은 행렬 계산을 최적화하여 가중치와 헤세 행렬 간의 불일치를 보장합니다. 이들은 모두 LLaMA3의 기능을 3비트로 유지하고 2비트 양자화도 유망한 수준으로 끌어올립니다.
2. 초저 비트 폭 LLM 가중치 압축
최근 등장한 이진 LLM 양자화 방법은 초저 비트 폭 LLM 가중치 압축을 달성합니다.
PB-LLM은 혼합 정밀도 양자화 전략을 채택하여 중요한 가중치의 작은 부분에 대한 전체 정밀도를 유지하면서 대부분의 가중치를 1비트로 양자화합니다.
DB-LLM은 이중 이진화 가중치 분할을 통해 효율적인 LLM 압축을 달성하고, 2비트 LLM 성능을 더욱 향상시키기 위한 편향 인식 증류 전략을 제안합니다.
BiLLM은 중요한 가중치의 잔차 근사화와 중요하지 않은 가중치의 그룹화된 양자화를 통해 LLM 양자화 경계를 1.1비트로 더욱 낮춥니다. 매우 낮은 비트 폭을 위해 특별히 설계된 이러한 LLM 양자화 방법은 GPTQ, AWQ 및 QuIP와 같은 방법을 2비트(경우에 따라 3비트)에서 훨씬 능가하는 ⩽2비트에서 더 높은 정밀도의 양자화 LLaMA3-8B를 달성할 수 있습니다.
3. 낮은 비트 양자화 활성화
또한 SmoothQuant를 통해 양자화 활성화에 대한 LLaMA3 평가를 수행했습니다. 이는 양자화 난이도를 활성화에서 가중치로 전환하여 활성화 이상값을 완화합니다. 평가 결과 SmoothQuant는 8비트 및 6비트 가중치와 활성화에서 LLaMA3의 정확도를 유지할 수 있지만 4비트에서는 면이 붕괴되는 것으로 나타났습니다.
트랙 2: LoRA 미세 조정 양자화
MMLU 데이터세트에서 LoRA-FT 양자화 하의 LLaMA3-8B에 대해 가장 눈에 띄는 관찰은 Alpaca 데이터세트에 대한 낮은 순위 미세 조정뿐만 아니라 양자화 보상 실패 도입된 버그는 성능 저하를 더욱 악화시킵니다.
구체적으로 4비트에서 다양한 LoRA-FT 양자화 방법으로 얻은 양자화된 LLaMA3 성능은 LoRA-FT가 없는 4비트 해당 버전보다 나쁩니다. 이는 4비트 하위 미세 조정 양자화 버전이 MMLU의 원래 FP16 버전보다 쉽게 성능을 발휘하는 LLaMA1 및 LLaMA2의 유사한 현상과 뚜렷한 대조를 이룹니다.
직관적 분석에 따르면 이 현상의 주된 이유는 LLaMA3의 강력한 성능이 대규모 사전 훈련의 이점을 누리기 때문입니다. 즉, 원본 모델의 양자화 후 성능 손실은 소량의 학습으로는 수행할 수 없습니다. 낮은 순위 매개변수 데이터 보정을 위한 미세 조정(이는 원래 모델의 하위 집합으로 간주될 수 있음)
양자화로 인한 심각한 열화는 미세 조정으로 보상할 수 없지만, 4비트 LoRA-FT 양자화된 LLaMA3-8B는 다양한 양자화 방법에서 LLaMA1-7B 및 LLaMA2-7B보다 성능이 훨씬 뛰어납니다. 예를 들어, QLoRA 방법을 사용하면 4비트 LLaMA3-8B의 평균 정확도는 57.0(FP16: 64.8)으로 4비트 LLaMA1-7B(FP16: 34.6)의 38.4보다 18.6, 43.9를 초과합니다. 4비트 LLaMA2-7B (FP16: 45.5 ) 13.1. 이는 LLaMA3 시대에 새로운 LoRA-FT 양자화 패러다임의 필요성을 보여줍니다.
CommonSenseQA 벤치마크에서도 비슷한 현상이 발생했습니다. QLoRA 및 IR-QLoRA로 미세 조정된 모델 성능도 LoRA-FT가 없는 4비트 모델에 비해 감소했습니다(예: QLoRA의 경우 평균 2.8% 감소 대 IR-QLoRA의 경우 평균 2.4% 감소). 이는 LLaMA3에서 고품질 데이터 세트를 사용하는 이점과 일반 데이터 세트 Alpaca가 다른 작업에서 모델 성능에 기여하지 않는다는 것을 추가로 보여줍니다.
결론
이 논문에서는 학습 후 양자화 및 LoRA 미세 조정 양자화를 포함한 다양한 낮은 비트 양자화 기술에서 LLaMA3의 성능을 종합적으로 평가합니다.
이 연구 결과는 LLaMA3가 양자화 후에도 여전히 뛰어난 성능을 보여주지만 양자화와 관련된 성능 저하가 상당하며 많은 경우 더 큰 저하로 이어질 수 있음을 보여줍니다.
이 발견은 리소스가 제한된 환경에서 LLaMA3를 배포할 때 직면할 수 있는 잠재적인 문제를 강조하고 낮은 비트 양자화의 맥락에서 성장과 개선을 위한 충분한 여지를 강조합니다. 낮은 비트 양자화로 인한 성능 저하를 해결함으로써 후속 양자화 패러다임을 통해 LLM이 더 낮은 계산 비용으로 더 강력한 기능을 달성하고 궁극적으로 대표적인 생성 인공 지능을 새로운 차원으로 끌어올릴 수 있을 것으로 기대됩니다.
논문 링크: https://arxiv.org/abs/2404.14047.
프로젝트 링크: https://github.com/Macaronlin/LLaMA3-Quantizationhttps://huggingface.co/LLMQ.
위 내용은 Llama 3의 낮은 비트 양자화 성능이 크게 떨어집니다! 종합 평가 결과는 여기에 있습니다. HKU & Beihang University & ETH |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

최근에 대규모 언어 모델과 AI가 증가함에 따라 우리는 자연어 처리에서 수많은 발전을 보았습니다. 텍스트, 코드 및 이미지/비디오 생성과 같은 도메인의 모델은 인간과 같은 추론과 P를 보관했습니다.

소개 얼굴 이미지에서 성 감지는 컴퓨터 비전의 많은 매혹적인 응용 중 하나입니다. 이 프로젝트에서 우리는 Concront 위치와 성별 분류를 위해 OpenCV를 결합하여

소개 교환 시스템의 개념 이후 광고의 세계는 진화하고 있습니다. 광고주는 제품을 우리의 관심을 끌 수있는 창의적인 방법을 찾았습니다. 현재 시대에 소비자는 BR을 기대합니다

소개 9 월 12 일, OpenAi는“LLMS와의 추론 학습”이라는 제목의 업데이트를 발표했습니다. 그들은 복잡한 추론 작업을 해결하기 위해 강화 학습을 사용하여 교육을받은 O1 모델을 도입했습니다. 이 모드를 설정하는 것은 무엇입니까?

소개 OpenAi O1 모델 패밀리는 특히 과학, 코딩 및 문제 해결에서 추론의 힘과 경제 성과를 크게 발전시킵니다. Openai의 목표는 항상 AIV 및 O1 모델을 만드는 것입니다.

소개 오늘날 고객 쿼리 관리의 세계는 전례없는 속도로 전환하고 있으며 새로운 도구가 매일 헤드 라인을 만드는 것입니다. 대형 언어 모델 (LLM) 에이전트는 이러한 맥락에서 최신 혁신으로 Cu를 향상시킵니다.

소개 생성 AI를 채택하는 것은 모든 회사의 혁신적인 여정이 될 수 있습니다. 그러나 Genai 구현 과정은 종종 번거롭고 혼란 스러울 수 있습니다. Rajendra Singh Pawar, Niit Lim의 회장 겸 공동 설립자

소개 AI 혁명은 텍스트-이미지 모델이 예술, 디자인 및 기술의 교차점을 재정의하는 새로운 창의성 시대를 일으켰습니다. Pixtral 12B 및 QWEN2-VL-72B는 2 개의 개척력 Drivin입니다


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

Atom Editor Mac 버전 다운로드
가장 인기 있는 오픈 소스 편집기

SecList
SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.

DVWA
DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 Linux 새 버전
SublimeText3 Linux 최신 버전

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음
