대형 언어 모델 (LLMS)의 양자화 : AI 모델 크기를 효율적으로 줄이기-일체 포함-php.cn

집

기술 주변기기

일체 포함

대형 언어 모델 (LLMS)의 양자화 : AI 모델 크기를 효율적으로 줄이기

Christopher Nolan

Mar 05, 2025 am 09:10 AM

노트북에서 나만의 chatgpt를 실행하십시오 : LLM 양자화 안내서 노트북에서 직접 chatgpt를 실행하는 꿈을 꾸었습니까? LLM (Largin Language Models)의 발전 덕분에 이것은 현실이되고 있습니다. 핵심은 양자화입니다. 성능 손실이 최소화 된 소비자 하드웨어에 맞도록 이러한 거대한 모델을 축소하는 기술입니다 (올바른 경우). 이 안내서는 양자화, 그 방법을 설명하고 두 가지 쉬운 단계로 Hugging Face의 Quanto 라이브러리를 사용하여 모델을 정량화하는 방법을 보여줍니다. DataCamp Datalab을 사용하여 팔로우하십시오 LLMS의 끊임없이 성장하는 크기

llms는 복잡성으로 폭발했습니다. GPT-1 (2018)은 0.11 억 파라미터를 가졌다; GPT-2 (2019), 15 억; GPT-3 (2020), 무려 175 억; GPT-4는 1 조를 자랑합니다. 이러한 대규모 성장은 메모리 병목 현상을 만들어 훈련과 추론을 방해하고 접근성을 제한합니다. 양자화는 성능을 보존하는 동안 모델의 크기를 줄임으로써 이것을 해결합니다. 양자화 이해

Quantization은 모델의 가중치 및 활성화의 정밀도를 줄이는 모델 압축 기술입니다. 여기에는 고정 장치 유형 (예 : 32 비트 플로팅 포인트)에서 데이터를 낮은 정밀 유형 (예 : 8 비트 정수)으로 변환하는 것이 포함됩니다. 비트가 적 으면 메모리, 저장 및 에너지가 적은 작은 모델을 의미합니다. 이미지 압축 생각 : 고해상도 이미지는 웹 사용을 위해 압축되어 세부 사항의 비용으로 크기 및 로딩 시간을 줄입니다. 마찬가지로 LLM을 정량화하면 계산 요구가 줄어들어 덜 강력한 하드웨어에서 실행할 수 있습니다.

더 빠른 웹 로딩을위한 이미지 압축.

Quantization은 노이즈 (양자화 오류)를 도입하지만 연구는 성능을 유지하기 위해 이것을 최소화하는 데 중점을 둡니다. 양자화 이론 Quantization은 일반적으로 모델 가중치를 목표로합니다. 이 가중치는 처음에는 무작위이며 훈련 중에 조정됩니다. 간단한 예는 웨이트를 소수점 이하의 자리로 반올림하는 것입니다.

예 : 웨이트 매트릭스 (왼쪽) 및 양자화 된 버전 (오른쪽). 원래와 양자 매트릭스의 차이는 양자화 오류입니다.

양자화 오류 행렬. Quantization for Large Language Models (LLMs): Reduce AI Model Sizes Efficiently 실제로, 양자화는 데이터 유형을 변경하는 것 (다운 캐스팅)이 포함됩니다. 예를 들어, float32 (매개 변수 당 4 바이트)에서 int8 (매개 변수 당 1 바이트)로 변환하면 메모리 사용이 크게 줄어 듭니다. 뇌 플로팅 포인트 (BF16) 및 다운 캐스팅 Google이 개발 한 BF16은 Float32의 동적 범위와 Float16의 효율성 사이의 균형을 제공합니다. 다운 캐스팅-고정밀에서 저렴한 데이터 유형으로 변동하는 다운 캐스팅은 속도를 높이지만 특히 데이터 유형이 작은 데이터 손실 및 오류 전파로 이어질 수 있습니다. 양자화 유형

몇 가지 양자화 유형이 있습니다 :

선형 양자화 :

맵 플로팅 지점 값을 고정점 범위에 균등하게 맵핑합니다. 최소/최대 값, 스케일, 제로 포인트, 양자화 및 쿼트 화 (추론 중)를 계산하는 것이 포함됩니다.

선형 양자화 방정식

예 : 중량 행렬의 선형 양자화

dequantization and Quantization 오류 블록 동정 양자화 :

Quantization for Large Language Models (LLMs): Reduce AI Model Sizes Efficiently

중량 대 활성화 양자화 :

양자화는 가중치 (정적) 및 활성화 (동적) 모두에 적용될 수 있습니다. 활성화 양자화는 더 복잡합니다.

후 훈련 후 양자화 (PTQ) 대 양자화 인식 훈련 (QAT) : Quantization for Large Language Models (LLMs): Reduce AI Model Sizes Efficiently PTQ는 미리 훈련 된 모델을 정량화합니다. QAT는 양자화 효과를 시뮬레이션하기위한 교육을 수정하여 정확도가 향상되지만 교육 시간이 증가합니다.

캘리브레이션 기술 일부 방법에는 캘리브레이션이 필요합니다. 양자화 매개 변수를 최적화하기 위해 데이터 세트의 런닝 추론. 기술에는 백분위 수 교정 및 평균/표준 편차 교정이 포함됩니다. Qlora와 같은 방법은 교정을 피합니다 양자화 도구 몇몇 파이썬 라이브러리는 Pytorch 및 Tensorflow를 포함한 양자화를 지원합니다. Hugging Face의 Quanto Library는 Pytorch 모델의 프로세스를 단순화합니다. 포옹 얼굴의 Quanto 로 모델을 정량화합니다 다음은 Pythia 410M 모델을 사용하는 단계별 안내서입니다

미리 훈련 된 모델과 토큰 화제를로드하십시오

를 사용하여

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "EleutherAI/pythia-410m"
model = AutoModelForCausalLM.from_pretrained(model_name, low_cpu_mem_usage=True)
tokenizer = AutoTokenizer.from_pretrained(model_name)

를 사용하여 모델을 변환하십시오

동결 : quantize()를 사용하려면 가중치에 양자화를 적용하십시오

from quanto import quantize, freeze
quantize(model, weights=torch.int8, activations=None)

결과 확인 : 감소 된 모델 크기 및 테스트 추론을 확인하십시오. (참고 :

freeze()

freeze(model)

결론
양자화는 LLM이보다 접근 가능하고 효율적으로 만듭니다. 기술을 이해하고 Hugging Face 's Quanto와 같은 도구를 사용하면 덜 강력한 하드웨어에서 강력한 모델을 실행할 수 있습니다. 더 큰 모델의 경우 리소스 업그레이드를 고려하십시오
llm Quantization faqs compute_module_sizes()
- QAT 대 PTQ : > Quanto Library :

위 내용은 대형 언어 모델 (LLMS)의 양자화 : AI 모델 크기를 효율적으로 줄이기의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

에이전트 걸레를 사용하여 지능형 FAQ 챗봇을 만드는 방법May 07, 2025 am 11:28 AM

AI 에이전트는 이제 크고 작은 기업의 일부입니다. 병원의 양식 작성 및 법률 문서 확인에서 비디오 장면 분석 및 고객 지원 처리에 이르기까지 모든 종류의 작업에 대한 AI 에이전트가 있습니다. 동료

공황에서 권력으로 : AI 시대에 리더가 배워야하는 어떤 지도자May 07, 2025 am 11:26 AM

인생은 좋다. 예측 가능 - 당신의 분석적 마음이 그것을 선호하는 방식으로. 당신은 오늘 사무실에 들려 마지막 순간의 서류를 마무리했습니다. 그 후 바로 당신은 파트너와 아이들을 햇볕이 잘 드는 휴가를 보내고 있습니다.

AGI를 예측하는 증거 수렴이 AI 전문가들의 과학적 합의를 능가 할 것이라고 왜May 07, 2025 am 11:24 AM

그러나 과학적 합의에는 딸꾹질과 gotchas가 있으며, 아마도 더 신중한 접근 방식은 양심으로도 알려진 증거의 수렴을 사용하는 것일 것입니다. 그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 나의

Studio Ghibli Dilemma - 생성 시대의 저작권 AIMay 07, 2025 am 11:19 AM

Openai 나 Studio Ghibli는이 이야기에 대한 의견 요청에 응답하지 않았습니다. 그러나 그들의 침묵은 창조적 인 경제에서 더 넓고 복잡한 긴장을 반영합니다. 생성 AI 시대에 저작권은 어떻게 기능해야합니까? 같은 도구와 함께

Mulesoft는 아연 도금 에이전트 AI 연결을위한 믹스를 공식화합니다May 07, 2025 am 11:18 AM

콘크리트와 소프트웨어는 모두 필요한 경우 강력한 성능을 위해 아연 도금 될 수 있습니다. 둘 다 스트레스 테스트를 할 수 있으며, 둘 다 시간이 지남에 따라 균열과 균열로 고통받을 수 있으며, 둘 다 분해되어 두 기능의 생산 인 "새로운 빌드"로 재현 할 수 있습니다.

Openai는 Windsurf를 구매하기 위해 30 억 달러의 계약을 체결 한 것으로 알려졌다May 07, 2025 am 11:16 AM

그러나 많은보고는 매우 표면 수준에서 멈 춥니 다. Windsurf가 무엇인지 알아 내려고한다면 Google 검색 엔진 결과 상단에 표시되는 신디케이트 된 콘텐츠에서 원하는 것을 얻지 못할 수도 있습니다.

모든 미국 어린이를위한 필수 AI 교육? 250 명 이상의 CEO가 예라고 말합니다May 07, 2025 am 11:15 AM

주요 사실 공개 서한에 서명 한 리더에는 Adobe, Accenture, AMD, American Airlines, Blue Origin, Cognizant, Dell, Dropbox, IBM, LinkedIn, Lyft, Microsoft, Salesforce, Uber, Yahoo 및 Zoom과 같은 유명 회사의 CEO가 포함됩니다.

우리의 안주 위기 : AI 속임수 탐색May 07, 2025 am 11:09 AM

이 시나리오는 더 이상 투기 소설이 아닙니다. 통제 된 실험에서 Apollo Research는 GPT-4가 불법적 인 내부자 거래 계획을 실행 한 다음 조사관에게 거짓말을하는 것을 보여주었습니다. 에피소드는 두 개의 곡선이 상승하고 있음을 생생하게 상기시켜줍니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

드림위버 CS6

시각적 웹 개발 도구

DVWA

DVWA(Damn Vulnerable Web App)는 매우 취약한 PHP/MySQL 웹 애플리케이션입니다. 주요 목표는 보안 전문가가 법적 환경에서 자신의 기술과 도구를 테스트하고, 웹 개발자가 웹 응용 프로그램 보안 프로세스를 더 잘 이해할 수 있도록 돕고, 교사/학생이 교실 환경 웹 응용 프로그램에서 가르치고 배울 수 있도록 돕는 것입니다. 보안. DVWA의 목표는 다양한 난이도의 간단하고 간단한 인터페이스를 통해 가장 일반적인 웹 취약점 중 일부를 연습하는 것입니다. 이 소프트웨어는

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.