신경망 중량 양자화

Joseph Gordon-Levitt원래의: 2025-03-08 10:40:10694검색

점점 더 큰 언어 모델과 복잡한 신경망의 시대에 모델 효율을 최적화하는 것이 가장 중요해졌습니다. 중량 양자화는 모델 크기를 줄이고 성능 저하없이 추론 속도를 향상시키는 데 중요한 기술로 두드러집니다. 이 안내서는 GPT-2를 실질적인 예로 사용하여 중량 양자화를 구현하고 이해하는 실습 접근법을 제공합니다.

학습 목표

체중 양자화의 기본 사항과 모델 최적화에서의 중요성을 이해하십시오. absmax와 Zero-Point Quantization 기술의 차이점을 배우십시오 Pytorch를 사용하여 GPT-2에서 중량 양자화 방법을 구현하십시오 메모리 효율, 추론 속도 및 정확도에 대한 양자화의 영향을 분석하십시오. 통찰력을 위해 히스토그램을 사용하여 정량화 된 중량 분포를 시각화합니다 텍스트 생성 및 당황 메트릭을 통한 정문 후 모델 성능 평가. 자원으로 제한된 장치에 모델을 배포하기위한 양자화의 장점을 탐색하십시오.

체중 정량화 기초 이해

실용적 구현

양자화 프로세스 : 가중치 및 모델

양자적 웨이트 분포 시각화

질문

중량 양자화 기초 이해 중량 양자화는 고정밀 부동산 중량 (일반적으로 32 비트)을 낮은 정밀 표현 (일반적으로 8 비트 정수)으로 변환합니다. 이 프로세스는 모델 성능을 보존하려고 시도하면서 모델 크기와 메모리 사용량을 크게 줄입니다. 주요 과제는 수치 정밀도를 줄이면서 모델 정확도를 유지하는 데 있습니다. > 왜 양자화? 메모리 효율성 : 정밀도를 32 비트에서 8 비트로 줄이는 것은 이론적으로 모델 크기를 75%로 줄일 수 있습니다. 더 빠른 추론 : 정수 작업은 일반적으로 부동 소수점 작업보다 빠릅니다. 낮은 전력 소비 : 메모리 대역폭 감소 및 더 간단한 계산으로 에너지 절약으로 이어집니다 배포 유연성 : 소규모 모델을 자원으로 제한된 장치에 배포 할 수 있습니다

실용 구현

absmax Quantization과 Zero-Point Quantization의 두 가지 대중적인 양자화 방법을 구현하기합시다. 환경 설정 먼저, 필요한 종속성으로 개발 환경을 설정합니다.

absmax Quantization

absmax Quantization 방법은 텐서의 최대 절대 값에 따라 가중치를 스케일링합니다.

이 방법은 다음과 같이 작동합니다

중량 텐서에서 최대 절대 값을 찾는 것 int8 범위 내에서 값에 맞게 스케일링 계수를 계산 값을 스케일링하고 반올림합니다 정량화 된 버전 및 비전화 된 버전 제공

import seaborn as sns
import torch
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer
from copy import deepcopy
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns

주요 장점 :

간단한 구현

큰 값의 양호한 보존

Zero Zero-Point Quantization Zero-Point Quantization은 비대칭 분포를 더 잘 처리하기 위해 오프셋을 추가합니다.

출력 :

이 방법 :

전체 범위의 값을 계산합니다 는 스케일과 제로 포인트 매개 변수를 결정합니다 는 스케일링 및 시프팅을 적용합니다 클립 값은 int8 바운드 를 보장합니다

혜택 :

비대칭 분포의 더 나은 처리 는 거의 0 값의 표현을 향상시켰다 는 종종 전반적인 정확도가 향상됩니다

모델을로드하고 준비합니다 <these> 이러한 양자화 방법을 실제 모델에 적용해 봅시다. 예제로 GPT-2를 사용합니다 <li> 출력 : </li> <li> </li> <:> 양자화 과정 : 가중치 및 모델 <apply> 개별 가중치와 전체 모델 모두에 양자화 기술을 적용하는 데있어. 이 단계는 성능을 유지하면서 메모리 사용 및 계산 효율성을 줄입니다. <li> </li> <ized> 양자 무게 분포 시각화 <compare> 원본, Absmax Quantized 및 Zero-Point Quantized 모델의 중량 분포를 시각화하고 비교하십시오. 이 히스토그램은 양자화가 중량 값과 전체 분포에 어떤 영향을 미치는지에 대한 통찰력을 제공합니다. </compare></ized></apply></:></these></prepar> </ul> <a> 코드에는 포괄적 인 시각화 기능이 포함되어 있습니다 <h3> <original original> 원래 가중치를 표시하는 그래프 vs absmax weights <original> 원래 가중치와 제로 포인트 가중치를 표시하는 그래프 </original></original> </h3> 출력 : <p> </p> <pre class="brush:php;toolbar:false"># Define quantization functions def absmax_quantize(X): scale = 100 / torch.max(torch.abs(X)) # Adjusted scale X_quant = (scale * X).round() X_dequant = X_quant / scale return X_quant.to(torch.int8), X_dequant

성능 평가 효율성과 정확성을 보장하기 위해서는 양자화가 모델 성능에 미치는 영향을 평가하는 것이 필수적입니다. 양자화 된 모델이 원본에 비해 얼마나 잘 수행되는지를 측정 해 봅시다.

텍스트 생성 양자화 된 모델이 텍스트를 생성하는 방법을 탐색하고 출력 품질을 원래 모델의 예측과 비교하십시오.

import seaborn as sns
import torch
import numpy as np
from transformers import AutoModelForCausalLM, AutoTokenizer
from copy import deepcopy
import matplotlib.pyplot as plt
import matplotlib.ticker as ticker
import seaborn as sns

이 코드는 원본, "Absmax"양자 모델 및 "Zeropoint"양자 모델의 세 가지 모델에서 텍스트 생산 출력을 비교합니다. Generate_Text 함수를 사용하여 입력 프롬프트를 기반으로 텍스트를 생성하여 최상위 k 값이 30 인 샘플링을 적용합니다. 마지막으로 세 가지 모델 모두의 결과를 인쇄합니다. 출력 :

코드는 세 가지 모델을 사용하여 주어진 입력에 대해 당황도 (모델이 텍스트를 얼마나 잘 예측하는지)를 계산합니다. 원래 "absmax"양자화 및 "Zeropoint"정량화 된 모델. 당혹감이 낮 으면 성능이 향상됩니다. 비교를 위해 당황 점수를 인쇄합니다.

출력 :

여기에서 Colab 링크에 액세스 할 수 있습니다.

중량 양자화의 장점

# Define quantization functions
def absmax_quantize(X):
    scale = 100 / torch.max(torch.abs(X))  # Adjusted scale
    X_quant = (scale * X).round()
    X_dequant = X_quant / scale
    return X_quant.to(torch.int8), X_dequant

아래는 체중 양자화의 장점을 조사 할 것입니다.

메모리 효율 :

Quantization은 모델 크기를 최대 75%까지 줄여서 더 빠른 로딩 및 추론을 가능하게합니다. 더 빠른 추론 : 정수 작업은 플로팅 포인트 작업보다 빠르기 때문에 더 빠른 모델 실행을 초래합니다.

전력 소비가 낮아짐 : 메모리 대역폭 감소 및 단순화 된 계산이 에너지 절약으로 이어지고, 에지 장치 및 모바일 배포에 필수적입니다. 배포 유연성 : 소규모 모델은 제한된 리소스 (예 : 휴대폰, 임베디드 장치)를 사용하여 하드웨어에 더 쉽게 배포 할 수 있습니다. 최소 성능 저하 :

올바른 양자화 전략을 사용하면 모델이 정밀도가 감소 함에도 불구하고 대부분의 정확도를 유지할 수 있습니다.

신경망 중량 양자화 결론 중량 양자화는 특히 자원 제약 장치에 배치 할 때 큰 언어 모델의 효율성을 향상시키는 데 중요한 역할을합니다. 고정밀 가중치를 낮은 정밀 정수 표현으로 변환함으로써 모델의 성능에 심각하게 영향을 미치지 않으면 서 메모리 사용량을 크게 줄이고 추론 속도를 향상시킬 수 있습니다. 이 안내서에서는 GPT-2를 실용적인 예로 사용하는 두 가지 대중의 양자화 기술 (ABSMAX Quantization 및 Zero-Point Quantization)을 탐구했습니다. 두 기술 모두 텍스트 생성 작업에서 높은 수준의 정확도를 유지하면서 모델의 메모리 풋 프린트 및 계산 요구 사항을 줄이는 기능을 보여주었습니다. 그러나, 비대칭 접근법을 갖는 제로 포인트 양자화 방법은 일반적으로 비대칭 중량 분포에 대한 모델 정확도를 더 잘 보존하게했다. 키 테이크 아웃

absmax Quantization은 단순하고 대칭 중량 분포에 적합하지만 비대칭 분포를 제로 포인트 양자화만큼 효과적으로 캡처하지는 않을 수 있습니다. Zero-Point Quantization은 비대칭 분포를 처리하기 위해 오프셋을 도입하여보다 유연한 접근 방식을 제공하며, 종종 더 나은 정확도와보다 효율적인 가중치 표현을 초래합니다. 양자화는 계산 자원이 제한되는 실시간 애플리케이션에서 대형 모델을 배포하는 데 필수적입니다. 양자화 프로세스가 정밀도를 줄이지 만 적절한 튜닝 및 양자화 전략을 통해 원본에 가까운 모델 성능을 유지할 수 있습니다. 히스토그램과 같은 시각화 기술은 양자화가 모델 가중치에 미치는 영향과 텐서의 값 분포에 대한 통찰력을 제공 할 수 있습니다.

자주 묻는 질문

q1. 체중 양자화 란 무엇입니까?
a. 무게 양자화는 모델의 가중치의 정밀도, 일반적으로 32 비트 부동산 지점 값에서 낮은 정수 정수 (예 : 8 비트 정수)로, 성능을 유지하면서 메모리와 계산을 저장합니다. 중량 양자화는 모델 성능에 어떤 영향을 미칩니 까? 양자화는 모델의 메모리 발자국과 추론 시간을 줄이지 만 정확도가 약간 저하 될 수 있습니다. 그러나 올바르게 수행하면 정확도 손실이 최소입니다.
a. 모델의 가중치를 확장하고 반올림하기 위해 함수를 만들어 양자화를 구현 한 다음 모든 매개 변수에 적용 할 수 있습니다. Pytorch와 같은 라이브러리는 일부 양자화 기술에 대한 기본 지원을 제공하지만 가이드에 표시된 것처럼 사용자 정의 구현은 유연성을 제공합니다. 양자화는 모든 유형의 모델에 대해 작동합니까?
이 기사에 나와있는 미디어는 Analytics Vidhya가 소유하지 않으며 저자의 재량에 따라 사용됩니다.

위 내용은 신경망 중량 양자화의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

edge Integer Resource if for while using finally function this input table pytorch gpt prompt Access Prompt Other

성명：

이전 기사：Mark Zuckerberg는 2025 년에 650 억 달러의 AI 투자를 발표했습니다 - 분석 Vidhya다음 기사：Mark Zuckerberg는 2025 년에 650 억 달러의 AI 투자를 발표했습니다 - 분석 Vidhya