이 기사는 LLAMA-3.2-1B 언어 모델의 SoftMax 자체 변환을 SoftMax 슬라이딩 창과 선형주의를 결합한 하이브리드 접근법으로 대체합니다. 이것은 상당한 정확도 손실없이 추론 속도를 향상시켜 큰 언어 모델 사용 비용을 줄이는 것을 목표로합니다. 이 프로젝트는 "LOLCATS : 대형 언어 모델의 낮은 순위 선형화", "Mamba 기반 언어 모델에 대한 경험적 연구"및 "선형화주의"의 연구를 기반으로합니다. 사전 훈련 된 LLAMA 모델에서 자체 변환 계층의 50%를 대체하는 데 중점을 둡니다.
하이브리드주의 블록 :
이 섹션에서는 학습 가능한 요소를 사용하여 기여의 균형을 맞추기 위해 슬라이딩 창과 선형주의 메커니즘을 결합한 사용자 정의주의 블록의 생성에 대해 자세히 설명합니다. 슬라이딩 윈도우 접근 방식은 지정된 창 크기로주의를 제한하여 효율성을 향상시킵니다. 이전 토큰에 적용되는 선형주의는 계산을 더 최적화합니다
주의 전달 :
이 단계는 "lolcats"방법론을 활용합니다. 원래 라마주의 블록의 가중치는 하이브리드 블록을 초기화하는 데 사용됩니다. 훈련은 훈련 입력과 함께 전방 패스가 포함되어 원래와 하이브리드 블록 출력 사이의 MSE 손실을 계산하고 원본의 동작을 모방하기 위해 하이브리드 블록을 미세 조정합니다.LORA FINETUNING : LORA (LOW RANK ADAPTATION)가 더 큰 LLAMA 모델 내에서 하이브리드주의 블록을 미세 조정하기 위해 사용됩니다. 이 단계는 하이브리드 블록의 매개 변수를 훈련시키는 데 중점을두고 다른 매개 변수를 동결시켜 Dolly-15K 데이터 세트를 사용하여 텍스트 생성 모델을 최적화합니다. 평가 :
하이브리드 모델의 성능은 원래 LLAMA-3.2-1B 모델에 대해 평가됩니다. 벤치마킹은 추론 속도 (초당 토큰 및 토큰 당 초) 및 정확도 (MMLU 벤치 마크 사용)에 중점을 둡니다.결과는 하이브리드 모델이 특히 더 긴 시퀀스에 대해 상당한 속도 개선을 제공하는 동시에 MMLU 벤치 마크에서 비슷한 정확도를 유지한다는 것을 보여줍니다. 그러나이 연구는 또한 GPU 하드웨어가 속도 및 정확도 측정 모두에 미치는 영향을 강조합니다. 벤치 마크 결과에 대한 다양한 하드웨어의 영향을 탐색하기위한 추가 연구가 제안됩니다.
linearizing-llama-3.2-1b
라이센스 참조 :
위 내용은 선형화 라마의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!