>기술 주변기기 >일체 포함 >대형 하위 모델에 적응

대형 하위 모델에 적응

WBOY
WBOY앞으로
2024-01-23 21:03:08658검색

대형 하위 모델에 적응

대형 모델의 저순위 적응은 대형 모델의 고차원 구조를 저차원 구조로 근사화하여 복잡성을 줄이는 방법입니다. 목표는 여전히 좋은 성능을 유지하면서 더 작고 관리하기 쉬운 모델 표현을 만드는 것입니다. 많은 작업에서 대형 모델의 고차원 구조에는 중복되거나 관련 없는 정보가 존재할 수 있습니다. 이러한 중복성을 식별하고 제거함으로써 원래 성능을 유지하면서 보다 효율적인 모델을 생성할 수 있으며 교육 및 배포에 더 적은 리소스를 사용할 수 있습니다.

낮은 순위 적응은 메모리 소비를 줄이면서 대규모 모델의 학습 속도를 높일 수 있는 방법입니다. 그 원리는 사전 훈련된 모델의 가중치를 동결하고 훈련 가능한 순위 분해 행렬을 Transformer 아키텍처의 각 계층에 도입하여 다운스트림 작업에 대해 훈련 가능한 매개변수의 수를 크게 줄이는 것입니다. 이 방법은 원래 행렬을 서로 다른 순위의 두 행렬의 곱으로 분해하여 작동합니다. 단순히 계산에 낮은 순위 행렬을 사용하면 모델 매개변수 수를 줄이고 훈련 속도를 높이며 추론 지연 시간을 늘리지 않고도 모델 품질 측면에서 좋은 성능을 발휘할 수 있습니다.

Low-rank Adaptation example

GPT-3 모델을 예로 들면, LoRA(Low-Rank Adaptation of Large Model)는 신경망의 일부 Dense Layer를 모델의 Rank Decomposition Matrix를 최적화하여 간접적으로 학습시키는 방법입니다. 조밀한 층. LoRA의 장점은 전체 매개변수로 전체 모델을 학습하는 대신 일부 매개변수만 미세 조정하면 되므로 배포 중 운영 효율성이 향상된다는 점입니다. GPT-3 모델에서 LoRA는 전체 매개변수 미세 조정에 필적하는 성능을 달성하기 위해 매우 낮은 순위의 분해 행렬만 최적화하면 됩니다. 이 방법은 저장 및 계산 측면에서 매우 효율적일 뿐만 아니라 과적합 문제를 효과적으로 줄이고 모델의 일반화 능력을 향상시킬 수 있습니다. LoRA를 통해 대형 모델을 다양한 시나리오에 보다 유연하게 적용할 수 있어 딥러닝 개발에 더 많은 가능성을 제공할 수 있습니다.

또한, 하위 적응 아이디어는 간단합니다. 이는 차원 축소를 수행한 다음 차원 작업을 수행하여 소위 고유 차원을 시뮬레이션하는 원래 PLM(사전 학습된 언어 모델) 옆에 우회를 추가함으로써 달성됩니다. 학습 과정에서 PLM의 매개변수는 고정되어 있으며 차원 축소 행렬 A와 차원 향상 행렬 B만 학습됩니다. 모델의 입력 및 출력 치수는 변경되지 않지만 BA 및 PLM의 매개변수는 출력에 중첩됩니다. 차원 감소 행렬 A는 랜덤 가우스 분포를 사용하여 초기화되고, 차원 향상 행렬 B는 0 행렬을 사용하여 초기화되므로 훈련 시작 시 우회 행렬이 여전히 0 행렬임을 보장합니다.

이 아이디어는 우회 업데이트를 사용하여 전체 미세 조정 프로세스를 시뮬레이션하는 잔여 연결과 일부 유사합니다. 실제로 Full Finetuning은 LoRA의 특별한 경우, 즉 r이 k인 경우로 볼 수 있습니다. 이는 모든 가중치 행렬에 LoRA를 적용하고 모든 편향 항을 훈련시키면서 LoRA의 순위 r을 사전 훈련된 가중치 행렬의 순위 k로 설정함으로써 전체 미세 조정의 표현력을 대략적으로 복원할 수 있음을 의미합니다. 즉, 학습 가능한 매개변수의 수가 많아질수록 LoRA의 학습은 원래 모델을 학습하는 경향이 있는 반면, Adapter 기반 방법은 MLP 경향이 있고 Prefix 기반 방식은 오랫동안 처리할 수 없는 모델의 경향이 있습니다. 입력 시퀀스. 따라서 LoRA는 훈련 가능한 매개변수의 수와 모델의 표현력 사이의 균형을 맞추는 유연한 방법을 제공합니다.

저위 적응과 신경망 압축의 차이점은 무엇인가요?

하위 적응과 신경망 압축은 목표와 방법에 약간의 차이가 있습니다.

신경망 압축의 목표는 매개변수와 저장 공간을 줄이고, 계산 비용과 저장 요구 사항을 줄이는 동시에 성능을 유지하는 것입니다. 방법에는 네트워크 구조 변경, 양자화 및 근사화 등이 포함됩니다.

신경망 압축은 근사, 양자화, 자르기 방법의 세 가지 범주로 나눌 수 있습니다.

대략적인 방법은 행렬 또는 텐서 분해를 사용하여 소수의 매개변수를 재구성하고 네트워크 스토리지 오버헤드를 줄입니다.

2) 양자화 방법의 주요 아이디어는 네트워크 매개변수의 가능한 값을 실수 영역에서 유한수 집합으로 매핑하거나 네트워크 매개변수를 더 적은 비트로 표현하여 네트워크 저장 오버헤드를 줄이는 것입니다. .

3) 클리핑 방법은 네트워크의 구조를 직접 변경하는데, 이는 세분성에 따라 계층적 클리핑, 뉴런 수준 클리핑, 신경 연결 수준 클리핑으로 나눌 수 있습니다.

낮은 순위 적응은 모델 매개변수의 차원을 줄여 모델의 복잡성을 줄이는 것을 의미하며 일반적으로 행렬 분해와 같은 기술을 사용하여 구현됩니다. 이 접근 방식은 모델의 예측 기능을 유지하면서 모델의 계산 비용과 스토리지 요구 사항을 줄이는 데 자주 사용됩니다.

일반적으로 신경망 압축은 신경망의 매개변수와 저장 공간을 줄이기 위한 여러 방법을 포괄하는 더 넓은 개념입니다. 낮은 순위 적응은 저차원 구조로 모델을 근사화하여 대규모 모델의 복잡성을 줄이기 위해 설계된 특정 기술입니다.

위 내용은 대형 하위 모델에 적응의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제