집 >기술 주변기기 >일체 포함 >ICML 2024 | LoRA 아키텍처에서 벗어나 학습 매개변수가 크게 줄어들고 새로운 유형의 푸리에 미세 조정이 등장합니다.

ICML 2024 | LoRA 아키텍처에서 벗어나 학습 매개변수가 크게 줄어들고 새로운 유형의 푸리에 미세 조정이 등장합니다.

王林원래의: 2024-06-10 17:58:011254검색

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

이 기사는 Hong Kong University of Science and Technology(Guangzhou)에서 Large Model Efficient Fine-tuning(LLM PEFT)에 관한 기사를 소개합니다. 미세 조정) 기사 "이산 푸리에 변환을 사용한 매개변수 효율적인 미세 조정", 이 기사는 ICML 2024에서 승인되었으며 코드는 오픈 소스입니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

논문 주소: https://arxiv.org/abs/2405.03003
프로젝트 주소: https://github.com/Chaos96/fourierft

배경

대형 기본 모델은 자연어 처리(NLP) 및 컴퓨터 비전(CV) 분야에서 놀라운 성과를 거두었습니다. 특수한 다운스트림 작업에 더 적합하도록 대규모 기본 모델을 미세 조정하는 것이 인기 있는 연구 주제가 되었습니다. 그러나 모델이 점점 더 커지고 다운스트림 작업이 점점 더 다양해짐에 따라 전체 모델을 미세 조정하는 데 따른 컴퓨팅 및 스토리지 소비는 더 이상 허용되지 않습니다. LoRA는 하위 피팅 미세 조정 증분 방식을 채택하여 이러한 소모량을 크게 줄이는 데 성공했지만 각 어댑터(어댑터)의 크기는 여전히 무시할 수 없는 수준입니다. 이는 이 기사의 핵심 질문인 LoRA에 비해 훈련 가능한 매개변수를 더욱 크게 줄이는 방법에 대한 동기를 부여합니다. 또한 흥미로운 추가 질문은 더 적은 수의 매개변수로 상위 증분 행렬 을 얻을 수 있는지 여부입니다.

method

푸리에 기반은 1차원 벡터 신호 및 2차원 이미지의 압축과 같은 다양한 데이터 압축 응용 분야에 널리 사용됩니다. 이러한 응용 분야에서는 밀도가 높은 공간 영역 신호가 푸리에 변환을 통해 희박한 주파수 영역 신호로 변환됩니다. 저자는 이러한 원리를 바탕으로 모델 가중치의 증가도 공간 영역 신호로 간주할 수 있으며 이에 대응하는 주파수 영역 신호는 희소 표현을 통해 실현될 수 있다고 추측합니다.

이 가정을 기반으로 저자는 주파수 영역에서 증분 가중치 신호를 학습하는 새로운 방법을 제안합니다. 구체적으로, 이 방법은 임의의 위치에서 희박한 주파수 영역 신호를 통해 공간 영역 가중치 증가를 나타냅니다. 사전 훈련된 모델을 로드할 때 먼저 n개의 점을 유효한 주파수 영역 신호로 무작위로 선택한 다음 이 신호를 1차원 벡터로 접합합니다. 순방향 전파 과정에서 이 1차원 벡터는 푸리에 변환을 통해 공간 행렬을 복원하는 데 사용됩니다. 역전파 과정에서는 푸리에 변환의 미분성으로 인해 이 학습 가능한 벡터를 직접 업데이트할 수 있습니다. 이 방법은 모델 미세 조정에 필요한 매개변수 수를 효과적으로 줄일 뿐만 아니라 미세 조정 성능도 보장합니다. 이러한 방식으로 저자는 대규모 기본 모델의 효율적인 미세 조정을 달성할 뿐만 아니라 기계 학습 분야에서 푸리에 변환의 잠재적 응용 가치를 보여줍니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

푸리에 변환 기반의 높은 정보 콘텐츠 덕분에 LoRA와 비슷하거나 심지어 이를 초과하는 성능을 달성하려면 작은 n 값만 필요합니다. 일반적으로 푸리에 미세 조정의 훈련 가능한 매개변수는 LoRA의 1/1000에서 1/10에 불과합니다.

Experiments

1. 자연어 이해

저자는 자연어 이해를 위한 GLUE 벤치마크에서 푸리에 미세 조정 방법을 평가했습니다. 기준 비교 방법에는 FF(Full Finetuning), Bitfit, Adapter Tuning, LoRA, DyLoRA 및 AdaLoRA가 포함됩니다. 다음 표는 다양한 GLUE 작업에 대한 다양한 방법의 성능과 필요한 훈련 매개변수의 양을 보여줍니다. 결과는 푸리에 미세 조정이 가장 적은 수의 매개변수를 사용하는 다른 미세 조정 방법의 성능에 도달하거나 심지어 초과한다는 것을 보여줍니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

2. 자연어 교수 미세 조정

대형 모델의 자연어 생성은 현재 모델 미세 조정의 중요한 응용 분야입니다. 저자는 LLaMA 모델 계열, MT-Bench 작업 및 Vicuna 작업에 대한 푸리에 미세 조정 성능을 평가합니다. 결과는 푸리에 미세 조정이 매우 적은 양의 훈련 매개변수로 LoRA와 유사한 효과를 달성한다는 것을 보여주며, 푸리에 미세 조정 방법의 다양성과 효율성을 추가로 검증합니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

3. 이미지 분류

저자는 8가지 일반적인 이미지 분류 데이터 세트를 대상으로 Vision Transformer에서 푸리에 미세 조정 성능을 테스트했습니다. 실험 결과, 이미지 분류 작업에서 푸리에 미세 조정의 압축률 향상은 LoRA에 비해 자연어 작업에 비해 크게 크지는 않지만 LoRA에 비해 훨씬 적은 수의 매개변수로 LoRA의 효과를 능가하는 것으로 나타났습니다. 이는 다양한 응용 분야에서 푸리에 트리밍의 효과와 장점을 더욱 입증합니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

4. 낮은 순위 돌파

GLUE 벤치마크의 RTE 데이터세트에서 FourierFT는 LoRA(일반적으로 4 또는 8)보다 훨씬 높은 순위를 점진적으로 달성할 수 있습니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

5. GPU 리소스 소비

FourierFT는 미세 조정 과정에서 LoRA보다 적은 GPU 소비를 달성할 수 있습니다. 아래 그림은 단일 4090 그래픽 카드를 사용하는 RoBERTa-Large 모델의 최대 메모리 소비량을 보여줍니다.

ICML 2024 | 脱离LoRA架构，训练参数大幅减少，新型傅立叶微调来了

결론

저자는 대규모 기본 모델을 미세 조정할 때 훈련 가능한 매개변수 수를 줄이기 위해 푸리에 변환을 사용하는 푸리에 미세 조정이라는 효율적인 미세 조정 방법을 소개했습니다. 이 방법은 무게 변화를 나타내기 위해 소수의 푸리에 스펙트럼 계수를 학습함으로써 저장 및 컴퓨팅 요구 사항을 크게 줄입니다. 실험 결과 푸리에 미세 조정은 자연어 이해, 자연어 생성, 명령 조정, 이미지 분류 등의 작업에서 기존의 하위 적응 방법(예: LoRA)과 비교하여 우수한 성능을 유지하는 것으로 나타났습니다. 동시에 LoRA의 성능은 훈련 가능한 매개변수가 크게 감소합니다.

위 내용은 ICML 2024 | LoRA 아키텍처에서 벗어나 학습 매개변수가 크게 줄어들고 새로운 유형의 푸리에 미세 조정이 등장합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

架构 transform github transformer nlp https llama

성명：

이전 기사：인공 지능을 사용하여 API 및 마이크로서비스에 대한 클라우드 보안을 강화하는 방법다음 기사：인공 지능을 사용하여 API 및 마이크로서비스에 대한 클라우드 보안을 강화하는 방법