대형 모델 기술의 개발 및 구현과 함께 '모델 거버넌스'는 현재 큰 주목을 받는 명제가 되었습니다. 그러나 실제로 연구자들은 종종 여러 가지 어려움에 직면합니다.
한편, 연구자들은 대상 작업에 대한 성능을 향상시키기 위해 대상 작업 데이터 세트를 수집 및 구성하고 LLM(대형 언어 모델)을 미세 조정하지만 이러한 접근 방식은 일반적으로 다음과 같은 문제 이외의 문제를 초래합니다. 일반 작업의 성능이 크게 저하되어 LLM의 원래 일반 기능이 손상됩니다.
한편, 오픈 소스 커뮤니티의 모델 수가 점차 늘어나고 있으며 대규모 모델 개발자도 여러 교육을 통해 점점 더 많은 모델을 축적할 수 있습니다. 각 모델에는 적절한 모델을 선택하는 방법이 있습니다. 대신 작업을 실행하거나 추가 미세 조정이 문제가 됩니다.
최근 지능형 소스 연구소의 정보 검색 및 지식 컴퓨팅 그룹은 대규모 모델 개발자에게 모델 성능을 지속적으로 향상시킬 수 있는 저렴한 방법을 제공하는 것을 목표로 LM-Cocktail 모델 거버넌스 전략을 발표했습니다. 적은 수의 샘플 가중치, 모델 융합 기술을 사용하여 미세 조정된 모델과 원본 모델의 장점을 결합하여 "모델 리소스"를 효율적으로 사용합니다.
모델 융합 기술은 여러 모델을 융합하여 단일 모델의 성능을 향상시킬 수 있습니다. 이에 영감을 받아 LM-Cocktail 전략은 대상 작업에 대한 서로 다른 모델의 중요도를 추가로 계산하고, 서로 다른 모델에 서로 다른 가중치를 부여하며, 이를 기반으로 모델 융합을 수행하면서 대상 작업에 대한 성능을 향상시키지만 일반적으로 유지됩니다. 임무.강력한 능력.
LM-칵테일 전략은 칵테일을 만드는 것과 비슷합니다. 각 모델의 장점과 역량을 종합하고 다양한 모델을 배치하여 다양한 전문성을 갖춘 "다재다능한" 모델을 만들 수 있습니다
특히 LM-Cocktail은 모델 비율을 수동으로 선택하거나 소수의 샘플을 입력하여 자동으로 가중치를 계산함으로써 기존 모델을 융합하여 새로운 모델을 생성할 수 있습니다. 대형 언어 모델 Llama, 의미 벡터 모델 BGE 등 다양한 구조에 적응할 수 있는 모델을 보유하고 있습니다.
개발자가 특정 대상 작업에 대한 레이블 데이터가 부족하거나 모델 미세 조정을 위한 컴퓨팅 리소스가 부족한 경우 LM-Cocktail 전략을 사용하여 모델 미세 조정 단계를 제거할 수 있습니다. 아주 적은 양의 데이터 샘플만 구성하면 되며, 오픈소스 커뮤니티에서 기존의 대규모 언어 모델을 융합해 나만의 "LM 칵테일"을 준비할 수 있습니다
위 그림과 같이, 특정 대상 작업에 대해 라마를 미세 조정하면 대상 작업의 정확도가 크게 향상되지만 다른 작업의 일반적인 능력에는 해를 끼칩니다. LM-Cocktail을 채택하면 이 문제를 해결할 수 있습니다.
LM-Cocktail의 핵심은 미세 조정된 모델을 여러 다른 모델의 매개변수와 융합하여 여러 모델의 장점을 통합하고 다른 작업에 대한 일반적인 기능을 유지하면서 대상 작업의 정확도를 향상시키는 것입니다. 구체적인 형태는 대상 작업이 주어지면 기본 모델, 작업에 대한 기본 모델을 미세 조정한 모델, 오픈 소스 커뮤니티에서 모델을 수집하거나 이전에 학습된 모델을 수집하여 컬렉션을 구성하는 모델입니다. 대상 작업에 대해 소수의 샘플을 통해 각 모델의 융합 가중치를 계산하고, 이러한 모델의 매개변수에 대한 가중치 합을 수행하여 새로운 모델을 얻습니다. (구체적인 프로세스는 논문 또는 오픈 소스 코드를 참조하세요.) . 오픈소스 커뮤니티에 다른 모델이 없는 경우 기본 모델과 미세 조정 모델을 직접 통합하여 일반 기능을 저하시키지 않고 다운스트림 작업의 성능을 향상시킬 수도 있습니다.
실제 애플리케이션 시나리오에서는 데이터 및 리소스 제한으로 인해 사용자가 다운스트림 작업을 미세 조정하지 못할 수도 있습니다. 즉, 대상 작업에 맞게 미세 조정된 모델이 없습니다. 이 경우 사용자는 매우 적은 양의 데이터 샘플을 구성하고 커뮤니티에 있는 기존의 대규모 언어 모델을 통합하여 새로운 작업에 대한 모델을 생성하고 모델을 훈련하지 않고도 대상 작업의 정확도를 향상시킬 수 있습니다.
1. 일반적인 기능을 유지하기 위한 유연한 미세 조정
위 그림에서 볼 수 있듯이 특정 대상 작업에 대한 미세 조정 후 해당 작업에 대한 정확도는 크게 향상되었지만 다른 일반 작업에 대한 정확도는 감소했습니다. 예를 들어, AG News 훈련 세트를 미세 조정한 후 AG News 테스트 세트에서 Llama의 정확도는 40.80%에서 94.42%로 증가했지만 다른 작업에 대한 정확도는 46.80%에서 38.58%로 떨어졌습니다.
그러나 단순히 미세 조정 모델과 원본 모델의 매개 변수를 융합하면 대상 작업에서 미세 조정 모델과 동등한 94.46%의 경쟁 성능을 달성하며 정확도는 47.73입니다. % 다른 작업에서는 원래 모델의 성능보다 약간 더 강력해졌습니다. Helleswag와 같은 특정 작업에서는 융합 모델이 미세 조정 작업에서 미세 조정 모델을 능가하고 다른 작업에서는 원래 일반 모델을 능가할 수 있습니다. 원래 모델을 능가합니다. LM-Cocktail을 통해 융합 비율을 계산하고 다른 미세 조정 모델을 추가로 통합하면 대상 작업의 정확성을 보장하면서 다른 작업에 대한 일반적인 성능을 더욱 향상시킬 수 있음을 알 수 있습니다.
2. 기존 모델을 혼합하여 새 작업 처리
재작성 후 내용: 차트는 언어 모델 대상 작업 MMLU
재작성 후 내용: 사진: 벡터 모델의 대상 작업은 검색(정보 검색)입니다.
모델을 미세 조정하려면 많은 양의 데이터와 많은 양의 컴퓨팅 리소스가 필요하며, 특히 대규모 언어 모델을 미세 조정하는 것은 불가능할 수 있습니다. 실제 상황. 대상 작업을 미세 조정할 수 없는 경우 LM-Cocktail은 기존 모델(오픈 소스 커뮤니티 또는 자체 역사적 훈련 축적)을 혼합하여 새로운 기능을 달성할 수 있습니다.
LM-Cocktail은 5개의 샘플 데이터만 제공하여 자동으로 융합 가중치 가중치를 계산하고 기존 모델을 필터링한 후 융합하여 학습에 많은 양의 데이터를 사용하지 않고도 새로운 모델을 얻습니다. 실험 결과 생성된 새 모델이 새 작업에서 더 높은 정확도를 달성할 수 있는 것으로 나타났습니다. 예를 들어, Llama의 경우 LM-Cocktail은 10개의 기존 모델(MMLU 목록과 관련되지 않은 훈련 작업)을 융합하는 데 사용됩니다. 이는 상당한 개선을 달성할 수 있으며 상황에 대해 5개의 샘플 데이터를 사용하는 Llama 모델보다 높습니다. 학습.
LM-Cocktail을 사용해 보세요. GitHub 문제를 통해 피드백과 제안을 환영합니다: https://github.com/FlagOpen/FlagEmbedding/tree/master/LM_Cocktail
위 내용은 Zhiyuan 및 기타 기관은 LM-Cocktail 모델의 다중 기술 대규모 모델 거버넌스 전략을 발표했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!