9월 23일 국립방위기술대학교, JD.com 및 베이징 공과대학에서 "Deep Model Fusion: A Survey"라는 논문이 출판되었습니다.
딥 모델 융합/병합은 여러 딥 러닝 모델의 매개변수나 예측을 단일 모델로 결합하는 새로운 기술입니다. 이는 더 나은 성능을 위해 개별 모델의 편향과 오류를 보상하기 위해 다양한 모델의 기능을 결합합니다. 대규모 딥 러닝 모델(예: LLM 및 기본 모델)에 대한 딥 모델 융합은 높은 계산 비용, 고차원 매개변수 공간, 서로 다른 이종 모델 간의 간섭 등을 포함한 몇 가지 문제에 직면합니다. 이 논문은 기존의 심층 모델 융합 방법을 네 가지 범주로 나눕니다. (1) 더 나은 모델 융합 초기화를 얻기 위해 손실 감소 경로를 통해 가중치 공간의 솔루션을 연결하는 "패턴 연결", (2) 간의 단위 일치하는 "정렬" (3) "가중 평균"은 최적의 솔루션에 더 가깝고 보다 정확한 결과를 얻기 위해 여러 모델의 가중치를 평균하는 고전적인 모델 융합 방법입니다. 최종 모델의 정확성과 견고성을 향상시키기 위한 기본 기술인 다양한 모델의 출력. 또한 심층 모델 융합이 직면한 과제를 분석하고 향후 모델 융합을 위한 가능한 연구 방향을 제안합니다.
심층 모델 융합은 데이터 개인 정보 보호 및 실질적인 데이터 저장 문제로 인해 점점 더 많은 관심을 받고 있습니다. 심층 모델 융합의 개발로 많은 기술적 혁신이 이루어졌지만 높은 계산 부하, 모델 이질성, 느린 조합 최적화 정렬과 같은 일련의 과제도 발생했습니다. 이는 과학자들이 다양한 상황에서 모델 융합의 원리를 연구하도록 영감을 주었습니다.
일부 작품에서는 매개변수의 융합보다는 단일 관점(예: 기능 융합 등)[45, 195]과 특정 장면[213]의 모델 융합에만 중점을 둡니다. 연합 학습(FL)[160] 및 미세 조정[29]과 같은 최근 발전 및 대표적인 응용 프로그램과 함께 본 논문에서는 이를 내부 메커니즘과 목적에 따라 4가지 범주로 나눕니다. 그림은 전체 모델 융합 과정의 개략도와 다양한 방법의 분류 및 연결을 보여줍니다.
서로 인접하지 않고 독립적으로 훈련된 모델의 경우 "Mode Join" 및 "Align"은 솔루션을 더 가깝게 만들어 더 나은 평균 원시 조건을 제공합니다. 가중치 공간에 특정 차이가 있는 유사한 모델의 경우 "가중 평균(WA)"은 손실 함수 값이 더 낮은 매개변수 공간 영역의 최적 지점에 더 가까운 솔루션을 얻기 위해 모델을 직접 평균화하는 경향이 있습니다. 또한 기존 모델의 예측의 경우 "앙상블 학습"은 다양한 형태의 모델의 예측을 통합하여 더 나은 결과를 얻습니다.
"모델 융합은 심층 모델의 정확성과 견고성을 향상시키는 기술로 많은 응용 분야의 개선을 촉진해 왔습니다. '연합 학습 [160]'은 클라이언트 모델을 중앙 서버에 정확도와 견고성으로 집계하는 모델입니다. 사전 훈련된 모델을 '미세 조정'하여 개인정보 유출 위험 없이 기능 계산(예: 다양한 통계, 분류자[177])에 데이터를 제공할 수 있는 견고성 애플리케이션입니다. 훈련 비용을 줄이고 특정 작업 또는 영역의 요구 사항에 적응하기 위한 모델 융합에는 '증류'도 포함됩니다. 즉, 여러 복잡한 모델(교사)의 소프트 타겟 지식을 결합하여 작은 모델(학생)을 적응시킵니다. '베이스/LLM의 모델 융합'에는 Transformer(ViT)[79], GPT[17] 등과 같은 대규모 기본 모델 또는 LLM(대규모 언어 모델)에 대한 작업이 포함됩니다. 다양한 작업과 영역의 요구 사항을 충족하여 딥 러닝의 발전을 촉진합니다." 단어 수가 가득 찼습니다.
훈련된 네트워크의 결과가 SGD 잡음에 안정적인지 확인하기 위해 손실 장벽(오류 장벽)은 2점 손실 선형 보간과 2점 선형 연결 손실 간의 최대 차이로 정의됩니다[50 ]. 손실 장벽은 W1과 W2 사이의 경로 최적화 그래프[56, 61]를 따라 오류가 일정한지 아니면 증가하는지를 지정합니다. 장벽이 대략 0인 두 네트워크 사이에 터널이 있는 경우 이는 모드 연결과 동일합니다[46, 59, 60]. 즉, SGD를 통해 구한 지역적 최소값은 최대 손실이 최소화되는 경로 를 통해 연결될 수 있다.
그라디언트 기반 최적화에서 얻은 솔루션은 장벽 없이 경로(커넥터)를 통해 가중치 공간에서 연결될 수 있으며, 이를 패턴 연결[46, 50]이라고 합니다. 모델 융합에 더 적합한 다른 모델은 저손실 경로를 따라 얻을 수 있습니다. 경로와 커넥터가 위치한 공간의 수학적 형태에 따라 "선형 모드 연결(LMC) [66]", "비선형 모드 연결" 및 "하위 공간의 패턴 연결"의 세 부분으로 나뉩니다.
패턴 연결은 훈련 중 로컬 최적화 문제를 해결할 수 있습니다. 패턴 연결 경로의 기하학적 관계[61, 162]는 확률적 경사하강법(SGD)과 같은 최적화 프로세스의 수렴, 안정성 및 정확성을 가속화하는 데에도 사용될 수 있습니다. 요약하면, 패턴 연결은 모델 융합의 동작을 해석하고 이해하기 위한 새로운 관점을 제공합니다[66]. 그러나 특히 대규모 데이터세트에서 모델을 교육할 때 계산 복잡성과 매개변수 조정의 어려움을 해결해야 합니다. 다음 표는 선형 모드 연결(LMC) 및 비선형 모드 연결에 대한 표준 교육 절차를 요약한 것입니다.
사진은 2차원 손실 맵과 다른 차원 부분 공간의 패턴 연결 다이어그램을 보여줍니다. 왼쪽: 두 유역 최소값의 선형 보간으로 인해 높은 손실 장벽이 발생합니다[46]. 낮은 두 최적값은 거의 일정한 저손실 경로(예: 베지어 곡선, 폴리박스 체인 등)를 따릅니다[66]. π(W2)는 W1과 동일한 유역에 위치한 W2의 배열 대칭에 대한 등가 모델입니다. Re-Basin은 개별 유역에 대한 솔루션을 제공하여 모델을 병합합니다[3]. 오른쪽: 저손실 경로는 하위 공간(예: d차원 웨지로 구성된 저손실 다양체[56] 등)의 여러 최소값을 연결합니다.
다음 표는 서로 다른 지역 최소값 사이의 터널을 찾는 방법입니다.
간단히 말하면, 패턴 연결은 심층 모델 융합을 위한 더 새롭고 유연한 관점을 제공합니다. 신경망 훈련은 지역적 최적성에 쉽게 빠져 성능 저하로 이어질 수 있습니다. 모델 연결을 기반으로 더 나은 성능을 가진 다른 모델을 찾아 추가 최적화 및 융합을 위한 출발점으로 사용할 수 있습니다. 이미 훈련된 모델을 사용하여 매개변수 공간에서 이동하여 새로운 목표 모델에 도달할 수 있습니다. 이는 시간과 계산 오버헤드를 절약할 수 있고 데이터가 제한된 상황에 적합합니다. 그러나 서로 다른 모델을 연결하면 복잡성과 유연성이 추가되어 과적합 위험이 높아질 수 있습니다. 따라서 관련 하이퍼파라미터와 변동 정도를 신중하게 제어해야 합니다. 또한 패턴 연결에는 미세 조정이나 매개변수 변경이 필요하므로 훈련 시간과 리소스 소비가 늘어날 수 있습니다. 요약하면, 모델 연결성은 로컬 최적 문제를 극복하는 데 도움을 주고 네트워크 동작을 설명하기 위한 새로운 관점을 제공하는 등 모델 융합에 많은 이점을 제공합니다. 앞으로 패턴 연결은 신경망의 내부 메커니즘을 이해하는 데 도움이 되고, 향후 보다 효율적인 심층 모델 융합 설계를 위한 지침을 제공할 것으로 기대됩니다.
다양한 네트워크의 채널 및 구성 요소의 무작위성으로 인해 네트워크의 활성 구성 요소가 서로 간섭합니다[204]. 따라서 잘못 정렬된 가중 평균은 서로 다른 모델의 단위 간 대응을 무시하고 유용한 정보를 손상시킬 수 있습니다. 예를 들어, 서로 다른 모델의 두 뉴런 사이에는 완전히 다르지만 기능적으로 유사한 관계가 있습니다. 정렬은 심층 모델 융합을 위한 더 나은 초기 조건을 얻기 위해 서로 다른 모델의 단위를 일치시키는 것입니다. 목적은 여러 모델 간의 차이를 더 작게 만들어 심층 모델 융합 효과를 높이는 것입니다. 게다가 정렬은 본질적으로 조합 최적화 문제로 볼 수 있습니다. 개별 유역에 대한 솔루션을 제공하고 모델을 더 나은 원래 조건으로 병합하는 대표적인 메커니즘 "Re-basin"입니다. 정렬 대상이 데이터 기반인지 여부에 따라 정렬은 표와 같이 "활성화 매칭"과 "가중치 매칭"의 두 가지 유형으로 구분됩니다.
일반적으로 얕은 신경망의 경우에도 안장점 수와 로컬 최적점 수는 매개변수 수에 따라 기하급수적으로 증가합니다[10, 66]. 훈련에는 불변성이 있어 이러한 로컬 최적의 일부 지점이 동일한 표현을 갖는 것으로 나타났습니다 [22, 81, 140]. 구체적으로, 은닉층의 단위가 순열에 의해 교환되면 네트워크의 기능은 변하지 않으며 이를 순열 대칭[43, 50]이라고 합니다.
이러한 불변으로 인한 순열 대칭은 손실 그래프의 구조를 더 잘 이해하는 데 도움이 됩니다[22, 66]. 불변성은 손실 그래프에서 안장점의 소스로 볼 수도 있습니다[14]. [68]은 신경망 대칭의 대수적 구조와 이 구조가 손실 그래프 기하학에서 어떻게 나타나는지 연구합니다. [14]는 손실이나 매개변수 점프를 증가시키지 않고 뉴런을 교환할 수 있는 고차원 플랫폼에 순열 지점을 도입했습니다. 벡터가 정렬 지점에 도달할 때까지 뉴런 m 및 n의 매개변수 벡터 θm 및 θn을 조정하여 손실에 대한 경사하강법을 수행합니다.
순열 대칭을 기반으로 가중치 공간의 다양한 영역에 있는 솔루션은 동등한 솔루션을 생성할 수 있습니다. 동등한 솔루션은 "Re-basin"이라고 불리는 저손실 장벽(유역)을 사용하여 원래 솔루션과 동일한 지역에 위치합니다[3]. 패턴 연결과 비교하여, 재유역은 저손실 터널링보다는 정렬을 통해 포인트를 유역으로 이동시키는 경향이 있습니다. 현재 정렬은 Re-basin의 대표적인 방법이다[3, 178]. 그러나 모든 솔루션이 동일한 유역을 가리키도록 순열 대칭의 모든 가능성을 효율적으로 검색하는 방법은 현재 과제입니다.
사진은 정렬된 점 교환 뉴런을 소개하는 [14]의 개략도입니다. 왼쪽: 일반적인 정렬 과정, 모델 A가 모델 B를 참조하여 모델 Ap로 변환된 후 Ap와 B의 선형 결합이 C를 생성합니다. 오른쪽: 정렬 지점에 가까운 서로 다른 숨겨진 레이어에 있는 두 뉴런의 매개변수 벡터 θm 및 θn을 조정합니다. 정렬 지점[14] θ′m = θ′n에서 두 뉴런은 동일한 함수를 계산합니다. 뉴런은 교환될 수 있다.
Alignment는 모델의 매개변수를 조정하여 모델을 더욱 유사하게 만들어 모델 간 정보 공유를 향상시켜 융합 모델의 일반화 능력을 향상시킬 수 있습니다. 또한 정렬은 복잡한 작업에서 모델 성능과 견고성을 향상시키는 데 도움이 됩니다. 그러나 정렬 방법은 느린 조합 최적화 문제에 직면합니다. 정렬에는 모델의 매개변수를 조정하기 위한 추가 계산 오버헤드가 필요하며, 이는 특히 깊이가 큰 모델에서 더 복잡하고 시간이 많이 걸리는 훈련 프로세스로 이어질 수 있습니다[142, 204].
요약하자면, 정렬은 서로 다른 모델 간의 일관성과 전반적인 효과를 향상시킬 수 있습니다. DL 애플리케이션 시나리오가 다양해짐에 따라 정렬은 심층 모델 융합을 최적화하고 일반화 기능을 향상시키는 핵심 방법 중 하나가 될 것입니다. 미래에는 정렬이 전이 학습, 도메인 적응[63], 지식 증류 및 기타 분야에서 역할을 할 수 있습니다. 예를 들어 정렬은 전이 학습에서 소스 도메인과 대상 도메인 간의 차이를 줄이고 새로운 도메인에 대한 학습을 향상시킬 수 있습니다.
신경망 매개변수의 중복성이 높기 때문에 일반적으로 서로 다른 신경망의 가중치 간에는 일대일 대응이 없습니다. 따라서 WA(가중 평균)는 일반적으로 기본적으로 제대로 수행된다는 보장이 없습니다. 일반적인 평균화는 가중치 차이가 큰 훈련된 네트워크에 대해 제대로 수행되지 않습니다[204]. 통계적 관점에서 WA는 모델의 개별 모델 매개변수를 제어할 수 있으므로 최종 모델의 분산이 줄어들고 정규화 속성 및 출력 결과에 신뢰할 수 있는 영향을 미칠 수 있습니다[77, 166].
다음 표는 WA의 대표적인 방법입니다.
Inspired by Fast Geometry Ensemble(FGE) [66] 및 체크포인트 평균화 [149], [99]에서 상수 또는 주기성을 활용 학습 비율은 SWA(확률적 가중치 평균)라고 알려진 SGD 궤적의 여러 지점에 걸쳐 평균화됩니다. SWA는 다양한 중요 기준에 대한 교육을 개선하여 더 나은 시간적 확장성을 제공합니다. SWA는 모델 모음(예: 일반 융합)을 훈련하는 대신 단일 모델을 훈련하여 SGD보다 더 원활한 솔루션을 찾습니다. SWA 관련 방법은 다음 표에 나열되어 있습니다. 또한 SWA는 모든 아키텍처 또는 데이터 세트에 적용할 수 있으며 Snapshot Ensemble (SSE) [91] 및 FGE보다 더 나은 성능을 보여줍니다. 각 기간이 끝나면 새로 얻은 가중치를 기존 가중치와 평균하여 SWA 모델이 업데이트됩니다.
그러나 SWA는 로컬 최적점 근처의 포인트만 평균화할 수 있으며 최종적으로 상대적 최소값을 얻을 수 있지만 최적값을 정확하게 근사할 수는 없습니다. 또한 특정 요인(예: 초기 수렴 불량, 높은 학습률, 빠른 가중치 변경 속도 등)으로 인해 최종 입력 샘플 편차가 크거나 부족하여 전체 결과가 좋지 않을 수 있습니다. 광범위한 작업으로 인해 SWA 샘플링 방법이 변경되는 경향이 있습니다.
그림과 같이 다양한 SWA 관련 방법의 샘플링 및 학습률 배열을 비교합니다. (a) SWA: 일정한 학습 속도. (b)SWA: 주기적 학습률. (c) SWAD: 조밀한 샘플링. (d) HWA: 온라인 및 오프라인 WA를 사용하여 서로 다른 동기화 기간에 샘플링하면 슬라이딩 윈도우 길이는 h입니다.
모델 수프[239]는 다양한 하이퍼파라미터로 미세 조정된 모델을 평균화하는 방법을 말합니다. 간단하지만 효과적이며 ImageNet-1K에서 90.94%의 정확도를 달성하여 CoAtNet-7(90.88%)[38] 및 ViT-G(90.45%)[255]의 이전 작업을 능가합니다. 표에는 다양한 모델 수프 방법이 요약되어 있습니다.
다중 작업 학습(MTL)에서는 사전 훈련된 모델과 작업 벡터(예: τi = Wft − Wpre, 사전 훈련된 모델과 미세 조정 모델의 차이)를 결합하여 모든 항목에서 더 나은 성능을 얻습니다. 작업. 이러한 관찰을 바탕으로 Task Arithmetic[94]은 추가 및 선형 결합을 통해 작업 벡터를 미세 조정하여 작업에 대한 모델의 성능을 향상시키며, 이는 그림과 같이 사전 훈련된 모델을 직접 편집하는 유연하고 효율적인 방법이 되었습니다. 그림: 산술 및 LoraHub 작업 채택(하위 적응 허브).
또한 하위 공간의 모델 융합은 훈련 궤적을 저차원 하위 공간으로 제한하므로 부하와 난이도를 줄일 수 있습니다.
WA는 추가적인 계산 복잡성이나 훈련 과정 없이 다양한 깊이 모델의 가중치를 평균하여 최종 모델을 얻습니다[109, 159]. 일반적으로 무작위 모델의 표현 기능, 구조 또는 훈련 데이터가 크게 다른 경우 융합 결과가 예상 성능을 달성하지 못할 수 있습니다. 동일한 하이퍼파라미터 구성을 사용하지만 데이터 순서가 다른 모델을 처음부터 선형 보간하는 것은 확률론적 모델보다 덜 효과적입니다[59]. 따라서 제안된 많은 방법은 다른 수학적 방법으로 WA 프로세스를 최적화하는 것을 목표로 합니다.
게다가 모델이 최적화 궤적의 일부를 공유하거나(예: 체크포인트 평균화, 꼬리 평균화, SWA [99, 149] 등) 사전 훈련된 동일한 모델에서 미세 조정되는 경우(예: 모델 수프 [ 239] 등), 보간 모델의 정확도가 더 좋습니다 [167]. 또한 모델 수프[239]는 최종 결과를 얻기 위해 다양한 하이퍼 매개변수 구성을 사용하여 모델을 평균화합니다. 또한 모델 평균화에서 적절한 가중치를 선택하는 것도 어려울 수 있으며, 이는 종종 주관성으로 가득 차 있습니다. 보다 정교한 가중치 선택 메커니즘에는 광범위하고 복잡한 실험과 교차 검증이 필요할 수 있습니다.
WA는 딥러닝에서 유망한 기술로, 향후 여러 반복 간 가중치 변동을 줄이고 안정성과 수렴 속도를 향상시키는 모델 최적화 기술로 사용될 수 있습니다. WA는 연합 학습(FL)의 집계 단계를 개선하여 개인 정보를 더 잘 보호하고 향후 통신 비용을 줄일 수 있습니다. 또한, 최종 장치에 네트워크 압축을 구현함으로써 리소스가 제한된 장치에서 모델의 저장 공간과 계산 오버헤드를 줄일 수 있을 것으로 기대됩니다[250]. 즉, WA는 성능을 향상시키고 스토리지 오버헤드를 줄이기 위해 FL과 같은 영역에 적용할 수 있는 유망하고 비용 효과적인 DL 기술입니다.
앙상블 학습 또는 다중 분류 시스템은 여러 단일 모델을 통합하여 투표, 평균화[195] 등을 포함한 최종 예측을 생성하는 기술입니다. 이는 전반적인 성능을 향상시키고 모델의 분산을 줄여 과적합, 불안정성 및 제한된 데이터 양과 같은 문제를 해결합니다.
기존 사전 훈련된 소스 모델을 기반으로 모델 재사용[266]은 새 모델을 처음부터 다시 훈련할 필요 없이 새로운 작업에 적용하는 데 필요한 모델을 제공합니다. 시간과 컴퓨팅 자원을 절약하고 제한된 자원 조건에서 더 나은 성능을 제공합니다[249]. 또한, 전이 학습의 초점은 목표 도메인에 대한 예측 작업을 해결하는 것이므로 모델 재사용은 전이 학습의 한 유형으로 간주될 수 있습니다. 그러나 전이 학습에는 원본 도메인과 대상 도메인의 레이블이 있는 데이터가 필요한 반면, 모델 재사용에서는 레이블이 없는 데이터만 수집할 수 있고 원본 도메인의 데이터는 사용할 수 없습니다[153].
다중 분류기 앙상블 학습과 달리 대부분의 최신 방법은 기존 기능, 레이블 또는 양식을 재사용하여 대량의 훈련 데이터[245]를 저장하지 않고도 최종 예측을 얻습니다[176, 266]. 모델 재사용의 또 다른 주요 과제는 주어진 학습 작업에 대해 사전 훈련된 모델 세트에서 유용한 모델을 식별하는 것입니다.
모델 재사용을 위해 단일 모델을 사용하면 동질적인 정보가 너무 많이 생성되며(예: 한 도메인에서 훈련된 모델이 다른 도메인의 데이터와 맞지 않을 수 있음) 완전히 적합한 사전 훈련된 단일 모델을 찾기가 어렵습니다. 대상 도메인. 일반적으로 단일 모델보다 더 나은 성능을 내기 위해 유사한 모델 세트를 사용하는 것은 다중 모델 재사용(MMR)[153]으로 표현됩니다.
다음 표에서는 다양한 재사용 방법의 특성을 비교합니다. 즉, 모델 재사용은 사전 훈련된 모델을 사용하는 데 필요한 데이터 양을 크게 줄이고 서로 다른 끝점 간에 데이터를 전송할 때 많은 양의 대역폭을 소비하는 문제를 해결할 수 있습니다. 다중 모델 재사용에는 음성 인식, 보안 및 개인 대화형 시스템, 디지털 망막[64] 등과 같은 광범위한 응용 분야도 있습니다.
모델 매개변수 및 규모에 대한 특정 요구 사항이 있는 연합 학습[88, 89, 160]과 같은 관련 모델 융합 알고리즘과 비교할 때, 앙상블 학습 방법을 사용하여 예측을 사용하여 여러 이종 약한 분류기를 결합하는 것은 없습니다. 한계. 또한, 통합 방식에 있어 서로 다른 아키텍처를 가진 네트워크는 WA보다 더 확실한 비교 효과를 갖게 됩니다. 그러나 앙상블 접근 방식을 사용하려면 훈련된 여러 모델을 유지 및 실행하고 테스트 시 함께 실행해야 합니다. 딥러닝 모델의 크기와 복잡성을 고려할 때, 이 접근 방식은 계산 리소스와 비용이 제한된 애플리케이션에는 적합하지 않습니다[204].
앙상블 학습 프레임워크의 다양성으로 인해 모델 다양성이 달성되고 일반화 능력이 향상됩니다. 앞으로 이는 데이터 변경 및 적대적 공격을 처리하는 데 중요할 것입니다. 딥러닝의 앙상블 학습은 의사결정 지원 시스템, 자율주행[74], 의료 진단 등의 안전성과 신뢰성에 중요한 모델 예측에 대한 신뢰도 추정 및 불확실성 측정을 제공할 것으로 기대됩니다.
최근에는 심층 모델 융합 분야에서 새로운 연구가 대거 등장했고, 이는 관련 응용 분야의 발전도 촉진하고 있습니다.
데이터 저장의 보안 및 중앙 집중화 문제를 해결하기 위해 Federated Learning(FL) [160, 170]을 사용하면 많은 참여 모델이 공유 글로벌 모델을 공동으로 교육하는 동시에 수집할 필요 없이 데이터 개인 정보를 보호할 수 있습니다. 중앙 서버에 집중되어 있습니다. 이는 다자간 학습 문제로 볼 수도 있습니다[177]. 특히 aggregation은 FL의 중요한 프로세스로, 다양한 당사자(예: 장치, 조직 또는 개인)에서 학습한 모델 또는 매개변수 업데이트가 포함됩니다. 그림은 중앙 집중식 FL과 분산형 FL의 두 가지 서로 다른 집계 방법을 보여줍니다. , 왼쪽: 중앙 서버와 클라이언트 터미널 간의 중앙 집중식 연합 학습, 모델 또는 그라디언트 전송 및 최종적으로 서버에서 집계. 오른쪽: 분산형 연합 학습은 중앙 서버 없이도 클라이언트 터미널 간에 모델을 전송하고 집계합니다.
다음 표는 연합 학습의 다양한 집계 방법을 보여줍니다.
간단히 말하면 FL의 집계 단계의 본질은 모델 융합 기술입니다. 합리적인 모델 융합 방법을 선택하면 특정 참여자 또는 개별 데이터가 최종 모델에 미치는 영향을 줄일 수 있으며, 이를 통해 글로벌 범위에서 모델의 일반화 능력과 적응성을 향상시킬 수 있습니다. 좋은 집계 방법은 향후 연합 학습의 다양한 과제를 해결하는 데 도움이 될 것으로 예상됩니다. 고품질의 확장 가능한 집계 방법은 클라이언트 이질성, 비 IID 이종 데이터, 제한된 컴퓨팅 리소스[141] 등과 같은 FL의 일련의 과제에 직면할 것으로 예상됩니다. FL은 자연어 처리, 추천 시스템[146], 의료 영상 분석[144] 등 더 많은 분야에서 잠재력을 발휘할 것으로 예상됩니다.
Fine-tuning은 기본 패턴(예: 사전 훈련된 모델)이며 다운스트림 작업을 수행하기 위해 모델을 조정하는 효과적인 방법입니다[23, 41]. 라벨이 붙은 데이터가 적고 출력이 더 정확합니다. 사전 훈련된 모델은 상대적으로 작업별 데이터 세트로 훈련되며, 이는 항상 무작위 초기화보다 훈련 기준에 대한 더 나은 시작점이 됩니다. 그럼에도 불구하고. 평균적으로 기존 미세 조정 모델[28, 29]은 미세 조정 다운스트림 작업을 위한 일반적인 사전 훈련 모델보다 훨씬 더 나은 기본 모델입니다.
이 외에도 모델 수프 [239], DiWA [190] 등 그림과 같이 WA와 미세 조정을 결합한 최근 작품이 많이 있습니다. 미세 조정은 목표 분포의 정확성을 향상시키지만 종종 분포 변경에 대한 견고성이 감소하는 결과를 낳습니다. 미세 조정된 모델을 평균화하는 전략은 간단할 수 있지만 각 미세 조정된 모델 간의 연결을 완전히 활용하지는 않습니다. 따라서 목표 작업에 대한 훈련 전에 중간 작업에 대한 훈련을 통해 기본 모델의 기능을 탐색할 수 있습니다[180, 185, 224]. 상호 훈련 전략[185], [188]에서 영감을 받아 보조 작업에 대한 모델을 미세 조정하여 다양한 보조 작업을 활용하고 OOD(Out-of-Distribution) 일반화 기능을 개선합니다.
모델의 평균을 미세 조정하면 목표를 달성하는 데 필요한 학습 시간이 줄어들고 [28] 더 정확하고 더 나은 일반화 모델이 생성됩니다. 본질적으로 다양한 미세 조정 방법(예: 동결 레이어 미세 조정, 최상위 미세 조정 등)도 최종 정확도 및 분포 이동에 일정한 영향을 미칩니다[240]. 그러나 WA와 미세 조정을 결합하면 비용이 많이 들고 특정 애플리케이션에 특정 제한이 있습니다. 또한, 특히 전이 학습에 적용할 때 저장된 체크포인트 폭발 또는 치명적인 망각 문제에 직면할 수 있습니다[121].
Knowledge Distillation(KD) [83]은 다음 두 가지 유형의 모델을 포함하는 여러 모델을 통합하는 중요한 방법입니다. 교사 모델은 예측 능력과 표현 능력이 뛰어나 대규모 데이터에 대해 훈련된 크고 강력한 모델을 의미합니다. 학생 모델은 매개변수와 계산 리소스가 더 적은 비교적 작은 모델입니다[18, 199]. 교육을 안내하기 위해 교사의 지식(예: 출력 확률 분포, 숨겨진 레이어 표현 등)을 사용하여 학생들은 더 적은 리소스와 더 빠른 속도로 대규모 모델에 가까운 예측 기능을 달성할 수 있습니다[2, 119, 124, 221]. 여러 명의 교사나 학생이 단일 모델보다 더 나은 성과를 낼 것으로 예상된다는 점을 고려하면[6], KD는 그림과 같이 집계 목표에 따라 두 가지 범주로 나뉩니다.
첫 번째 방법은 표와 같이 여러 개의 교사 모델을 병합하고 학생 모델을 직접 추출하는 것입니다. 현재 최근 작업은 주로 교사의 결과(예: 로지트[6, 49, 252] 또는 기능 기반 지식[143, 241] 등)를 통합합니다.
또 다른 접근 방식은 교사 모델을 사용하여 여러 학생을 추출한 다음 이러한 학생 모델을 병합하는 것입니다. 그러나 여러 학생을 병합하면 높은 계산 리소스 요구 사항, 낮은 해석성, 원본 모델에 대한 과도한 의존 등 몇 가지 문제도 발생합니다.
기본 모델은 복잡한 작업을 처리할 때 강력한 성능과 창발적인 기능을 보여줍니다. 대형 기본 모델은 수십억 개의 매개변수를 포함하는 거대한 규모가 특징이며 . 특히 최근에는 GPT-3 [17, 172], T5 [187], BERT [41], Megatron-LM, WA 애플리케이션 등 새로운 LLM [200, 264]이 등장하면서 [154, 212, 256]] LLM이 더 많은 관심을 끌었습니다.
또한 최근 연구[120, 256]에서는 LLM 적용에 적합하도록 더 나은 프레임워크와 모듈을 설계하는 경향이 있습니다. 고성능과 낮은 계산 자원으로 인해 대규모 기본 모델을 미세 조정하면 분포 변화에 대한 견고성을 향상시킬 수 있습니다[240].
위 내용은 검토! 심층 모델 융합(LLM/기본 모델/연합 학습/미세 조정 등)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!