>기술 주변기기 >일체 포함 >알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

PHPz
PHPz원래의
2024-08-06 01:49:02999검색
LLM은 매우 강력하며 LLM의 지속 가능한 확장을 달성하려면 효율성을 향상시킬 수 있는 방법을 찾고 구현하는 것이 필요합니다. 하이브리드 전문가(MoE)는 이러한 유형의 방법의 중요한 구성원입니다.

최근 다양한 기술 기업에서 제안하는 차세대 대형 모델은 모두 MoE(Mixture of Experts) 방식을 사용하고 있습니다.

하이브리드 전문가의 개념은 1991년 "지역 전문가의 적응형 혼합"이라는 논문에서 처음 탄생했습니다. 이는 30년 이상 광범위하게 탐구되고 발전되어 왔습니다. 최근 몇 년 동안 Sparse-gated MoE의 출현과 개발로, 특히 Transformer를 기반으로 한 대규모 언어 모델과 결합되었을 때, 이 30년이 넘은 기술은 새로운 생명을 얻었습니다.

MoE 프레임워크는 간단하면서도 강력한 아이디어를 기반으로 합니다. 모델의 다양한 부분(전문가라고 함)은 다양한 작업이나 데이터의 다양한 측면에 중점을 둡니다.

이 패러다임을 사용하면 입력에는 관련 전문가만 처리에 참여하므로 많은 양의 전문 지식을 활용하면서 계산 비용을 제어할 수 있습니다. 따라서 MoE는 계산 요구 사항을 크게 늘리지 않고도 대규모 언어 모델의 기능을 향상시킬 수 있습니다.

그림 1에서 볼 수 있듯이 특히 2024년 Mixtral-8x7B와 Grok-1, DBRX, Arctic, DeepSeek-V2 등과 같은 다양한 산업 수준 LLM이 등장한 이후 MoE 관련 연구가 크게 성장했습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

이 사진은 홍콩과기대(광저우) 연구팀이 최근 발표한 MoE 검토 보고서에서 나온 것입니다. 이는 MoE 관련 연구를 명확하고 포괄적으로 요약하고 이러한 연구를 제안합니다. 알고리즘, 시스템, 애플리케이션의 세 가지 범주로 분류됩니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

  • 논문 제목: A Survey on Mixture of Experts

  • 논문 주소: https://arxiv.org/pdf/2407.06204

이 사이트는 본 리뷰 보고서의 주요 내용을 편집한 것입니다. 독자들이 MoE의 현재 개발 개요를 이해하는 데 도움이 되도록 자세한 내용은 원본 문서를 읽어보시기 바랍니다. 또한 기사 마지막 부분에 MoE 관련 보고서도 정리했습니다.

하이브리드 전문가의 배경지식

Transformer 기반의 LLM(Large Language Model)에서 각 MoE(하이브리드 전문가) 레이어의 구성은 보통 "전문가 네트워크" {?_1, ... , ?_ ?} "게이팅 네트워크" G와 쌍을 이룹니다.

이 게이팅 네트워크는 일반적으로 입력을 적절한 전문가 네트워크로 안내하는 역할을 하는 소프트맥스 활성화 기능을 사용하는 선형 네트워크 형태입니다. MoE 계층은 Transformer 모듈에 배치되며 그 기능은 일반적으로 SA(Self-Attention) 하위 계층 뒤에 위치하는 FFN(순방향 네트워크)을 선택하는 것입니다. 모델이 성장함에 따라 FFN의 계산 요구 사항도 증가하므로 이러한 배치는 매우 중요합니다. 예를 들어, 5,400억 개의 매개변수가 있는 PaLM 모델에서는 매개변수의 90%가 FFN 레이어에 있습니다.

수학적 형식으로 설명: 각 전문가 네트워크 ?_?(일반적으로 선형 - ReLU - 선형 네트워크)는 동일한 입력 x를 수신하고 출력 ?_?(x; W_?)을 생성하는 W_?에 의해 매개변수화됩니다. 동시에, 매개변수 Θ를 갖는 게이트 네트워크 G(보통 선형-ReLU-선형-소프트맥스 네트워크로 구성됨)는 출력 G(x; Θ)를 얻습니다. 게이팅 기능의 설계 방법에 따라 MoE 계층은 대략 다음 두 가지 범주로 나눌 수 있습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

Dense MoE

dense 혼합 전문가 계층은 각 반복 동안 모든 전문가 네트워크 {?_1, ... , ?_?}를 활성화하는 것입니다. 초기 MoE 연구에서는 일반적으로 이 전략을 채택했습니다. 최근에는 EvoMoE, MoLE, LoRAMoE 및 DS-MoE와 같은 고밀도 MoE를 사용하는 일부 연구가 있었습니다. 그림 2a는 조밀한 MoE 층의 구조를 보여줍니다. 따라서 조밀한 MoE 레이어의 출력은 다음과 같이 표현될 수 있습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

여기서 ?(x;Θ)는 소프트맥스 연산 전의 게이트 값입니다.

Sparse MoE

밀도 혼합 전문가의 예측 정확도는 일반적으로 높지만 계산 부하도 매우 높습니다.

이 문제를 해결하기 위해 Shazeer 등의 논문 "엄청나게 큰 신경망: 희박하게 게이트된 전문가 혼합 계층"에서는 희박하게 게이트된 MoE 계층을 도입합니다. 이는 각 순방향에서 선택된 네트워크만 활성화할 수 있습니다. 전문가의 특정 하위 집합을 통과합니다. 이 전략은 모든 전문가의 출력을 함께 집계하는 대신 상위 k 전문가의 출력에 가중치를 적용한 합계를 계산하여 희소성을 달성합니다. 그림 2b는 이러한 희박한 MoE 층의 구조를 보여줍니다.

위 논문에서 제안된 프레임워크에 따르면 방정식 2.2는 희소 게이팅 메커니즘을 반영하도록 수정될 수 있습니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

설명: TopK(・, ?) 함수는 벡터의 원래 값 중 처음 k 항목만 유지하고 다른 항목은 -무한대로 설정합니다. 그 다음에는 모든 −무한항이 대략 0이 되는 소프트맥스 연산이 이어집니다. 하이퍼파라미터 k는 특정 애플리케이션에 따라 선택되어야 합니다. 일반적인 옵션은 ? = 1입니다. 잡음 용어 R_noise를 추가하는 것은 드물게 게이트된 MoE 계층을 훈련하기 위한 일반적인 전략으로, 전문가 간의 탐색을 촉진하고 MoE 훈련의 안정성을 향상시킵니다.

희소 게이팅 G(x; Θ)는 해당 계산 비용을 늘리지 않고 모델의 매개변수 공간을 크게 확장할 수 있지만 로드 밸런싱 문제가 발생할 수도 있습니다. 로드 밸런싱 문제는 전문가 간의 로드 분배가 고르지 않음을 의미합니다. 일부 전문가는 자주 사용되는 반면 다른 전문가는 거의 사용되지 않거나 전혀 사용되지 않습니다.

이 문제를 해결하려면 각 MoE 계층에 보조 손실 기능을 통합해야 합니다. 이 기능의 역할은 각 토큰 배치가 각 전문가에게 균등하게 분배되도록 하는 것입니다. 수학적 형식 설명에서 먼저 T 토큰 B = {x_1, x_2, ..., x_?} 및 N 전문가를 포함하는 쿼리 일괄 처리를 정의합니다. 그런 다음 보조 로드 밸런싱 손실은 다음과 같이 정의됩니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

여기서 D_i는 전문가 i에 할당된 토큰의 비율이고 P_i는 전문가 i에 할당된 게이팅 확률의 비율입니다. 배치가 N명의 전문가에게 균등하게 분산되도록 하려면 로드 밸런싱 손실 함수 L_{load-balancing}을 최소화해야 합니다. 각 전문가에게 동일한 수의 토큰 D_? = 1/? 및 동일한 게이팅 확률 P_? = 1/?이 할당되면 최적 조건에 도달합니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

이때 각 전문가의 로드는 균형에 도달합니다. .

다음에서 별도로 명시하지 않는 한 "MoE"라는 용어는 "희소 MoE"만을 의미합니다.

하이브리드 전문가 분류

MoE를 대량으로 사용하는 LLM 연구에서 연구원들이 대상을 찾는 데 도움을 주기 위해 팀은 이러한 모델을 알고리즘 설계, 시스템 설계 및 시스템 설계의 세 가지 측면에 따라 분류하는 일련의 분류 방법을 개발했습니다. 응용 프로그램.

그림 3은 이러한 분류 방법과 일부 대표적인 연구 결과를 보여줍니다.

알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

다음은 각 카테고리에 대한 포괄적이고 심층적인 소개입니다.

혼합 전문가의 알고리즘 설계

게이팅 기능

게이팅 기능(라우팅 기능 또는 라우터라고도 함)은 모든 MoE 아키텍처의 기본 구성 요소입니다. 그 역할은 전문가 계산의 사용을 조정하고 전문가를 결합하는 것입니다. 산출.

게이트는 각 입력에 대한 처리 방법에 따라 희소형, 조밀형, 소프트형의 세 가지 유형으로 나눌 수 있습니다. 희소 게이팅 메커니즘은 일부 전문가를 활성화하고, 밀집 게이팅 메커니즘은 모든 전문가를 활성화하며, 소프트 게이팅 메커니즘은 입력 토큰 융합 및 전문가 융합을 포함하여 완전히 차별화 가능한 방법을 포함합니다. 그림 4는 MoE 모델에 사용되는 다양한 게이팅 기능을 보여줍니다. 희소 게이팅 기능은 각 입력 토큰을 처리할 때 선택된 전문가를 활성화하는데, 이는 조건부 계산의 한 형태라고 볼 수 있습니다.

게이팅 기능은 이진 의사결정, 희소 또는 연속 의사결정, 무작위 또는 결정론적 의사결정과 같은 다양한 형태의 게이팅 결정을 구현할 수 있으며 심층적으로 연구되었으며 다양한 형태의 강화 학습 및 역방향 의사결정을 사용할 수 있습니다. 훈련을 위해 퍼집니다. 알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

Shazeer et al.의 연구 "엄청나게 큰 신경망: 희박하게 게이트된 전문가 혼합 계층"은 전문가 계산의 출력에 가중치를 부여하는 보조 로드 밸런싱 손실을 사용하여 미분 가능한 휴리스틱 방법을 개척했습니다. 이는 게이팅 프로세스에 차별화성을 도입하여 게이팅 기능의 최적화가 그라데이션에 의해 안내될 수 있습니다.
  • 이후 이 패러다임은 MoE 연구 분야의 지배적인 패러다임이 되었습니다. 이 방법은 각 입력 토큰에 대해 전문가를 선택하므로 토큰 선택적 게이팅 기능으로 생각할 수 있습니다.

    다음은 이 섹션의 주요 내용입니다. 자세한 내용은 원본 문서를 참조하세요.

토큰 선택적 게이팅

토큰 선택적 게이팅의 보조 손실

선택적 게이팅을 위한 토큰 전문가 역량
  • 토큰 선택적 게이팅 할 수없는 토큰 선택적 게이팅 팅 선택적 게이팅 팅이트 intensivensive
  • 의 다른 발전은 각 입력을 처리 할 때 모든 전문가가 활성화된다는 것을 의미합니다.

    sparse MoE는 효율성 측면에서 장점이 있지만, Dense MoE의 방향은 여전히 ​​혁신을 환영합니다. 특히 LoRA 전문가에게는 상대적으로 낮은 계산 오버헤드로 LoRA-MoE 미세 조정에서 조밀한 활성화가 잘 수행됩니다. 이 접근 방식을 사용하면 여러 LoRA를 효율적이고 유연하게 통합하여 다양한 다운스트림 작업을 완료할 수 있습니다. 이는 각 작업에 대해 각 LoRA의 고유한 특성을 유지하면서 원래 사전 훈련된 모델의 생성 기능을 유지합니다.

    • 소프트 공식

    희소 MoE의 경우 근본적인 개별 최적화 문제는 각 토큰에 할당할 적절한 전문가를 결정하는 방법입니다. 균형 잡힌 전문가 참여를 보장하고 할당되지 않은 토큰을 최소화하려면 경험적 지원 손실이 필요한 경우가 많습니다. 이 문제는 분산되지 않은 데이터(예: 소규모 추론 배치, 새로운 입력 또는 전이 학습)와 관련된 시나리오에서 특히 중요합니다.

    dense MoE와 유사하게, Soft MoE 방법도 각 입력을 처리할 때 모든 전문가를 사용하여 완전한 차별화성을 유지하고 개별 전문가 선택 방법의 고유한 문제를 방지합니다. 소프트 MoE와 밀도 MoE의 차이점은 전자는 입력 토큰 또는 전문가의 게이트 및 가중치 융합을 통해 계산 요구 사항을 완화한다는 것입니다.

    Experts

    이 섹션에서는 MoE 프레임워크 내 전문가 네트워크의 아키텍처를 소개하고 이러한 전문가의 활성화를 조정하는 게이팅 기능에 대해 논의합니다.

    • 네트워크 유형

    MoE는 Transformer 아키텍처에 통합되었기 때문에 이러한 모델의 FFN(순방향 네트워크) 모듈을 대체하는 경우가 많습니다. 일반적으로 MoE 계층의 각 전문가는 대체하는 FFN의 아키텍처를 복제합니다.

    전문가로서 FFN을 활용하는 패러다임은 여전히 ​​주류이지만, 많은 개선도 이루어졌습니다.

    • 하이퍼파라미터

    희소 MoE 모델의 규모는 다음을 포함한 여러 주요 하이퍼파라미터로 제어됩니다.

    • MoE 레이어당 전문가 수

    • 각 전문가의 크기

    • MoE 얼마나 자주 레이어는 모델 전체에 배치됩니다.

    이러한 하이퍼파라미터의 선택은 다양한 작업에서 모델의 성능과 계산 효율성에 큰 영향을 미치기 때문에 매우 중요합니다. 따라서 특정 애플리케이션 요구 사항 및 컴퓨팅 인프라를 기반으로 최적의 하이퍼 매개변수가 선택됩니다. 표 2는 MoE를 사용한 모델의 일부 구성을 보여줍니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    또한 표 3에는 최근 일부 오픈 소스 모델의 매개변수 수와 벤치마크 성능이 나열되어 있습니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    • 활성화 기능

    density Transformer 아키텍처를 기반으로 구축된 Sparse MoE 모델은 BERT, T5, GPT 및 LLAMA와 같은 선두적인 Dense LLM과 유사한 활성화 기능을 채택합니다. 활성화 기능은 ReLU에서 GeLU, GeGLU, SwiGLU 등과 같은 고급 옵션으로 발전했습니다.

    이 추세는 RMSNorm(Root Mean Square Layer Normalization), GQA(Grouped Query Attention) 및 RoPE(Rotated Position Embedding)와 같은 기술을 통합하는 MoE 모델의 다른 구성 요소로도 확장됩니다.

    • Shared Experts

    DeepSpeed-MoE는 Residual-MoE(Residual-MoE) 아키텍처를 혁신적으로 도입했습니다. 각 토큰은 고정 전문가와 게이트 선택 전문가에 의해 처리되어 두 명의 전문가가 참여합니다. 통신 비용은 상위 1개 게이팅 방법을 초과하지 않습니다. 이 접근 방식은 게이팅이 선택한 MoE 전문가를 고정된 밀도 FFN에 대한 오류 수정 보조 도구로 취급합니다.

    NLLB에 사용되는 조건부 MoE 라우팅(CMR/조건부 MoE 라우팅)도 밀도가 높은 FFN 및 MoE 레이어의 출력을 결합하는 유사한 접근 방식을 채택합니다.

    그림 5b와 같이 고정 FFN과 희소 MoE를 통합하는 패러다임을 종종 공유 전문가라고 합니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    DeepSeekMoE, OpenMoE, Qwen1.5-MoE 및 MoCLE과 같은 모델은 최근 이 패러다임을 채택하여 주류 구성이 되고 있음을 나타냅니다. 그러나 DeepSeekMoE 및 Qwen1.5-MoE는 단일 전문가가 아닌 여러 공유 전문가를 사용합니다.

    하이브리드 매개변수 효율적 미세 조정 전문가

    파라미터 효율적 미세 조정(PEFT)은 미세 조정 효율성을 향상시키는 방법입니다. 간단히 말해서 PEFT는 미세 조정 중에 기본 모델 매개변수의 작은 부분만 업데이트합니다.

    PEFT는 성공했지만 훈련 가능한 매개변수가 제한되어 있고 치명적인 망각 문제가 발생할 수 있기 때문에 이 방법은 여러 작업에 대한 일반화가 필요한 상황에서는 사용하기 어렵습니다.

    이러한 한계를 완화하기 위해 MoE 프레임워크와 PEFT를 통합하는 MoPE(Mixed Parameter Efficient Expert)가 탄생했습니다. MoPE는 MoE의 게이팅 메커니즘과 다중 전문가 아키텍처를 통합하고 각 전문가는 PEFT 기술을 사용하여 구축됩니다. 이 영리한 조합은 다중 작업 시나리오에서 PEFT의 성능을 크게 향상시킬 수 있습니다. 또한 PEFT는 전문가를 구축하는 데 사용되기 때문에 MoPE는 기존 MoE 모델보다 더 적은 수의 매개변수를 사용하고 훨씬 더 리소스 효율적입니다.

    MoPE는 MoE의 멀티 태스킹 특성과 PEFT의 자원 효율성을 결합하며 이는 매우 유망한 연구 방향입니다. 그림 6은 Transformer 모델 아키텍처에서의 위치에 따라 MoPE를 분류합니다. MoPE 연구결과에 대한 보다 자세한 소개는 원문을 참고하시기 바랍니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    훈련 및 추론 솔루션

    하이브리드 전문가들이 발전하고 발전하고 있으며, 관련 훈련과 추론 솔루션도 발전하고 발전하고 있습니다.

    초기 훈련 및 추론 솔루션을 사용하려면 MoE 모델을 처음부터 훈련하고 훈련된 모델 구성을 직접 사용하여 추론을 수행해야 합니다.

    그러나 이제 서로를 보완하기 위해 조밀한 모델과 희소 모델의 장점을 결합하는 것을 포함하여 MoE 모델의 훈련 및 추론에 많은 새로운 패러다임이 등장했습니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    그림 7은 MoE와 관련된 훈련 및 추론 솔루션을 보여줍니다. 새로운 솔루션은 다음 세 가지 범주로 나눌 수 있음을 알 수 있습니다.

    • 밀도에서 희소로: 조밀한 모델 훈련에서 시작하여 점진적으로 희소로 전환 MoE 구성;

    • 희소형에서 밀도형으로: 희소형 MoE 모델을 밀도형 형식으로 다운그레이드하여 하드웨어 형식으로 추론을 구현하는 데 유용합니다.

    • 전문 모델 융합: 사전 훈련된 여러 개의 밀도형 전문가 모델을 하나의 통합 MoE 모델.

    MoE의 파생 기술

    MoE(혼합 전문가)는 다양한 변형 기술에 영감을 주었습니다. 예를 들어, Xue et al.의 논문 "깊은 대신 더 넓게"는 모델 너비가 증가된 WideNet을 제안합니다. 이 방법은 Transformer 계층의 공유 훈련 가능성을 유지하면서 순방향 네트워크(FFN)를 MoE 계층으로 대체하는 것입니다. , 정규화 계층을 제외하고.

    이 외에도 Tan 등이 제안한 SYT(Sparse Universal Transformer), Antoniak 등이 제안한 MoT(Hybrid Token), Choi 등이 제안한 SMoP(Sparse Mixed Prompter), Chen 등이 있습니다. Raposo 등이 제안한 Lifelong-MoE, MoD(혼합 깊이) 등

    요약하자면, MoE 기반 기술의 개발은 추세를 드러냅니다. MoE는 점점 더 많은 기능을 보유하고 있으며 다양한 분야에 점점 더 적응 가능해지고 있습니다.

    혼합 전문가의 시스템 설계

    혼합 전문가(MoE)는 대규모 언어 모델의 기능을 향상시킬 수 있지만 희소하고 동적 계산 부하로 인해 새로운 기술적 과제도 가져옵니다.

    GShard는 전문가 능력의 로드 밸런싱 제약에 따라 분할된 부분 토큰을 예약할 수 있는 전문가 병렬성을 도입하여 병렬 게이팅 및 전문가 계산을 달성합니다. 이 패러다임은 MoE 모델의 효율적인 확장을 촉진하는 기본 전략이 되었습니다. 이 접근 방식을 데이터 병렬성의 향상된 버전으로 생각할 수 있습니다. MoE 계층의 각 전문가는 서로 다른 장치에 할당되고 모든 비전문가 계층은 모든 장치에 복제됩니다.

    그림 8a에 표시된 것처럼 전문가 병렬화의 워크플로는 게이트 라우팅, 입력 인코딩, All-to-All 스케줄링, 전문가 계산, All-to-All 조합 및 출력 디코딩 작업을 순서대로 수행하는 것입니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    일반적으로 GEMM의 입력 크기는 컴퓨팅 장치를 완전히 활용할 수 있을 만큼 커야 합니다. 따라서 입력 인코딩은 동일한 전문가의 입력 토큰을 연속적인 메모리 공간으로 집계하는 데 사용되며 이는 게이트 라우팅의 "토큰-전문가 매핑"에 의해 결정됩니다. 이후 All-to-All 스케줄링의 역할은 입력 토큰을 각 장치의 해당 전문가에게 배포하는 것입니다. 그 다음에는 전문가의 현지화 계산이 이어집니다. 계산이 완료된 후 All-to-All 조합을 통해 요약한 다음 출력을 디코딩하고 게이팅 인덱스에 따라 원본 데이터의 레이아웃을 복원합니다.

    또한 일부 연구자들은 대규모 분산 환경에서 MoE 모델의 확장성과 효율성을 향상시키기 위해 전문 병렬성과 기타 기존 병렬 전략(예: 텐서, 파이프라인, 시퀀스 병렬화) 간의 시너지 효과를 탐구하고 있습니다.

    (b) 데이터 + 전문가 + 텐서 병렬화, (c) 데이터 + 전문가 + 파이프라인 병렬화, (d) 전문가 + 텐서 병렬화를 포함한 일부 하이브리드 병렬화 예가 그림 8에 나와 있습니다.

    컴퓨팅 효율성, 통신 부하 및 메모리 사용량 사이에는 복잡한 상호 작용이 있다는 점을 인식해야 합니다. 분산 병렬화 전략의 선택은 이에 영향을 미치며 다양한 하드웨어 구성의 영향도 받습니다. 따라서 실제 적용을 위한 전략을 배포할 때는 신중한 절충이 이루어져야 하며 특정 시나리오에 맞게 조정이 이루어져야 합니다.

    이후 팀은 컴퓨팅, 통신, 스토리지의 세 가지 주요 부문에서 이러한 문제를 해결하기 위한 MoE 모델 개발이 직면한 시스템 설계 과제와 연구 결과를 소개했습니다. 자세한 내용은 원본 논문을 참조하세요. 표 4는 오픈 소스 MoE 프레임워크의 개요를 제공합니다.

    알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해

    믹싱 전문가를 위한 앱

    在目前 Transformer 主導的大型語言模型(LLM)領域,混合專家(MoE)範式頗具吸引力,因為其能在不給訓練和推理階段引入過大計算需求的前提下大幅提升模型能力。這類技術能顯著 LLM 在多種下游任務上的效能,甚至造就了一些超越人類等級的 AI 應用。

    有傳言說強大如斯的GPT-4 可能也採用了某種MoE 架構—— 由8 個2200 億參數的專家構成,在多樣化的數據集和任務上完成了訓練,並使用了一種16 次迭代的推理過程。有關該傳言的更多詳情可參閱本站報道《終極「揭秘」:GPT-4 模型架構、訓練成本、資料集資訊都被扒出來了》。

    所以,毫不奇怪 MoE 在自然語言處理、電腦視覺、推薦系統和多模態應用中遍地開花了。

    這些應用本質上就需要使用條件計算來大幅提升模型的參數量,以此增強模型在固定計算成本下的性能,或透過門控機制實現動態專家選擇來實現高效多任務學習。

    團隊也介紹了這些不同領域的代表性 MoE 應用,可幫助讀者理解如何將 MoE 用於具體任務。詳見原論文。

    挑戰與機會

    混合專家,功能強大,降低成本,提升效能。前景雖好,仍有挑戰。在

    這一節中,團隊整理了 MoE 相關的關鍵性挑戰,並指出了有希望獲得重要成果的未來研究方向。以下簡要列出了這些挑戰和研究方向,更多詳情請查看原論文。

    • 訓練穩定性和負載平衡

    • 可擴展性和通訊開銷

    • 專家的專業化和協作

    • 性稀疏性

      可解釋性和透明性
    • 最優的專家架構
    • 與現有框架整合
    • 最優的專家架構
    • 30年歷史回顧,Jeff Dean:我們整理了一份「稀疏專家模型」研究綜述
    為什麼基於MoE 的大模型更值得關注?

    被 OpenAI、Mistral AI 帶火的 MoE 是怎麼回事?一文貫通專家混合架構部署

    MoE 與Mamba 強強聯合,將狀態空間模型擴展到數百億參數

위 내용은 알고리즘, 시스템 및 애플리케이션, 세 가지 관점에서 하이브리드 전문가(MoE)에 대한 포괄적인 이해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.