모든 사람이 자신의 대형 모델을 계속 업그레이드하고 반복할 때 LLM(Large Language Model)의 컨텍스트 창 처리 능력도 중요한 평가 지표가 되었습니다.
예를 들어 유명인 대형 모델인 GPT-4는 텍스트 50페이지에 해당하는 32k 토큰을 지원합니다. OpenAI의 전 멤버가 설립한 Anthropic은 Claude의 토큰 처리 능력을 100k(약 75,000 단어)로 늘렸습니다. 이는 원클릭 요약 "해리포터" 1부와 대략 동일합니다.
Microsoft의 최신 연구에서는 이번에 Transformer를 10억 개의 토큰으로 직접 확장했습니다. 이는 전체 코퍼스 또는 전체 인터넷을 하나의 시퀀스로 처리하는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다.
비교하자면, 평균적인 사람은 약 5시간 안에 100,000개의 토큰을 읽을 수 있으며, 이 정보를 소화하고, 기억하고, 분석하는 데 더 오랜 시간이 걸릴 수 있습니다. Claude는 이 작업을 1분 이내에 완료할 수 있습니다. Microsoft의 이 연구 결과로 환산하면 엄청난 숫자가 될 것입니다.
Pictures
특히 이 연구에서는 더 짧은 시퀀스의 성능을 저하시키지 않으면서 시퀀스 길이를 10억 개 이상의 토큰으로 확장할 수 있는 Transformer 변형인 LONGNET을 제안합니다. 이 기사는 또한 모델의 인식 범위를 기하급수적으로 확장할 수 있는 확장된 주의를 제안합니다.
LONGNET에는 다음과 같은 장점이 있습니다.
1) 선형 계산 복잡성이 있습니다.
2) 더 긴 시퀀스에 대한 분산 트레이너로 사용할 수 있습니다.
3) 확장된 주의가 가능합니다. Seam 없이 사용하면 표준 주의를 대체하며 기존 Transformer 기반 최적화 방법과 원활하게 통합될 수 있습니다.
실험 결과 LONGNET은 긴 시퀀스 모델링과 일반 언어 작업 모두에서 강력한 성능을 보이는 것으로 나타났습니다.
연구 동기 측면에서는 최근 신경망을 확장하는 것이 트렌드가 되었고, 성능이 좋은 많은 네트워크가 연구되고 있다고 논문에 나와 있습니다. 그중에서도 신경망의 일부인 시퀀스 길이는 이상적으로는 무한해야 합니다. 그러나 현실은 정반대인 경우가 많으므로 시퀀스 길이의 한계를 깨면 상당한 이점을 얻을 수 있습니다.
그러나 시퀀스 길이를 확장하는 데 있어 가장 큰 과제는 계산 복잡성과 모델 표현력 간의 적절한 균형을 찾는 것입니다.
예를 들어 RNN 스타일 모델은 주로 시퀀스 길이를 늘리는 데 사용됩니다. 그러나 순차적 특성으로 인해 훈련 중 병렬화가 제한되며 이는 긴 시퀀스 모델링에서 매우 중요합니다.
최근 상태 공간 모델은 훈련 중에 CNN으로 실행되고 테스트 시 효율적인 RNN으로 변환될 수 있는 시퀀스 모델링에 매우 매력적이 되었습니다. 그러나 이러한 유형의 모델은 일반 길이에서는 Transformer만큼 성능이 좋지 않습니다.
시퀀스 길이를 연장하는 또 다른 방법은 Transformer의 복잡도, 즉 self-attention의 2차 복잡도를 줄이는 것입니다. 이 단계에서는 낮은 순위 주의, 커널 기반 방법, 다운샘플링 방법 및 검색 기반 방법을 포함하여 몇 가지 효율적인 Transformer 기반 변형이 제안되었습니다. 그러나 이러한 접근 방식은 아직 Transformer를 10억 개의 토큰 규모로 확장하지 못했습니다(그림 1 참조).
Pictures
다음 표는 다양한 계산 방법의 계산 복잡도를 비교한 것입니다. N은 시퀀스 길이이고 d는 숨겨진 차원입니다.
사진
연구 솔루션 LONGNET은 시퀀스 길이를 10억 개의 토큰으로 성공적으로 확장했습니다. 구체적으로 본 연구에서는 Dilated Attention이라는 새로운 구성요소를 제안하고 Vanilla Transformer의 Attention 메커니즘을 Dilated Attention으로 대체합니다. 일반적인 디자인 원칙은 토큰 사이의 거리가 증가함에 따라 주의 할당이 기하급수적으로 감소한다는 것입니다. 연구에 따르면 이 설계 접근 방식은 선형 계산 복잡성과 토큰 간의 대수 의존성을 얻는 것으로 나타났습니다. 이는 제한된 주의 리소스와 모든 토큰에 대한 액세스 간의 충돌을 해결합니다.
Pictures
구현 중에 LONGNET을 고밀도 Transformer로 변환하여 Transformer에 대한 기존 최적화 방법(예: 커널 융합, 양자화 및 분산 교육)을 원활하게 지원할 수 있습니다. 선형 복잡성을 활용하여 LONGNET은 분산 알고리즘을 사용하여 컴퓨팅 및 메모리 제약을 깨고 노드 전체에서 병렬로 훈련될 수 있습니다.
결국 본 연구에서는 시퀀스 길이를 10억 토큰으로 효과적으로 확장했으며, 런타임은 아래 그림과 같이 거의 일정했습니다. 대조적으로, 바닐라 Transformer의 런타임은 2차 복잡성으로 인해 어려움을 겪습니다.
이 연구는 다중 머리 확장 주의 메커니즘을 추가로 소개합니다. 아래 그림 3에서 볼 수 있듯이 이 연구에서는 쿼리-키-값 쌍의 서로 다른 부분을 분산시켜 서로 다른 헤드에 걸쳐 서로 다른 계산을 수행합니다.
Pictures
분산 훈련
확장된 주의력의 계산 복잡도는 으로 크게 줄어들었지만 컴퓨팅 및 메모리 제한으로 인해 시퀀스 길이를 수백만은 실현 가능하지 않습니다. 모델 병렬성[SPP+19], 시퀀스 병렬성[LXLY21, KCL+22] 및 파이프라인 병렬성[HCB+19]과 같은 대규모 모델 훈련을 위한 몇 가지 분산형 훈련 알고리즘이 있지만 이러한 방법은 LONGNET에 충분하지 않습니다. . 특히 시퀀스 차원이 매우 큰 경우.
이 연구에서는 시퀀스 차원의 분산 교육을 위해 LONGNET의 선형 계산 복잡성을 활용합니다. 아래 그림 4는 두 GPU의 분산 알고리즘을 보여주며, 이는 원하는 수의 장치로 확장될 수 있습니다.
이 연구에서는 LONGNET을 바닐라 Transformer 및 Sparse Transformer와 비교했습니다. 아키텍처 간의 차이점은 주의 레이어이고 다른 레이어는 동일하게 유지됩니다. 연구원들은 각 배치의 토큰 수가 변경되지 않도록 배치 크기를 줄이는 동시에 이러한 모델의 시퀀스 길이를 2K에서 32K로 확장했습니다.
표 2에는 Stack 데이터세트에 대한 이러한 모델의 결과가 요약되어 있습니다. 연구에서는 복잡성을 평가 지표로 사용합니다. 모델은 2k에서 32k까지 다양한 시퀀스 길이를 사용하여 테스트되었습니다. 입력 길이가 모델이 지원하는 최대 길이를 초과하는 경우, 연구에서는 언어 모델 추론을 위한 최첨단 외삽 방법인 블록별 인과 주의(BCA) [SDP+22]를 구현합니다.
또한 연구에서는 절대 위치 인코딩을 제거했습니다. 첫째, 결과는 훈련 중에 시퀀스 길이를 늘리면 일반적으로 더 나은 언어 모델이 생성된다는 것을 보여줍니다. 둘째, 추론의 시퀀스 길이 외삽 방법은 길이가 모델이 지원하는 것보다 훨씬 큰 경우 적용되지 않습니다. 마지막으로 LONGNET은 기본 모델보다 지속적으로 뛰어난 성능을 발휘하여 언어 모델링의 효율성을 입증합니다.
시퀀스 길이의 확장 곡선
그림 6은 바닐라 트랜스포머와 LONGNET의 시퀀스 길이 확장 곡선을 나타냅니다. 본 연구에서는 행렬 곱셈의 총 실패 횟수를 계산하여 계산 노력을 추정합니다. 결과는 바닐라 변환기와 LONGNET 모두 훈련을 통해 더 큰 컨텍스트 길이를 달성한다는 것을 보여줍니다. 그러나 LONGNET은 컨텍스트 길이를 보다 효율적으로 확장하여 더 적은 계산으로 더 낮은 테스트 손실을 달성할 수 있습니다. 이는 외삽에 비해 더 긴 훈련 입력의 이점을 보여줍니다. 실험에 따르면 LONGNET은 언어 모델의 컨텍스트 길이를 확장하는 보다 효율적인 방법입니다. 이는 LONGNET이 더 긴 종속성을 보다 효율적으로 학습할 수 있기 때문입니다.
모델 크기 확장
대규모 언어 모델의 중요한 속성은 계산량이 증가함에 따라 거듭제곱 법칙에서 손실이 확장된다는 것입니다. LONGNET이 여전히 유사한 확장 규칙을 따르는지 확인하기 위해 이 연구에서는 다양한 모델 크기(1억 2,500만 개에서 27억 개의 매개변수까지)를 사용하여 일련의 모델을 훈련했습니다. 27억 개의 모델은 3000억 개의 토큰으로 훈련되었으며 나머지 모델은 약 4000억 개의 토큰을 사용했습니다. 그림 7 (a)는 계산과 관련하여 LONGNET의 확장 곡선을 나타냅니다. 이 연구에서는 동일한 테스트 세트에 대한 복잡성을 계산했습니다. 이는 LONGNET이 여전히 멱함수 법칙을 따를 수 있음을 증명합니다. 이는 또한 Dense Transformer가 언어 모델 확장을 위한 전제 조건이 아니라는 것을 의미합니다. 또한 LONGNET을 사용하면 확장성과 효율성이 향상됩니다.
긴 컨텍스트 프롬프트
프롬프트는 언어 모델을 안내하고 추가 정보를 제공하는 중요한 방법입니다. 이 연구에서는 LONGNET이 더 긴 컨텍스트 힌트 창을 통해 이점을 얻을 수 있는지 여부를 실험적으로 검증합니다.
본 연구에서는 접두사(prefixes)를 프롬프트로 유지하고 접미사(suffixes)의 난해함을 테스트했습니다. 또한 연구 과정에서 프롬프트가 2K에서 32K로 점차 확대되었습니다. 공정한 비교를 위해 접미사의 길이는 일정하게 유지하고 접두사의 길이는 모델의 최대 길이까지 늘립니다. 그림 7(b)는 테스트 세트의 결과를 보고합니다. LONGNET의 테스트 손실은 컨텍스트 창이 증가함에 따라 점차 감소하는 것을 보여줍니다. 이는 언어 모델을 개선하기 위해 긴 컨텍스트를 완전히 활용하는 LONGNET의 우수성을 입증합니다.
위 내용은 Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!