찾다
기술 주변기기일체 포함Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.

모든 사람이 자신의 대형 모델을 계속 업그레이드하고 반복할 때 LLM(Large Language Model)의 컨텍스트 창 처리 능력도 중요한 평가 지표가 되었습니다.

예를 들어 유명인 대형 모델인 GPT-4는 텍스트 50페이지에 해당하는 32k 토큰을 지원합니다. OpenAI의 전 멤버가 설립한 Anthropic은 Claude의 토큰 처리 능력을 100k(약 75,000 단어)로 늘렸습니다. 이는 원클릭 요약 "해리포터" 1부와 대략 동일합니다.

Microsoft의 최신 연구에서는 이번에 Transformer를 10억 ​​개의 토큰으로 직접 확장했습니다. 이는 전체 코퍼스 또는 전체 인터넷을 하나의 시퀀스로 처리하는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다.

비교하자면, 평균적인 사람은 약 5시간 안에 100,000개의 토큰을 읽을 수 있으며, 이 정보를 소화하고, 기억하고, 분석하는 데 더 오랜 시간이 걸릴 수 있습니다. Claude는 이 작업을 1분 이내에 완료할 수 있습니다. Microsoft의 이 연구 결과로 환산하면 엄청난 숫자가 될 것입니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.Pictures

  • 문서 주소: https://arxiv.org/pdf/2307.02486.pdf
  • 프로젝트 주소: https://github.com/microsoft/unilm/tree/master

특히 이 연구에서는 더 짧은 시퀀스의 성능을 저하시키지 않으면서 시퀀스 길이를 10억 ​​개 이상의 토큰으로 확장할 수 있는 Transformer 변형인 LONGNET을 제안합니다. 이 기사는 또한 모델의 인식 범위를 기하급수적으로 확장할 수 있는 확장된 주의를 제안합니다.

LONGNET에는 다음과 같은 장점이 있습니다.

1) 선형 계산 복잡성이 있습니다.

2) 더 긴 시퀀스에 대한 분산 트레이너로 사용할 수 있습니다.

3) 확장된 주의가 가능합니다. Seam 없이 사용하면 표준 주의를 대체하며 기존 Transformer 기반 최적화 방법과 원활하게 통합될 수 있습니다.

실험 결과 LONGNET은 긴 시퀀스 모델링과 일반 언어 작업 모두에서 강력한 성능을 보이는 것으로 나타났습니다.

연구 동기 측면에서는 최근 신경망을 확장하는 것이 트렌드가 되었고, 성능이 좋은 많은 네트워크가 연구되고 있다고 논문에 나와 있습니다. 그중에서도 신경망의 일부인 시퀀스 길이는 이상적으로는 무한해야 합니다. 그러나 현실은 정반대인 경우가 많으므로 시퀀스 길이의 한계를 깨면 상당한 이점을 얻을 수 있습니다.

  • 첫째, 모델에 대용량 메모리와 수용 필드를 제공하여 인간과 효과적으로 소통할 수 있습니다. 세계.
  • 두 번째로, 더 긴 컨텍스트에는 모델이 훈련 데이터에서 활용할 수 있는 더 복잡한 인과 관계와 추론 경로가 포함되어 있습니다. 반대로, 종속성이 짧을수록 가짜 상관 관계가 더 많아지며 이는 모델의 일반화에 도움이 되지 않습니다.
  • 세 번째로 긴 시퀀스 길이는 모델이 더 긴 컨텍스트를 탐색하는 데 도움이 될 수 있으며, 매우 긴 컨텍스트는 모델이 치명적인 망각 문제를 완화하는 데 도움이 될 수도 있습니다.

그러나 시퀀스 길이를 확장하는 데 있어 가장 큰 과제는 계산 복잡성과 모델 표현력 간의 적절한 균형을 찾는 것입니다.

예를 들어 RNN 스타일 모델은 주로 시퀀스 길이를 늘리는 데 사용됩니다. 그러나 순차적 특성으로 인해 훈련 ​​중 병렬화가 제한되며 이는 긴 시퀀스 모델링에서 매우 중요합니다.

최근 상태 공간 모델은 훈련 중에 CNN으로 실행되고 테스트 시 효율적인 RNN으로 변환될 수 있는 시퀀스 모델링에 매우 매력적이 되었습니다. 그러나 이러한 유형의 모델은 일반 길이에서는 Transformer만큼 성능이 좋지 않습니다.

시퀀스 길이를 연장하는 또 다른 방법은 Transformer의 복잡도, 즉 self-attention의 2차 복잡도를 줄이는 것입니다. 이 단계에서는 낮은 순위 주의, 커널 기반 방법, 다운샘플링 방법 및 검색 기반 방법을 포함하여 몇 가지 효율적인 Transformer 기반 변형이 제안되었습니다. 그러나 이러한 접근 방식은 아직 Transformer를 10억 ​​개의 토큰 규모로 확장하지 못했습니다(그림 1 참조).

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.Pictures

다음 표는 다양한 계산 방법의 계산 복잡도를 비교한 것입니다. N은 시퀀스 길이이고 d는 숨겨진 차원입니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.사진

Method

연구 솔루션 LONGNET은 시퀀스 길이를 10억 ​​개의 토큰으로 성공적으로 확장했습니다. 구체적으로 본 연구에서는 Dilated Attention이라는 새로운 구성요소를 제안하고 Vanilla Transformer의 Attention 메커니즘을 Dilated Attention으로 대체합니다. 일반적인 디자인 원칙은 토큰 사이의 거리가 증가함에 따라 주의 할당이 기하급수적으로 감소한다는 것입니다. 연구에 따르면 이 설계 접근 방식은 선형 계산 복잡성과 토큰 간의 대수 의존성을 얻는 것으로 나타났습니다. 이는 제한된 주의 리소스와 모든 토큰에 대한 액세스 간의 충돌을 해결합니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.Pictures

구현 중에 LONGNET을 고밀도 Transformer로 변환하여 Transformer에 대한 기존 최적화 방법(예: 커널 융합, 양자화 및 분산 교육)을 원활하게 지원할 수 있습니다. 선형 복잡성을 활용하여 LONGNET은 분산 알고리즘을 사용하여 컴퓨팅 및 메모리 제약을 깨고 노드 전체에서 병렬로 훈련될 수 있습니다.

결국 본 연구에서는 시퀀스 길이를 10억 ​​토큰으로 효과적으로 확장했으며, 런타임은 아래 그림과 같이 거의 일정했습니다. 대조적으로, 바닐라 Transformer의 런타임은 2차 복잡성으로 인해 어려움을 겪습니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.

이 연구는 다중 머리 확장 주의 메커니즘을 추가로 소개합니다. 아래 그림 3에서 볼 수 있듯이 이 연구에서는 쿼리-키-값 쌍의 서로 다른 부분을 분산시켜 서로 다른 헤드에 걸쳐 서로 다른 계산을 수행합니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.Pictures

분산 훈련

확장된 주의력의 계산 복잡도는 Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.으로 크게 줄어들었지만 컴퓨팅 및 메모리 제한으로 인해 시퀀스 길이를 수백만은 실현 가능하지 않습니다. 모델 병렬성[SPP+19], 시퀀스 병렬성[LXLY21, KCL+22] 및 파이프라인 병렬성[HCB+19]과 같은 대규모 모델 훈련을 위한 몇 가지 분산형 훈련 알고리즘이 있지만 이러한 방법은 LONGNET에 충분하지 않습니다. . 특히 시퀀스 차원이 매우 큰 경우.

이 연구에서는 시퀀스 차원의 분산 교육을 위해 LONGNET의 선형 계산 복잡성을 활용합니다. 아래 그림 4는 두 GPU의 분산 알고리즘을 보여주며, 이는 원하는 수의 장치로 확장될 수 있습니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.

Experiments

이 연구에서는 LONGNET을 바닐라 Transformer 및 Sparse Transformer와 비교했습니다. 아키텍처 간의 차이점은 주의 레이어이고 다른 레이어는 동일하게 유지됩니다. 연구원들은 각 배치의 토큰 수가 변경되지 않도록 배치 크기를 줄이는 동시에 이러한 모델의 시퀀스 길이를 2K에서 32K로 확장했습니다.

표 2에는 Stack 데이터세트에 대한 이러한 모델의 결과가 요약되어 있습니다. 연구에서는 복잡성을 평가 지표로 사용합니다. 모델은 2k에서 32k까지 다양한 시퀀스 길이를 사용하여 테스트되었습니다. 입력 길이가 모델이 지원하는 최대 길이를 초과하는 경우, 연구에서는 언어 모델 추론을 위한 최첨단 외삽 방법인 블록별 인과 주의(BCA) [SDP+22]를 구현합니다.

또한 연구에서는 절대 위치 인코딩을 제거했습니다. 첫째, 결과는 훈련 중에 시퀀스 길이를 늘리면 일반적으로 더 나은 언어 모델이 생성된다는 것을 보여줍니다. 둘째, 추론의 시퀀스 길이 외삽 방법은 길이가 모델이 지원하는 것보다 훨씬 큰 경우 적용되지 않습니다. 마지막으로 LONGNET은 기본 모델보다 지속적으로 뛰어난 성능을 발휘하여 언어 모델링의 효율성을 입증합니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.

시퀀스 길이의 확장 곡선

그림 6은 바닐라 트랜스포머와 LONGNET의 시퀀스 길이 확장 곡선을 나타냅니다. 본 연구에서는 행렬 곱셈의 총 실패 횟수를 계산하여 계산 노력을 추정합니다. 결과는 바닐라 변환기와 LONGNET 모두 훈련을 통해 더 큰 컨텍스트 길이를 달성한다는 것을 보여줍니다. 그러나 LONGNET은 컨텍스트 길이를 보다 효율적으로 확장하여 더 적은 계산으로 더 낮은 테스트 손실을 달성할 수 있습니다. 이는 외삽에 비해 더 긴 훈련 입력의 이점을 보여줍니다. 실험에 따르면 LONGNET은 언어 모델의 컨텍스트 길이를 확장하는 보다 효율적인 방법입니다. 이는 LONGNET이 더 긴 종속성을 보다 효율적으로 학습할 수 있기 때문입니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.

모델 크기 확장

대규모 언어 모델의 중요한 속성은 계산량이 증가함에 따라 거듭제곱 법칙에서 손실이 확장된다는 것입니다. LONGNET이 여전히 유사한 확장 규칙을 따르는지 확인하기 위해 이 연구에서는 다양한 모델 크기(1억 2,500만 개에서 27억 개의 매개변수까지)를 사용하여 일련의 모델을 훈련했습니다. 27억 개의 모델은 3000억 개의 토큰으로 훈련되었으며 나머지 모델은 약 4000억 개의 토큰을 사용했습니다. 그림 7 (a)는 계산과 관련하여 LONGNET의 확장 곡선을 나타냅니다. 이 연구에서는 동일한 테스트 세트에 대한 복잡성을 계산했습니다. 이는 LONGNET이 여전히 멱함수 법칙을 따를 수 있음을 증명합니다. 이는 또한 Dense Transformer가 언어 모델 확장을 위한 전제 조건이 아니라는 것을 의미합니다. 또한 LONGNET을 사용하면 확장성과 효율성이 향상됩니다.

Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.

긴 컨텍스트 프롬프트

프롬프트는 언어 모델을 안내하고 추가 정보를 제공하는 중요한 방법입니다. 이 연구에서는 LONGNET이 더 긴 컨텍스트 힌트 창을 통해 이점을 얻을 수 있는지 여부를 실험적으로 검증합니다.

본 연구에서는 접두사(prefixes)를 프롬프트로 유지하고 접미사(suffixes)의 난해함을 테스트했습니다. 또한 연구 과정에서 프롬프트가 2K에서 32K로 점차 확대되었습니다. 공정한 비교를 위해 접미사의 길이는 일정하게 유지하고 접두사의 길이는 모델의 최대 길이까지 늘립니다. 그림 7(b)는 테스트 세트의 결과를 보고합니다. LONGNET의 테스트 손실은 컨텍스트 창이 증가함에 따라 점차 감소하는 것을 보여줍니다. 이는 언어 모델을 개선하기 위해 긴 컨텍스트를 완전히 활용하는 LONGNET의 우수성을 입증합니다.

위 내용은 Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제
생산 등급 에이전트 헝겊 파이프 라인을 모니터링하는 방법은 무엇입니까?생산 등급 에이전트 헝겊 파이프 라인을 모니터링하는 방법은 무엇입니까?Apr 12, 2025 am 09:34 AM

소개 2022 년에 Chatgpt의 출시는 기술 및 비 기술 산업 모두에 혁명을 일으켜 개인과 조직에 생성 AI를 제공했습니다. 2023 년 내내 노력은 큰 언어 모드를 활용하는 데 집중했습니다

스타 스키마로 데이터웨어 하우스를 최적화하는 방법은 무엇입니까?스타 스키마로 데이터웨어 하우스를 최적화하는 방법은 무엇입니까?Apr 12, 2025 am 09:33 AM

Star Schema는 데이터웨어 하우징 및 비즈니스 인텔리전스에 사용되는 효율적인 데이터베이스 설계입니다. 주변 치수 테이블에 연결된 중앙 사실 테이블로 데이터를 구성합니다. 이 별 모양의 구조는 복잡한 q를 단순화합니다

멀티 모달 헝겊 시스템 구축에 대한 포괄적 인 안내서멀티 모달 헝겊 시스템 구축에 대한 포괄적 인 안내서Apr 12, 2025 am 09:29 AM

Rag Systems로 더 잘 알려진 검색 증강 생성 시스템은 값 비싼 미세 튜닝의 번거 로움없이 맞춤형 엔터프라이즈 데이터에 대한 질문에 답하는 지능형 AI 보조원을 구축하는 데 필요한 표준이되었습니다.

에이전트 래그 시스템이 기술을 어떻게 변화시킬 수 있습니까?에이전트 래그 시스템이 기술을 어떻게 변화시킬 수 있습니까?Apr 12, 2025 am 09:21 AM

소개 인공 지능은 새로운 시대에 들어 왔습니다. 모델이 사전 정의 된 규칙에 따라 정보를 단순히 출력하는 시대는 지났습니다. 오늘 AI의 최첨단 접근 방식은 Rag를 중심으로 진행됩니다 (검색-augmente

자동 생성 쿼리에 대한 SQL 어시스턴트자동 생성 쿼리에 대한 SQL 어시스턴트Apr 12, 2025 am 09:13 AM

단순히 데이터베이스와 대화하고, 일반 언어로 질문을하고, 복잡한 SQL 쿼리를 작성하거나 스프레드 시트를 정렬하지 않고 즉각적인 답변을받을 수 있기를 바랐습니까? Langchain의 SQL 툴킷으로 Groq a

AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?AI Index 2025 읽기 : AI는 친구, 적 또는 부조종사입니까?Apr 11, 2025 pm 12:13 PM

Stanford University Institute for Human-Oriented Intificial Intelligence가 발표 한 2025 인공 지능 지수 보고서는 진행중인 인공 지능 혁명에 대한 훌륭한 개요를 제공합니다. 인식 (무슨 일이 일어나고 있는지 이해), 감사 (혜택보기), 수용 (얼굴 도전) 및 책임 (우리의 책임 찾기)의 네 가지 간단한 개념으로 해석합시다. 인지 : 인공 지능은 어디에나 있고 빠르게 발전하고 있습니다 인공 지능이 얼마나 빠르게 발전하고 확산되고 있는지 잘 알고 있어야합니다. 인공 지능 시스템은 끊임없이 개선되어 수학 및 복잡한 사고 테스트에서 우수한 결과를 얻고 있으며 1 년 전만해도 이러한 테스트에서 비참하게 실패했습니다. AI 복잡한 코딩 문제 또는 대학원 수준의 과학적 문제를 해결한다고 상상해보십시오-2023 년 이후

Meta Llama 3.2- 분석 Vidhya를 시작합니다Meta Llama 3.2- 분석 Vidhya를 시작합니다Apr 11, 2025 pm 12:04 PM

메타의 라마 3.2 : 멀티 모달 및 모바일 AI의 도약 Meta는 최근 AI에서 강력한 비전 기능과 모바일 장치에 최적화 된 가벼운 텍스트 모델을 특징으로하는 AI의 상당한 발전 인 Llama 3.2를 공개했습니다. 성공을 바탕으로 o

AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등AV 바이트 : Meta ' S Llama 3.2, Google의 Gemini 1.5 등Apr 11, 2025 pm 12:01 PM

이번 주 AI 환경 : 발전의 회오리 바람, 윤리적 고려 사항 및 규제 토론. OpenAi, Google, Meta 및 Microsoft와 같은 주요 플레이어

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전By尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

Atom Editor Mac 버전 다운로드

Atom Editor Mac 버전 다운로드

가장 인기 있는 오픈 소스 편집기

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

ZendStudio 13.5.1 맥

ZendStudio 13.5.1 맥

강력한 PHP 통합 개발 환경

에디트플러스 중국어 크랙 버전

에디트플러스 중국어 크랙 버전

작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

SecList

SecList

SecLists는 최고의 보안 테스터의 동반자입니다. 보안 평가 시 자주 사용되는 다양한 유형의 목록을 한 곳에 모아 놓은 것입니다. SecLists는 보안 테스터에게 필요할 수 있는 모든 목록을 편리하게 제공하여 보안 테스트를 더욱 효율적이고 생산적으로 만드는 데 도움이 됩니다. 목록 유형에는 사용자 이름, 비밀번호, URL, 퍼징 페이로드, 민감한 데이터 패턴, 웹 셸 등이 포함됩니다. 테스터는 이 저장소를 새로운 테스트 시스템으로 간단히 가져올 수 있으며 필요한 모든 유형의 목록에 액세스할 수 있습니다.