모든 사람이 자신의 대형 모델을 계속 업그레이드하고 반복할 때 LLM(Large Language Model)의 컨텍스트 창 처리 능력도 중요한 평가 지표가 되었습니다.
예를 들어 유명인 대형 모델인 GPT-4는 텍스트 50페이지에 해당하는 32k 토큰을 지원합니다. OpenAI의 전 멤버가 설립한 Anthropic은 Claude의 토큰 처리 능력을 100k(약 75,000 단어)로 늘렸습니다. 이는 원클릭 요약 "해리포터" 1부와 대략 동일합니다.
Microsoft의 최신 연구에서는 이번에 Transformer를 10억 개의 토큰으로 직접 확장했습니다. 이는 전체 코퍼스 또는 전체 인터넷을 하나의 시퀀스로 처리하는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다.
비교하자면, 평균적인 사람은 약 5시간 안에 100,000개의 토큰을 읽을 수 있으며, 이 정보를 소화하고, 기억하고, 분석하는 데 더 오랜 시간이 걸릴 수 있습니다. Claude는 이 작업을 1분 이내에 완료할 수 있습니다. Microsoft의 이 연구 결과로 환산하면 엄청난 숫자가 될 것입니다.
Pictures
- 문서 주소: https://arxiv.org/pdf/2307.02486.pdf
- 프로젝트 주소: https://github.com/microsoft/unilm/tree/master
특히 이 연구에서는 더 짧은 시퀀스의 성능을 저하시키지 않으면서 시퀀스 길이를 10억 개 이상의 토큰으로 확장할 수 있는 Transformer 변형인 LONGNET을 제안합니다. 이 기사는 또한 모델의 인식 범위를 기하급수적으로 확장할 수 있는 확장된 주의를 제안합니다.
LONGNET에는 다음과 같은 장점이 있습니다.
1) 선형 계산 복잡성이 있습니다.
2) 더 긴 시퀀스에 대한 분산 트레이너로 사용할 수 있습니다.
3) 확장된 주의가 가능합니다. Seam 없이 사용하면 표준 주의를 대체하며 기존 Transformer 기반 최적화 방법과 원활하게 통합될 수 있습니다.
실험 결과 LONGNET은 긴 시퀀스 모델링과 일반 언어 작업 모두에서 강력한 성능을 보이는 것으로 나타났습니다.
연구 동기 측면에서는 최근 신경망을 확장하는 것이 트렌드가 되었고, 성능이 좋은 많은 네트워크가 연구되고 있다고 논문에 나와 있습니다. 그중에서도 신경망의 일부인 시퀀스 길이는 이상적으로는 무한해야 합니다. 그러나 현실은 정반대인 경우가 많으므로 시퀀스 길이의 한계를 깨면 상당한 이점을 얻을 수 있습니다.
- 첫째, 모델에 대용량 메모리와 수용 필드를 제공하여 인간과 효과적으로 소통할 수 있습니다. 세계.
- 두 번째로, 더 긴 컨텍스트에는 모델이 훈련 데이터에서 활용할 수 있는 더 복잡한 인과 관계와 추론 경로가 포함되어 있습니다. 반대로, 종속성이 짧을수록 가짜 상관 관계가 더 많아지며 이는 모델의 일반화에 도움이 되지 않습니다.
- 세 번째로 긴 시퀀스 길이는 모델이 더 긴 컨텍스트를 탐색하는 데 도움이 될 수 있으며, 매우 긴 컨텍스트는 모델이 치명적인 망각 문제를 완화하는 데 도움이 될 수도 있습니다.
그러나 시퀀스 길이를 확장하는 데 있어 가장 큰 과제는 계산 복잡성과 모델 표현력 간의 적절한 균형을 찾는 것입니다.
예를 들어 RNN 스타일 모델은 주로 시퀀스 길이를 늘리는 데 사용됩니다. 그러나 순차적 특성으로 인해 훈련 중 병렬화가 제한되며 이는 긴 시퀀스 모델링에서 매우 중요합니다.
최근 상태 공간 모델은 훈련 중에 CNN으로 실행되고 테스트 시 효율적인 RNN으로 변환될 수 있는 시퀀스 모델링에 매우 매력적이 되었습니다. 그러나 이러한 유형의 모델은 일반 길이에서는 Transformer만큼 성능이 좋지 않습니다.
시퀀스 길이를 연장하는 또 다른 방법은 Transformer의 복잡도, 즉 self-attention의 2차 복잡도를 줄이는 것입니다. 이 단계에서는 낮은 순위 주의, 커널 기반 방법, 다운샘플링 방법 및 검색 기반 방법을 포함하여 몇 가지 효율적인 Transformer 기반 변형이 제안되었습니다. 그러나 이러한 접근 방식은 아직 Transformer를 10억 개의 토큰 규모로 확장하지 못했습니다(그림 1 참조).
Pictures
다음 표는 다양한 계산 방법의 계산 복잡도를 비교한 것입니다. N은 시퀀스 길이이고 d는 숨겨진 차원입니다.
사진
Method
연구 솔루션 LONGNET은 시퀀스 길이를 10억 개의 토큰으로 성공적으로 확장했습니다. 구체적으로 본 연구에서는 Dilated Attention이라는 새로운 구성요소를 제안하고 Vanilla Transformer의 Attention 메커니즘을 Dilated Attention으로 대체합니다. 일반적인 디자인 원칙은 토큰 사이의 거리가 증가함에 따라 주의 할당이 기하급수적으로 감소한다는 것입니다. 연구에 따르면 이 설계 접근 방식은 선형 계산 복잡성과 토큰 간의 대수 의존성을 얻는 것으로 나타났습니다. 이는 제한된 주의 리소스와 모든 토큰에 대한 액세스 간의 충돌을 해결합니다.
Pictures
구현 중에 LONGNET을 고밀도 Transformer로 변환하여 Transformer에 대한 기존 최적화 방법(예: 커널 융합, 양자화 및 분산 교육)을 원활하게 지원할 수 있습니다. 선형 복잡성을 활용하여 LONGNET은 분산 알고리즘을 사용하여 컴퓨팅 및 메모리 제약을 깨고 노드 전체에서 병렬로 훈련될 수 있습니다.
결국 본 연구에서는 시퀀스 길이를 10억 토큰으로 효과적으로 확장했으며, 런타임은 아래 그림과 같이 거의 일정했습니다. 대조적으로, 바닐라 Transformer의 런타임은 2차 복잡성으로 인해 어려움을 겪습니다.
이 연구는 다중 머리 확장 주의 메커니즘을 추가로 소개합니다. 아래 그림 3에서 볼 수 있듯이 이 연구에서는 쿼리-키-값 쌍의 서로 다른 부분을 분산시켜 서로 다른 헤드에 걸쳐 서로 다른 계산을 수행합니다.
Pictures
분산 훈련
확장된 주의력의 계산 복잡도는 으로 크게 줄어들었지만 컴퓨팅 및 메모리 제한으로 인해 시퀀스 길이를 수백만은 실현 가능하지 않습니다. 모델 병렬성[SPP+19], 시퀀스 병렬성[LXLY21, KCL+22] 및 파이프라인 병렬성[HCB+19]과 같은 대규모 모델 훈련을 위한 몇 가지 분산형 훈련 알고리즘이 있지만 이러한 방법은 LONGNET에 충분하지 않습니다. . 특히 시퀀스 차원이 매우 큰 경우.
이 연구에서는 시퀀스 차원의 분산 교육을 위해 LONGNET의 선형 계산 복잡성을 활용합니다. 아래 그림 4는 두 GPU의 분산 알고리즘을 보여주며, 이는 원하는 수의 장치로 확장될 수 있습니다.
Experiments
이 연구에서는 LONGNET을 바닐라 Transformer 및 Sparse Transformer와 비교했습니다. 아키텍처 간의 차이점은 주의 레이어이고 다른 레이어는 동일하게 유지됩니다. 연구원들은 각 배치의 토큰 수가 변경되지 않도록 배치 크기를 줄이는 동시에 이러한 모델의 시퀀스 길이를 2K에서 32K로 확장했습니다.
표 2에는 Stack 데이터세트에 대한 이러한 모델의 결과가 요약되어 있습니다. 연구에서는 복잡성을 평가 지표로 사용합니다. 모델은 2k에서 32k까지 다양한 시퀀스 길이를 사용하여 테스트되었습니다. 입력 길이가 모델이 지원하는 최대 길이를 초과하는 경우, 연구에서는 언어 모델 추론을 위한 최첨단 외삽 방법인 블록별 인과 주의(BCA) [SDP+22]를 구현합니다.
또한 연구에서는 절대 위치 인코딩을 제거했습니다. 첫째, 결과는 훈련 중에 시퀀스 길이를 늘리면 일반적으로 더 나은 언어 모델이 생성된다는 것을 보여줍니다. 둘째, 추론의 시퀀스 길이 외삽 방법은 길이가 모델이 지원하는 것보다 훨씬 큰 경우 적용되지 않습니다. 마지막으로 LONGNET은 기본 모델보다 지속적으로 뛰어난 성능을 발휘하여 언어 모델링의 효율성을 입증합니다.
시퀀스 길이의 확장 곡선
그림 6은 바닐라 트랜스포머와 LONGNET의 시퀀스 길이 확장 곡선을 나타냅니다. 본 연구에서는 행렬 곱셈의 총 실패 횟수를 계산하여 계산 노력을 추정합니다. 결과는 바닐라 변환기와 LONGNET 모두 훈련을 통해 더 큰 컨텍스트 길이를 달성한다는 것을 보여줍니다. 그러나 LONGNET은 컨텍스트 길이를 보다 효율적으로 확장하여 더 적은 계산으로 더 낮은 테스트 손실을 달성할 수 있습니다. 이는 외삽에 비해 더 긴 훈련 입력의 이점을 보여줍니다. 실험에 따르면 LONGNET은 언어 모델의 컨텍스트 길이를 확장하는 보다 효율적인 방법입니다. 이는 LONGNET이 더 긴 종속성을 보다 효율적으로 학습할 수 있기 때문입니다.
모델 크기 확장
대규모 언어 모델의 중요한 속성은 계산량이 증가함에 따라 거듭제곱 법칙에서 손실이 확장된다는 것입니다. LONGNET이 여전히 유사한 확장 규칙을 따르는지 확인하기 위해 이 연구에서는 다양한 모델 크기(1억 2,500만 개에서 27억 개의 매개변수까지)를 사용하여 일련의 모델을 훈련했습니다. 27억 개의 모델은 3000억 개의 토큰으로 훈련되었으며 나머지 모델은 약 4000억 개의 토큰을 사용했습니다. 그림 7 (a)는 계산과 관련하여 LONGNET의 확장 곡선을 나타냅니다. 이 연구에서는 동일한 테스트 세트에 대한 복잡성을 계산했습니다. 이는 LONGNET이 여전히 멱함수 법칙을 따를 수 있음을 증명합니다. 이는 또한 Dense Transformer가 언어 모델 확장을 위한 전제 조건이 아니라는 것을 의미합니다. 또한 LONGNET을 사용하면 확장성과 효율성이 향상됩니다.
긴 컨텍스트 프롬프트
프롬프트는 언어 모델을 안내하고 추가 정보를 제공하는 중요한 방법입니다. 이 연구에서는 LONGNET이 더 긴 컨텍스트 힌트 창을 통해 이점을 얻을 수 있는지 여부를 실험적으로 검증합니다.
본 연구에서는 접두사(prefixes)를 프롬프트로 유지하고 접미사(suffixes)의 난해함을 테스트했습니다. 또한 연구 과정에서 프롬프트가 2K에서 32K로 점차 확대되었습니다. 공정한 비교를 위해 접미사의 길이는 일정하게 유지하고 접두사의 길이는 모델의 최대 길이까지 늘립니다. 그림 7(b)는 테스트 세트의 결과를 보고합니다. LONGNET의 테스트 손실은 컨텍스트 창이 증가함에 따라 점차 감소하는 것을 보여줍니다. 이는 언어 모델을 개선하기 위해 긴 컨텍스트를 완전히 활용하는 LONGNET의 우수성을 입증합니다.
위 내용은 Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

"AI-Ready Workforce"라는 용어는 자주 사용되지만 공급망 산업에서 실제로 무엇을 의미합니까? ASCM (Association for Supply Chain Management)의 CEO 인 Abe Eshkenazi에 따르면 비평가가 가능한 전문가를 의미합니다.

분산 된 AI 혁명은 조용히 운동량을 얻고 있습니다. 이번 주 금요일 텍사스 오스틴에서 Bittensor Endgame Summit은 중추적 인 순간을 표시하여 분산 된 AI (DEAI)를 이론에서 실제 적용으로 전환합니다. 화려한 광고와 달리

Enterprise AI는 데이터 통합 문제에 직면 해 있습니다 Enterprise AI의 적용은 비즈니스 데이터를 지속적으로 학습함으로써 정확성과 실용성을 유지할 수있는 시스템을 구축하는 주요 과제에 직면 해 있습니다. NEMO 마이크로 서비스는 NVIDIA가 "데이터 플라이휠"으로 묘사 한 내용을 작성 하여이 문제를 해결하여 AI 시스템이 엔터프라이즈 정보 및 사용자 상호 작용에 지속적으로 노출되어 관련성을 유지할 수 있도록합니다. 새로 출시 된이 툴킷에는 5 개의 주요 마이크로 서비스가 포함되어 있습니다. NEMO Customizer는 더 높은 교육 처리량으로 대형 언어 모델의 미세 조정을 처리합니다. NEMO 평가자는 사용자 지정 벤치 마크에 대한 AI 모델의 단순화 된 평가를 제공합니다. Nemo Guardrails는 보안 제어를 구현하여 규정 준수 및 적절성을 유지합니다.

AI : 예술과 디자인의 미래 인공 지능 (AI)은 전례없는 방식으로 예술 및 디자인 분야를 변화시키고 있으며, 그 영향은 더 이상 아마추어에게만 국한되지 않고 전문가에게 더 큰 영향을 미칩니다. AI에 의해 생성 된 아트 워크 및 디자인 체계는 광고, 소셜 미디어 이미지 생성 및 웹 디자인과 같은 많은 트랜잭션 디자인 활동에서 전통적인 재료 이미지 및 디자이너를 빠르게 대체하고 있습니다. 그러나 전문 예술가와 디자이너는 AI의 실질적인 가치도 찾습니다. 그들은 AI를 보조 도구로 사용하여 새로운 미적 가능성을 탐색하고 다양한 스타일을 혼합하며 새로운 시각 효과를 만듭니다. AI는 아티스트와 디자이너가 반복적 인 작업을 자동화하고 다양한 디자인 요소를 제안하며 창의적인 입력을 제공하도록 도와줍니다. AI는 스타일 전송을 지원하며 이미지 스타일을 적용합니다.

처음에는 화상 회의 플랫폼으로 유명한 Zoom은 에이전트 AI의 혁신적인 사용으로 직장 혁명을 이끌고 있습니다. Zoom의 CTO 인 XD Huang과의 최근 대화는 회사의 야심 찬 비전을 공개했습니다. 에이전트 AI 정의 Huang d

AI가 교육에 혁명을 일으킬까요? 이 질문은 교육자와 이해 관계자들 사이에서 심각한 반영을 촉구하고 있습니다. AI를 교육에 통합하면 기회와 도전이 모두 나타납니다. Tech Edvocate의 Matthew Lynch로서 Universit

미국의 과학 연구 및 기술의 발전은 아마도 예산 삭감으로 인해 어려움에 직면 할 수 있습니다. Nature에 따르면, 해외 일자리를 신청하는 미국 과학자의 수는 2024 년 같은 기간에 비해 2025 년 1 월부터 3 월까지 32% 증가했습니다. 이전 여론 조사에 따르면 설문 조사에 참여한 연구원의 75%가 유럽과 캐나다에서 일자리 검색을 고려하고 있음을 보여주었습니다. 지난 몇 개월 동안 수백 개의 NIH와 NSF 보조금이 종료되었으며, NIH의 새로운 보조금은 올해 약 23 억 달러로 줄어 듭니다. 유출 된 예산 제안에 따르면 트럼프 행정부는 과학 기관의 예산을 급격히 줄이는 것을 고려하고 있으며 최대 50%감소 할 수 있습니다. 기본 연구 분야의 혼란은 또한 미국의 주요 장점 중 하나 인 해외 인재 유치에 영향을 미쳤습니다. 35

Openai는 강력한 GPT-4.1 시리즈를 공개합니다. 실제 응용 프로그램을 위해 설계된 3 개의 고급 언어 모델 패밀리. 이 중요한 도약 전진


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

mPDF
mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

에디트플러스 중국어 크랙 버전
작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음

Eclipse용 SAP NetWeaver 서버 어댑터
Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.
