모든 사람이 자신의 대형 모델을 계속 업그레이드하고 반복할 때 LLM(Large Language Model)의 컨텍스트 창 처리 능력도 중요한 평가 지표가 되었습니다.
예를 들어 유명인 대형 모델인 GPT-4는 텍스트 50페이지에 해당하는 32k 토큰을 지원합니다. OpenAI의 전 멤버가 설립한 Anthropic은 Claude의 토큰 처리 능력을 100k(약 75,000 단어)로 늘렸습니다. 이는 원클릭 요약 "해리포터" 1부와 대략 동일합니다.
Microsoft의 최신 연구에서는 이번에 Transformer를 10억 개의 토큰으로 직접 확장했습니다. 이는 전체 코퍼스 또는 전체 인터넷을 하나의 시퀀스로 처리하는 등 매우 긴 시퀀스를 모델링하는 새로운 가능성을 열어줍니다.
비교하자면, 평균적인 사람은 약 5시간 안에 100,000개의 토큰을 읽을 수 있으며, 이 정보를 소화하고, 기억하고, 분석하는 데 더 오랜 시간이 걸릴 수 있습니다. Claude는 이 작업을 1분 이내에 완료할 수 있습니다. Microsoft의 이 연구 결과로 환산하면 엄청난 숫자가 될 것입니다.
Pictures
- 문서 주소: https://arxiv.org/pdf/2307.02486.pdf
- 프로젝트 주소: https://github.com/microsoft/unilm/tree/master
특히 이 연구에서는 더 짧은 시퀀스의 성능을 저하시키지 않으면서 시퀀스 길이를 10억 개 이상의 토큰으로 확장할 수 있는 Transformer 변형인 LONGNET을 제안합니다. 이 기사는 또한 모델의 인식 범위를 기하급수적으로 확장할 수 있는 확장된 주의를 제안합니다.
LONGNET에는 다음과 같은 장점이 있습니다.
1) 선형 계산 복잡성이 있습니다.
2) 더 긴 시퀀스에 대한 분산 트레이너로 사용할 수 있습니다.
3) 확장된 주의가 가능합니다. Seam 없이 사용하면 표준 주의를 대체하며 기존 Transformer 기반 최적화 방법과 원활하게 통합될 수 있습니다.
실험 결과 LONGNET은 긴 시퀀스 모델링과 일반 언어 작업 모두에서 강력한 성능을 보이는 것으로 나타났습니다.
연구 동기 측면에서는 최근 신경망을 확장하는 것이 트렌드가 되었고, 성능이 좋은 많은 네트워크가 연구되고 있다고 논문에 나와 있습니다. 그중에서도 신경망의 일부인 시퀀스 길이는 이상적으로는 무한해야 합니다. 그러나 현실은 정반대인 경우가 많으므로 시퀀스 길이의 한계를 깨면 상당한 이점을 얻을 수 있습니다.
- 첫째, 모델에 대용량 메모리와 수용 필드를 제공하여 인간과 효과적으로 소통할 수 있습니다. 세계.
- 두 번째로, 더 긴 컨텍스트에는 모델이 훈련 데이터에서 활용할 수 있는 더 복잡한 인과 관계와 추론 경로가 포함되어 있습니다. 반대로, 종속성이 짧을수록 가짜 상관 관계가 더 많아지며 이는 모델의 일반화에 도움이 되지 않습니다.
- 세 번째로 긴 시퀀스 길이는 모델이 더 긴 컨텍스트를 탐색하는 데 도움이 될 수 있으며, 매우 긴 컨텍스트는 모델이 치명적인 망각 문제를 완화하는 데 도움이 될 수도 있습니다.
그러나 시퀀스 길이를 확장하는 데 있어 가장 큰 과제는 계산 복잡성과 모델 표현력 간의 적절한 균형을 찾는 것입니다.
예를 들어 RNN 스타일 모델은 주로 시퀀스 길이를 늘리는 데 사용됩니다. 그러나 순차적 특성으로 인해 훈련 중 병렬화가 제한되며 이는 긴 시퀀스 모델링에서 매우 중요합니다.
최근 상태 공간 모델은 훈련 중에 CNN으로 실행되고 테스트 시 효율적인 RNN으로 변환될 수 있는 시퀀스 모델링에 매우 매력적이 되었습니다. 그러나 이러한 유형의 모델은 일반 길이에서는 Transformer만큼 성능이 좋지 않습니다.
시퀀스 길이를 연장하는 또 다른 방법은 Transformer의 복잡도, 즉 self-attention의 2차 복잡도를 줄이는 것입니다. 이 단계에서는 낮은 순위 주의, 커널 기반 방법, 다운샘플링 방법 및 검색 기반 방법을 포함하여 몇 가지 효율적인 Transformer 기반 변형이 제안되었습니다. 그러나 이러한 접근 방식은 아직 Transformer를 10억 개의 토큰 규모로 확장하지 못했습니다(그림 1 참조).
Pictures
다음 표는 다양한 계산 방법의 계산 복잡도를 비교한 것입니다. N은 시퀀스 길이이고 d는 숨겨진 차원입니다.
사진
Method
연구 솔루션 LONGNET은 시퀀스 길이를 10억 개의 토큰으로 성공적으로 확장했습니다. 구체적으로 본 연구에서는 Dilated Attention이라는 새로운 구성요소를 제안하고 Vanilla Transformer의 Attention 메커니즘을 Dilated Attention으로 대체합니다. 일반적인 디자인 원칙은 토큰 사이의 거리가 증가함에 따라 주의 할당이 기하급수적으로 감소한다는 것입니다. 연구에 따르면 이 설계 접근 방식은 선형 계산 복잡성과 토큰 간의 대수 의존성을 얻는 것으로 나타났습니다. 이는 제한된 주의 리소스와 모든 토큰에 대한 액세스 간의 충돌을 해결합니다.
Pictures
구현 중에 LONGNET을 고밀도 Transformer로 변환하여 Transformer에 대한 기존 최적화 방법(예: 커널 융합, 양자화 및 분산 교육)을 원활하게 지원할 수 있습니다. 선형 복잡성을 활용하여 LONGNET은 분산 알고리즘을 사용하여 컴퓨팅 및 메모리 제약을 깨고 노드 전체에서 병렬로 훈련될 수 있습니다.
결국 본 연구에서는 시퀀스 길이를 10억 토큰으로 효과적으로 확장했으며, 런타임은 아래 그림과 같이 거의 일정했습니다. 대조적으로, 바닐라 Transformer의 런타임은 2차 복잡성으로 인해 어려움을 겪습니다.
이 연구는 다중 머리 확장 주의 메커니즘을 추가로 소개합니다. 아래 그림 3에서 볼 수 있듯이 이 연구에서는 쿼리-키-값 쌍의 서로 다른 부분을 분산시켜 서로 다른 헤드에 걸쳐 서로 다른 계산을 수행합니다.
Pictures
분산 훈련
확장된 주의력의 계산 복잡도는 으로 크게 줄어들었지만 컴퓨팅 및 메모리 제한으로 인해 시퀀스 길이를 수백만은 실현 가능하지 않습니다. 모델 병렬성[SPP+19], 시퀀스 병렬성[LXLY21, KCL+22] 및 파이프라인 병렬성[HCB+19]과 같은 대규모 모델 훈련을 위한 몇 가지 분산형 훈련 알고리즘이 있지만 이러한 방법은 LONGNET에 충분하지 않습니다. . 특히 시퀀스 차원이 매우 큰 경우.
이 연구에서는 시퀀스 차원의 분산 교육을 위해 LONGNET의 선형 계산 복잡성을 활용합니다. 아래 그림 4는 두 GPU의 분산 알고리즘을 보여주며, 이는 원하는 수의 장치로 확장될 수 있습니다.
Experiments
이 연구에서는 LONGNET을 바닐라 Transformer 및 Sparse Transformer와 비교했습니다. 아키텍처 간의 차이점은 주의 레이어이고 다른 레이어는 동일하게 유지됩니다. 연구원들은 각 배치의 토큰 수가 변경되지 않도록 배치 크기를 줄이는 동시에 이러한 모델의 시퀀스 길이를 2K에서 32K로 확장했습니다.
표 2에는 Stack 데이터세트에 대한 이러한 모델의 결과가 요약되어 있습니다. 연구에서는 복잡성을 평가 지표로 사용합니다. 모델은 2k에서 32k까지 다양한 시퀀스 길이를 사용하여 테스트되었습니다. 입력 길이가 모델이 지원하는 최대 길이를 초과하는 경우, 연구에서는 언어 모델 추론을 위한 최첨단 외삽 방법인 블록별 인과 주의(BCA) [SDP+22]를 구현합니다.
또한 연구에서는 절대 위치 인코딩을 제거했습니다. 첫째, 결과는 훈련 중에 시퀀스 길이를 늘리면 일반적으로 더 나은 언어 모델이 생성된다는 것을 보여줍니다. 둘째, 추론의 시퀀스 길이 외삽 방법은 길이가 모델이 지원하는 것보다 훨씬 큰 경우 적용되지 않습니다. 마지막으로 LONGNET은 기본 모델보다 지속적으로 뛰어난 성능을 발휘하여 언어 모델링의 효율성을 입증합니다.
시퀀스 길이의 확장 곡선
그림 6은 바닐라 트랜스포머와 LONGNET의 시퀀스 길이 확장 곡선을 나타냅니다. 본 연구에서는 행렬 곱셈의 총 실패 횟수를 계산하여 계산 노력을 추정합니다. 결과는 바닐라 변환기와 LONGNET 모두 훈련을 통해 더 큰 컨텍스트 길이를 달성한다는 것을 보여줍니다. 그러나 LONGNET은 컨텍스트 길이를 보다 효율적으로 확장하여 더 적은 계산으로 더 낮은 테스트 손실을 달성할 수 있습니다. 이는 외삽에 비해 더 긴 훈련 입력의 이점을 보여줍니다. 실험에 따르면 LONGNET은 언어 모델의 컨텍스트 길이를 확장하는 보다 효율적인 방법입니다. 이는 LONGNET이 더 긴 종속성을 보다 효율적으로 학습할 수 있기 때문입니다.
모델 크기 확장
대규모 언어 모델의 중요한 속성은 계산량이 증가함에 따라 거듭제곱 법칙에서 손실이 확장된다는 것입니다. LONGNET이 여전히 유사한 확장 규칙을 따르는지 확인하기 위해 이 연구에서는 다양한 모델 크기(1억 2,500만 개에서 27억 개의 매개변수까지)를 사용하여 일련의 모델을 훈련했습니다. 27억 개의 모델은 3000억 개의 토큰으로 훈련되었으며 나머지 모델은 약 4000억 개의 토큰을 사용했습니다. 그림 7 (a)는 계산과 관련하여 LONGNET의 확장 곡선을 나타냅니다. 이 연구에서는 동일한 테스트 세트에 대한 복잡성을 계산했습니다. 이는 LONGNET이 여전히 멱함수 법칙을 따를 수 있음을 증명합니다. 이는 또한 Dense Transformer가 언어 모델 확장을 위한 전제 조건이 아니라는 것을 의미합니다. 또한 LONGNET을 사용하면 확장성과 효율성이 향상됩니다.
긴 컨텍스트 프롬프트
프롬프트는 언어 모델을 안내하고 추가 정보를 제공하는 중요한 방법입니다. 이 연구에서는 LONGNET이 더 긴 컨텍스트 힌트 창을 통해 이점을 얻을 수 있는지 여부를 실험적으로 검증합니다.
본 연구에서는 접두사(prefixes)를 프롬프트로 유지하고 접미사(suffixes)의 난해함을 테스트했습니다. 또한 연구 과정에서 프롬프트가 2K에서 32K로 점차 확대되었습니다. 공정한 비교를 위해 접미사의 길이는 일정하게 유지하고 접두사의 길이는 모델의 최대 길이까지 늘립니다. 그림 7(b)는 테스트 세트의 결과를 보고합니다. LONGNET의 테스트 손실은 컨텍스트 창이 증가함에 따라 점차 감소하는 것을 보여줍니다. 이는 언어 모델을 개선하기 위해 긴 컨텍스트를 완전히 활용하는 LONGNET의 우수성을 입증합니다.
위 내용은 Microsoft의 새로운 핫 페이퍼: Transformer가 10억 개의 토큰으로 확장됩니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!
![如何在任务栏上显示互联网速度[简单步骤]](https://img.php.cn/upload/article/000/465/014/169088173253603.png)
互联网速度是决定在线体验结果的重要参数。无论是文件下载或上传,还是只是浏览网页,我们都需要一个体面的互联网连接。这就是为什么用户寻找在任务栏上显示互联网速度的方法。将网络速度显示在任务栏中允许用户快速监控事物,无论手头的任务是什么。任务栏始终可见,除非您处于全屏模式。但是Windows不提供在任务栏中显示互联网速度的本机选项。这就是为什么您需要第三方工具的原因。继续阅读以了解有关最佳选择的所有信息!如何在Windows命令行中运行速度测试?按+打开“运行”,键入电源外壳,然后按++。Window

在具有网络连接的安全模式下,Windows11计算机上没有互联网连接可能会令人沮丧,尤其是在诊断和排除系统问题时。在本指南中,我们将讨论问题的潜在原因,并列出有效的解决方案,以确保您在安全模式下可以访问互联网。为什么在带网络连接的安全模式下没有互联网?网络适配器不兼容或未正确加载。第三方防火墙、安全软件或防病毒软件可能会干扰安全模式下的网络连接。网络服务未运行。恶意软件感染如果互联网无法在Windows11的安全模式下使用网络,我该怎么办?在执行高级故障排除步骤之前,应考虑执行以下检查:请确保使

每一台主机都有唯一的地址标识称为“IP地址”。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个唯一的逻辑地址,以此来屏蔽物理地址的差异。由于有这种唯一的地址,才保证了用户在连网的计算机上操作时,能够高效而且方便地从千千万万台计算机中选出自己所需的对象来。

Roblox不起作用:原因是什么?凭借其广泛的游戏选择和活跃的社区,著名的在线游戏平台Roblox赢得了全球数百万粉丝。但是,Roblox可能偶尔会遇到技术问题,就像任何复杂的数字平台一样。下面,我们将研究一些可能修复您的Roblox无法正常工作错误的修复程序。让我们切入正题,从第一件事开始!检查Roblox服务器状态由于Roblox是一款在线游戏,如果服务中断,您可能会遇到启动它时遇到的困难。使Roblox的当前服务器状态和操作正常运行。如果服务器脱机进行维护,请等待服务器端的问题得到解决。有

当大家不断升级迭代自家大模型的时候,LLM(大语言模型)对上下文窗口的处理能力,也成为一个重要评估指标。比如明星大模型GPT-4支持32ktoken,相当于50页的文字;OpenAI前成员创立的Anthropic更是将Claude处理token能力提升到100k,约75000个单词,大概相当于一键总结《哈利波特》第一部。在微软最新的一项研究中,他们这次直接将Transformer扩展到10亿token。这为建模非常长的序列开辟了新的可能性,例如将整个语料库甚至整个互联网视为一个序列。作为比较,普

互联网思维的核心是“用户思维”。人是互联网时代的核心,用户思维自然也成为互联网思维的核心,而其他思维,都是围绕这个思维展开的;用户思维是互联网思维的基石,没有用户思维就不会有其他的互联网思维。

已连接但无法访问互联网解决方法:1、检查网络连接是否正常,尝试重新启动我们的路由器或调制解调器,以确保它们正常工作;2、检查设备是否正确连接到网络,并且是否配置了正确的IP地址和DNS服务器;3、使用其他设备连接到同一网络,如果能正常访问,那么可以尝试更新设备的操作系统或重置设备的网络设置来解决问题;4、如果以上方法都没有解决问题,可以联系互联网服务提供商寻求帮助。

哈喽,大家好。关注渡码的老读者都能体会到,渡码公众号的文章从去年中旬开始转向人工智能的方向。因为当时我认定了人工智能就是未来,逻辑也很简单,互联网时代把人们从看报纸、看电视的场景中解放出来,PC时代把人们从机房、网吧场景中解放出来,移动互联网把人们从电脑桌上解放出来。而人工智能天然地会把人们从各种各样的场景中解放出来。今天要写的是最近爆火的ChatGPT,大家看完文章可以亲手试试,看看有哪些场景可以被它解放了。准备了 6 个 chatgpt 账号,大家可以免费使用,获取方式放在文末了。1. 注册


핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

안전한 시험 브라우저
안전한 시험 브라우저는 온라인 시험을 안전하게 치르기 위한 보안 브라우저 환경입니다. 이 소프트웨어는 모든 컴퓨터를 안전한 워크스테이션으로 바꿔줍니다. 이는 모든 유틸리티에 대한 액세스를 제어하고 학생들이 승인되지 않은 리소스를 사용하는 것을 방지합니다.

ZendStudio 13.5.1 맥
강력한 PHP 통합 개발 환경

SublimeText3 영어 버전
권장 사항: Win 버전, 코드 프롬프트 지원!

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구
