Transformers는 인공지능을 변화시켜 NLP, 컴퓨터 비전, 다중 모드 데이터 통합 분야에서 탁월한 성능을 제공합니다. 이러한 모델은 주의 메커니즘을 통해 데이터 내의 패턴을 식별하는 데 탁월하므로 복잡한 작업에 이상적입니다. 그러나 기존 구조와 관련된 높은 계산 비용으로 인해 변압기 모델의 신속한 확장이 필요합니다.
Transformers는 자연어 처리(NLP), 컴퓨터 비전, 다중 모드 데이터 통합 분야에서 비교할 수 없는 성능을 제공하여 인공 지능에 혁명을 일으켰습니다. 이러한 모델은 주의 메커니즘을 통해 데이터 내의 패턴을 식별하는 데 탁월하므로 복잡한 작업에 이상적입니다. 그러나 기존 구조와 관련된 높은 계산 비용으로 인해 변압기 모델의 신속한 확장이 개선되어야 합니다. 이러한 모델이 성장함에 따라 상당한 하드웨어 리소스와 교육 시간이 필요하며 이는 모델 크기에 따라 기하급수적으로 늘어납니다.
변압기 스케일링의 주요 장애물은 선형 투영 레이어 내의 고정 매개변수에 있습니다. 이 정적 구조는 완전히 재학습하지 않고 모델을 확장하는 능력을 제한하며, 이는 모델 크기가 증가함에 따라 기하급수적으로 더 많은 비용이 듭니다. 이러한 기존 모델은 일반적으로 채널 크기 증가와 같은 아키텍처 수정이 발생할 때 포괄적인 재교육을 요구합니다.
결과적으로 이러한 확장을 위한 계산 비용은 비실용적으로 높아지고 접근 방식에는 유연성이 부족합니다. 새로운 매개변수를 동적으로 추가할 수 없기 때문에 성장이 억제되고 이러한 모델이 진화하는 AI 애플리케이션에 대한 적응력이 떨어지고 시간과 리소스 측면에서 비용이 더 많이 듭니다.
역사적으로 모델 확장성을 관리하는 접근 방식에는 가중치를 복제하거나 복제 뉴런이 레이어를 확장하는 Net2Net과 같은 방법을 사용하여 모델을 재구성하는 것이 포함되었습니다. 그러나 이러한 접근 방식은 사전 훈련된 모델의 균형을 깨뜨리는 경우가 많아 수렴 속도가 느려지고 훈련이 더욱 복잡해집니다.
이러한 방법은 점진적인 발전을 이루었지만 크기 조정 중에 모델 무결성을 유지하는 데 여전히 한계에 직면해 있습니다. Transformer는 정적 선형 투영에 크게 의존하므로 매개변수 확장 비용이 많이 들고 유연성이 떨어집니다. GPT 및 기타 대형 변압기와 같은 기존 모델은 처음부터 다시 학습하는 경우가 많아 새로운 확장 단계마다 높은 계산 비용이 발생합니다.
이제 Max Planck Institute, Google 및 Peking University의 연구원들은 모델 매개변수를 토큰으로 처리하여 토큰과 매개변수 간의 동적 상호 작용을 허용함으로써 변환기를 근본적으로 재구성하는 Tokenformer라는 새로운 아키텍처를 개발했습니다.
이 프레임워크에서 Tokenformer는 증분 확장을 용이하게 하는 토큰 매개변수 주의(Pattention) 계층이라는 새로운 구성 요소를 도입합니다. 모델은 재훈련 없이 새로운 매개변수 토큰을 추가할 수 있어 훈련 비용을 대폭 절감할 수 있습니다.
동일한 프레임워크 내에서 입력 토큰과 매개변수를 표현함으로써 Tokenformer는 유연한 확장을 허용하여 확장성과 고성능을 유지하는 보다 효율적이고 리소스에 민감한 모델 아키텍처를 연구원에게 제공합니다.
Tokenformer의 Pattention 레이어는 입력 토큰을 쿼리로 사용하는 반면 모델 매개변수는 키와 값으로 사용됩니다. 이는 선형 투영에만 의존하는 표준 변환기 접근 방식과 다릅니다.
모델의 확장은 새로운 키-값 매개변수 쌍을 추가하고, 입력 및 출력 차원을 일정하게 유지하고, 전체 재학습을 방지함으로써 달성됩니다. Tokenformer의 아키텍처는 모듈식으로 설계되어 연구자가 추가 토큰을 통합하여 모델을 원활하게 확장할 수 있습니다.
이 증분 확장 기능은 사전 훈련된 가중치의 효율적인 재사용을 지원하는 동시에 학습된 정보를 방해하지 않고 새로운 데이터세트나 더 큰 모델 크기에 빠르게 적응할 수 있도록 지원합니다.
Tokenformer의 성능 이점은 주목할 만합니다. 모델이 정확성을 유지하면서 계산 비용을 크게 줄여주기 때문입니다. 예를 들어 Tokenformer는 기존 변환기에 필요한 일반적인 교육 비용의 절반만으로 매개변수를 1억 2,400만 개에서 14억 개로 확장했습니다.
한 실험에서 모델은 14억 개의 매개변수 구성에 대해 11.77의 테스트 혼란도를 달성했는데, 이는 처음부터 훈련된 비슷한 크기의 변환기의 11.63 혼란도와 거의 일치합니다.
이러한 효율성은 Tokenformer가 기존 모델에 비해 적은 리소스 비용으로 언어 및 시각적 모델링 작업을 포함한 여러 영역에서 높은 성능을 달성할 수 있음을 의미합니다.
Tokenformer는 AI 연구를 발전시키고 변환기 기반 모델을 개선하기 위한 수많은 핵심 내용을 제시합니다. 여기에는 다음이 포함됩니다.
매개변수를 토큰으로 처리하면 재학습 없이 점진적인 모델 확장이 가능합니다.
토큰 매개변수 주의 계층은 효율적인 매개변수 확장을 촉진합니다.
모듈식 아키텍처는 추가 토큰을 통합하여 원활한 모델 성장을 지원합니다.
이 모델은 최소한의 리소스 지출로 다양한 영역에서 높은 성능을 달성합니다.
결론적으로 Tokenformer는 변환기 기반 모델 확장에 대한 혁신적인 접근 방식을 제공합니다. 이 모델 아키텍처는 매개변수를 토큰으로 처리하고 비용을 절감하며 작업 전반에 걸쳐 모델 성능을 보존함으로써 확장성과 리소스 효율성을 달성합니다.
이러한 유연성은 재교육 없이 AI 애플리케이션 발전 요구 사항에 적응할 수 있는 모델을 제공함으로써 변환기 설계의 획기적인 발전을 의미합니다. Tokenformer의 아키텍처는 대규모 모델을 지속 가능하고 효율적으로 개발할 수 있는 경로를 제공하여 미래 AI 연구에 대한 가능성을 약속합니다.
HuggingFace에서 논문, GitHub 페이지, 모델을 확인해 보세요.
이 연구에 대한 모든 공로는 이 프로젝트의 연구자에게 있습니다. 또한 Twitter에서 우리를 팔로우하고 Telegram 채널과 LinkedIn 그룹에 가입하는 것을 잊지 마세요. 저희 작업이 마음에 드신다면 저희 뉴스레터도 마음에 드실 것입니다. 55,000 ML SubReddit에 참여하는 것을 잊지 마세요.
[저희와 함께하는 후원 기회] 월 1백만 명의 독자와 50만 명의 커뮤니티 회원과 함께 귀하의 연구/제품/웹 세미나를 홍보하세요
위 내용은 Tokenformer: 매개변수를 토큰으로 처리하여 변환기를 다시 생각함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!