찾다
웹3.0Tokenformer: 매개변수를 토큰으로 처리하여 변환기를 다시 생각함
Tokenformer: 매개변수를 토큰으로 처리하여 변환기를 다시 생각함Nov 04, 2024 am 12:36 AM
ScalingTokenformer Transformer Architecture Tokenized Parameters AI Applications

Transformers는 인공지능을 변화시켜 NLP, 컴퓨터 비전, 다중 모드 데이터 통합 ​​분야에서 탁월한 성능을 제공합니다. 이러한 모델은 주의 메커니즘을 통해 데이터 내의 패턴을 식별하는 데 탁월하므로 복잡한 작업에 이상적입니다. 그러나 기존 구조와 관련된 높은 계산 비용으로 인해 변압기 모델의 신속한 확장이 필요합니다.

Tokenformer: 매개변수를 토큰으로 처리하여 변환기를 다시 생각함

Transformers는 자연어 처리(NLP), 컴퓨터 비전, 다중 모드 데이터 통합 ​​분야에서 비교할 수 없는 성능을 제공하여 인공 지능에 혁명을 일으켰습니다. 이러한 모델은 주의 메커니즘을 통해 데이터 내의 패턴을 식별하는 데 탁월하므로 복잡한 작업에 이상적입니다. 그러나 기존 구조와 관련된 높은 계산 비용으로 인해 변압기 모델의 신속한 확장이 개선되어야 합니다. 이러한 모델이 성장함에 따라 상당한 하드웨어 리소스와 교육 시간이 필요하며 이는 모델 크기에 따라 기하급수적으로 늘어납니다.

변압기 스케일링의 주요 장애물은 선형 투영 레이어 내의 고정 매개변수에 있습니다. 이 정적 구조는 완전히 재학습하지 않고 모델을 확장하는 능력을 제한하며, 이는 모델 크기가 증가함에 따라 기하급수적으로 더 많은 비용이 듭니다. 이러한 기존 모델은 일반적으로 채널 크기 증가와 같은 아키텍처 수정이 발생할 때 포괄적인 재교육을 요구합니다.

결과적으로 이러한 확장을 위한 계산 비용은 비실용적으로 높아지고 접근 방식에는 유연성이 부족합니다. 새로운 매개변수를 동적으로 추가할 수 없기 때문에 성장이 억제되고 이러한 모델이 진화하는 AI 애플리케이션에 대한 적응력이 떨어지고 시간과 리소스 측면에서 비용이 더 많이 듭니다.

역사적으로 모델 확장성을 관리하는 접근 방식에는 가중치를 복제하거나 복제 뉴런이 레이어를 확장하는 Net2Net과 같은 방법을 사용하여 모델을 재구성하는 것이 포함되었습니다. 그러나 이러한 접근 방식은 사전 훈련된 모델의 균형을 깨뜨리는 경우가 많아 수렴 속도가 느려지고 훈련이 더욱 복잡해집니다.

이러한 방법은 점진적인 발전을 이루었지만 크기 조정 중에 모델 무결성을 유지하는 데 여전히 한계에 직면해 있습니다. Transformer는 정적 선형 투영에 크게 의존하므로 매개변수 확장 비용이 많이 들고 유연성이 떨어집니다. GPT 및 기타 대형 변압기와 같은 기존 모델은 처음부터 다시 학습하는 경우가 많아 새로운 확장 단계마다 높은 계산 비용이 발생합니다.

이제 Max Planck Institute, Google 및 Peking University의 연구원들은 모델 매개변수를 토큰으로 처리하여 토큰과 매개변수 간의 동적 상호 작용을 허용함으로써 변환기를 근본적으로 재구성하는 Tokenformer라는 새로운 아키텍처를 개발했습니다.

이 프레임워크에서 Tokenformer는 증분 확장을 용이하게 하는 토큰 매개변수 주의(Pattention) 계층이라는 새로운 구성 요소를 도입합니다. 모델은 재훈련 없이 새로운 매개변수 토큰을 추가할 수 있어 훈련 비용을 대폭 절감할 수 있습니다.

동일한 프레임워크 내에서 입력 토큰과 매개변수를 표현함으로써 Tokenformer는 유연한 확장을 허용하여 확장성과 고성능을 유지하는 보다 효율적이고 리소스에 민감한 모델 아키텍처를 연구원에게 제공합니다.

Tokenformer의 Pattention 레이어는 입력 토큰을 쿼리로 사용하는 반면 모델 매개변수는 키와 값으로 사용됩니다. 이는 선형 투영에만 의존하는 표준 변환기 접근 방식과 다릅니다.

모델의 확장은 새로운 키-값 매개변수 쌍을 추가하고, 입력 및 출력 차원을 일정하게 유지하고, 전체 재학습을 방지함으로써 달성됩니다. Tokenformer의 아키텍처는 모듈식으로 설계되어 연구자가 추가 토큰을 통합하여 모델을 원활하게 확장할 수 있습니다.

이 증분 확장 기능은 사전 훈련된 가중치의 효율적인 재사용을 지원하는 동시에 학습된 정보를 방해하지 않고 새로운 데이터세트나 더 큰 모델 크기에 빠르게 적응할 수 있도록 지원합니다.

Tokenformer의 성능 이점은 주목할 만합니다. 모델이 정확성을 유지하면서 계산 비용을 크게 줄여주기 때문입니다. 예를 들어 Tokenformer는 기존 변환기에 필요한 일반적인 교육 비용의 절반만으로 매개변수를 1억 2,400만 개에서 14억 개로 확장했습니다.

한 실험에서 모델은 14억 개의 매개변수 구성에 대해 11.77의 테스트 혼란도를 달성했는데, 이는 처음부터 훈련된 비슷한 크기의 변환기의 11.63 혼란도와 거의 일치합니다.

이러한 효율성은 Tokenformer가 기존 모델에 비해 적은 리소스 비용으로 언어 및 시각적 모델링 작업을 포함한 여러 영역에서 높은 성능을 달성할 수 있음을 의미합니다.

Tokenformer는 AI 연구를 발전시키고 변환기 기반 모델을 개선하기 위한 수많은 핵심 내용을 제시합니다. 여기에는 다음이 포함됩니다.

매개변수를 토큰으로 처리하면 재학습 없이 점진적인 모델 확장이 가능합니다.

토큰 매개변수 주의 계층은 효율적인 매개변수 확장을 촉진합니다.

모듈식 아키텍처는 추가 토큰을 통합하여 원활한 모델 성장을 지원합니다.

이 모델은 최소한의 리소스 지출로 다양한 영역에서 높은 성능을 달성합니다.

결론적으로 Tokenformer는 변환기 기반 모델 확장에 대한 혁신적인 접근 방식을 제공합니다. 이 모델 아키텍처는 매개변수를 토큰으로 처리하고 비용을 절감하며 작업 전반에 걸쳐 모델 성능을 보존함으로써 확장성과 리소스 효율성을 달성합니다.

이러한 유연성은 재교육 없이 AI 애플리케이션 발전 요구 사항에 적응할 수 있는 모델을 제공함으로써 변환기 설계의 획기적인 발전을 의미합니다. Tokenformer의 아키텍처는 대규모 모델을 지속 가능하고 효율적으로 개발할 수 있는 경로를 제공하여 미래 AI 연구에 대한 가능성을 약속합니다.

HuggingFace에서 논문, GitHub 페이지, 모델을 확인해 보세요.

이 연구에 대한 모든 공로는 이 프로젝트의 연구자에게 있습니다. 또한 Twitter에서 우리를 팔로우하고 Telegram 채널과 LinkedIn 그룹에 가입하는 것을 잊지 마세요. 저희 작업이 마음에 드신다면 저희 뉴스레터도 마음에 드실 것입니다. 55,000 ML SubReddit에 참여하는 것을 잊지 마세요.

[저희와 함께하는 후원 기회] 월 1백만 명의 독자와 50만 명의 커뮤니티 회원과 함께 귀하의 연구/제품/웹 세미나를 홍보하세요

위 내용은 Tokenformer: 매개변수를 토큰으로 처리하여 변환기를 다시 생각함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Qubetics ($ tics) : AI 암호화 혁신Qubetics ($ tics) : AI 암호화 혁신Mar 23, 2025 am 10:08 AM

cryptocurrency는 항상 기술의 최첨단이 대담한 야망을 만나는 영역이었으며 앞으로 더 흥미로워지고 있습니다. 인공 지능이 계속 증가함에 따라

Bitcoin [BTC]Bitcoin [BTC]Mar 16, 2025 am 10:10 AM

Obv와 같은 기술 지표는 판매 압력이 지배적이라는 것을 보여 주었으며, 이는 더 많은 손실이있을 수 있음을 의미합니다.

비트 코인 역사 가격 목록 2015-2025 비트 코인 가격 추세 차트 지난 10 년간비트 코인 역사 가격 목록 2015-2025 비트 코인 가격 추세 차트 지난 10 년간Mar 12, 2025 pm 06:54 PM

이 기사는 2015 년부터 2025 년까지 비트 코인의 10 년 가격 추세를 검토합니다. 데이터에 따르면 비트 코인 가격은 급격히 변동하여 200 달러에서 10 만 달러가 넘습니다. 이 기간 동안 비트 코인의 가격은 블록 보상의 절반, 시장 감정, 규제 정책 및 세계 거시 경제 상황을 포함한 다양한 요인의 영향을 받았습니다. 이 기사는 해마다 비트 코인 가격의 상승과 하락을 분석하고 주요 해의 가격 변동을 해석하는 데 중점을 두어 투자자들이 비트 코인 가격의 역사를 이해하고 미래 추세를 예측할 수있는 참조를 제공합니다. 키워드 : 비트 코인 가격, 비트 코인 트렌드, 비트 코인 10 년, 디지털 통화, 암호 화폐

상위 10 개 무료 가상 화폐 거래소 순위를 매기고 최신 10 개의 가상 통화 앱 거래 플랫폼상위 10 개 무료 가상 화폐 거래소 순위를 매기고 최신 10 개의 가상 통화 앱 거래 플랫폼Mar 11, 2025 am 10:18 AM

상위 10 개는 순위가있다. 이 플랫폼에는 각각 고유 한 장점이 있습니다.

이더 리움 역사적 가격 추세 차트 2015-2024 이더 리움 K- 라인 차트 10 년 추세 추세이더 리움 역사적 가격 추세 차트 2015-2024 이더 리움 K- 라인 차트 10 년 추세 추세Mar 12, 2025 pm 06:57 PM

이 기사에서는 2015 년 상장 이후 초기 $ 0.31에서 2017 년에 급증 한 이후의 이더 리움의 가격 추세를 검토 한 결과 2017 년과 거의 $ 1,400로, 2018 년과 2022 년에는 시장 급락을 경험 한 후 2021 년에 4,891.70 달러의 기록을 달성했습니다. 이 기사 데이터는 매년 이더 리움 가격의 중요한 변화를 다루고 2024-2025 년의 가격 추세를 예측하여 투자자들에게 종합적인 역사적 참조 및 이더 리움 가격에 대한 미래의 전망을 제공합니다. 이더 리움 가격 변동의 역사를 이해하고 투자 기회를 포착하십시오!

Top 10 Digital Currency 앱 플랫폼 순위 순위 가상 환전 2025 년 최신 순위Top 10 Digital Currency 앱 플랫폼 순위 순위 가상 환전 2025 년 최신 순위Mar 13, 2025 pm 06:45 PM

1. OKX, 2. BINANCE, 3. GATE.IO, 4. KRAKE, 5. COINBASE, 6. KUCOIN, 8. BITFINEX, 10. GEMINI, COUNTECTION SECULINE, SECULITY, 유동성, 유동성, 유동성, 유동성, 유동적 인 경험. .

사이버 범죄자들은 ​​15 억 달러의 암호 화폐를 훔칠 수있었습니다.사이버 범죄자들은 ​​15 억 달러의 암호 화폐를 훔칠 수있었습니다.Mar 16, 2025 am 11:12 AM

그 이후로, 제공자는 이런 일이 어떻게 일어 났는지, 그리고 앞으로 다시 (희망적으로) 어떻게 일어나지 않을지 조사해 왔습니다.

BTFD 코인 : 기록을 깨는 사전 판매BTFD 코인 : 기록을 깨는 사전 판매Mar 14, 2025 pm 03:15 PM

어떤 밈 코인이 당신의 작은 투자를 인생을 변화시키는 이익으로 바꿀 수 있는지 궁금한 적이 있습니까? 2025 년에 Meme Coin Market가 가열되면서 투자자들은 신선한 기회로 뛰어 들어 가격이 급등하기 전에 다음 큰 물결을 잡기를 바라고 있습니다.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

SublimeText3 영어 버전

SublimeText3 영어 버전

권장 사항: Win 버전, 코드 프롬프트 지원!

맨티스BT

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

WebStorm Mac 버전

WebStorm Mac 버전

유용한 JavaScript 개발 도구