>기술 주변기기 >일체 포함 >RWKV 소개: 선형 변압기의 등장 및 대안 모색

RWKV 소개: 선형 변압기의 등장 및 대안 모색

WBOY
WBOY앞으로
2023-09-27 14:01:272724검색

다음은 RWKV 팟캐스트에 대한 내 생각의 요약입니다: https://www.php.cn/link/9bde76f262285bb1eaeb7b40c758b53e

RWKV 소개: 선형 변압기의 등장 및 대안 모색


대안의 중요성이 왜 그렇게 두드러지나요?

2023년 인공지능 혁명과 함께 Transformer 아키텍처는 현재 정점에 있습니다. 그러나 성공적인 Transformer 아키텍처를 채택하려고 서두르다 보면 배울 수 있는 대안을 간과하기 쉽습니다.

엔지니어로서 우리는 일률적인 접근 방식을 취하거나 모든 문제에 동일한 솔루션을 사용해서는 안 됩니다. 우리는 모든 상황에서 장단점을 따져봐야 합니다. 그렇지 않으면 대안이 있다는 사실을 모르고 "만족"을 느끼면서 특정 플랫폼의 한계에 갇혀 하루아침에 개발이 해방 이전 상태로 돌아갈 수 있습니다

이 문제는 인공지능 분야에만 국한된 것이 아니라, 고대부터 현재까지 반복되어 온 역사적 패턴이다.


데이터베이스 관리 시스템 간의 경쟁과 대결을 그린 SQL 전쟁의 역사를 담은 페이지입니다. 이 이야기에서는 Oracle, MySQL, SQL Server와 같은 다양한 데이터베이스 관리 시스템이 시장 점유율과 기술 우위를 놓고 치열하게 경쟁합니다. 이러한 경쟁은 성능과 기능뿐만 아니라 비즈니스 전략, 마케팅, 사용자 만족도 등 다양한 측면을 반영합니다. 이러한 데이터베이스 관리 시스템은 더 많은 사용자와 기업이 제품을 선택하도록 유도하기 위해 지속적으로 새로운 기능과 개선 사항을 도입하고 있습니다. 데이터베이스 관리 시스템 산업의 발전과 변화를 목격하고 우리에게 귀중한 경험과 교훈을 제공한 SQL 전쟁의 역사의 한 페이지

최근 소프트웨어 개발에서 주목할만한 사례는 SQL NoSQL 추세는 서버가 물리적으로 제한되기 시작하면서 나타났습니다. 전 세계의 스타트업은 "규모"라는 이유로 NoSQL로 전환하고 있지만 이러한 규모에는 미치지 못합니다.

그러나 시간이 지남에 따라 최종 일관성과 NoSQL 관리 오버헤드가 나타나고 하드웨어 기능 측면에서 엄청난 도약이 이루어집니다. SSD 속도와 용량, SQL 서버는 최근 사용 편의성으로 인해 다시 돌아왔고 현재 90% 이상의 스타트업이 충분한 확장성을 갖추고 있습니다.

SQL과 NoSQL은 서로 다른 두 가지 데이터베이스 기술입니다. SQL은 Structured Query Language의 약어로, 주로 구조화된 데이터를 처리하는 데 사용됩니다. NoSQL은 비관계형 데이터베이스를 말하며, 비정형 또는 반정형 데이터를 처리하는 데 적합합니다. 어떤 사람들은 SQL이 NoSQL보다 낫다고 생각하거나 그 반대라고 생각하지만 실제로는 각 기술마다 고유한 장단점 및 사용 사례가 있다는 의미일 뿐입니다. 어떤 경우에는 복잡한 관계형 데이터를 처리하는 데 SQL이 더 적합할 수 있는 반면, 대규모 비정형 데이터를 처리하는 데는 NoSQL이 더 적합할 수 있습니다. 그러나 이는 하나의 기술만 선택할 수 있다는 의미는 아닙니다. 실제로 많은 애플리케이션과 시스템에서는 실제로 SQL과 NoSQL의 하이브리드 솔루션을 사용합니다. 특정 요구 사항과 데이터 유형에 따라 가장 적합한 기술을 선택하여 문제를 해결할 수 있습니다. 따라서 각 기술의 특성과 적용 가능한 시나리오를 이해하고 특정 상황에 따라 현명한 선택을 하는 것이 중요합니다. SQL이든 NoSQL이든 둘 다 유사한 기술에서 학습하고 상호 교류할 수 있는 고유한 학습 포인트와 선호하는 사용 사례가 있습니다


현재의 가장 큰 문제점은 무엇입니까 Transformer 아키텍처?

일반적으로 여기에는 계산, 컨텍스트 크기, 데이터 세트 및 정렬이 포함됩니다. 이 토론에서는 계산 및 컨텍스트 길이에 중점을 둘 것입니다.

  • 사용/생성된 토큰당 O(N^2) 증가로 인한 2차 계산 비용입니다. 이로 인해 100,000보다 큰 컨텍스트 크기가 매우 비싸지고 추론 및 훈련에 영향을 미칩니다.
  • 현재 GPU 부족으로 인해 이 문제가 더욱 악화되고 있습니다.
  • 컨텍스트 크기는 Attention 메커니즘을 제한하여 "스마트 에이전트" 사용 사례(예: smol-dev)를 심각하게 제한하고 문제에 대한 해결책을 강요합니다. 더 큰 컨텍스트에는 더 적은 해결 방법이 필요합니다.

그렇다면 이 문제를 어떻게 해결할까요?


RWKV 소개: 선형 Transformer/현대 대규모 RNN

RWKV 및 Microsoft RetNet은 "선형 변환기"라고 합니다. " 새 카테고리의 첫 번째

다음을 지원하여 위의 세 가지 제한 사항을 직접 해결합니다.

  • 컨텍스트 크기와 무관한 선형 계산 비용.
  • CPU(특히 ARM)에서는 요구 사항이 낮은 RNN 모드에서 합리적인 토큰/초 출력을 허용합니다.
  • RNN에는 하드 컨텍스트 크기 제한이 없습니다. 문서의 모든 제한은 지침이므로 세부적으로 조정할 수 있습니다.

AI 모델을 100k 이상의 컨텍스트 크기로 계속 확장함에 따라 2차 계산 비용이 기하급수적으로 증가하기 시작합니다.

그러나 Linear Transformer는 순환 신경망 아키텍처를 포기하지 않고 병목 현상을 해결하여 강제로 교체하게 되었습니다.

그러나 새로 디자인된 RNN은 Transformer의 확장 가능한 교훈을 배웠으므로 RNN이 Transformer와 유사하게 작동하고 이러한 병목 현상을 제거할 수 있습니다.

훈련 속도 측면에서 Transformers를 다시 활용해 비슷한 성능 수준을 유지하면서 훈련에서 10억 개가 넘는 매개변수로 확장하면서 O(N) 비용으로 효율적으로 실행할 수 있습니다.

RWKV 소개: 선형 변압기의 등장 및 대안 모색

차트: 선형 변환기 계산 비용 선형 스케일링 대 토큰당 변환기의 기하급수적 증가


선형 스케일링에 정사각형 스케일링을 적용하면 2k에서 10배 이상의 성장을 얻습니다. 100,000개 토큰 길이에서 토큰 수 및 100배 이상의 성장

14B 매개변수에서 RWKV는 GPT NeoX 및 기타 데이터 세트(예: Pile)와 유사한 가장 큰 오픈 소스 선형 변환기입니다.


RWKV 소개: 선형 변압기의 등장 및 대안 모색

RWKV 모델 성능은 비슷한 크기의 기존 트랜스포머 모델과 비슷하며, 다양한 벤치마크에서 보여집니다.


하지만 간단히 말해서 이것은 무엇을 의미합니까?


장점

  • 추론/훈련은 RNN에서 더 큰 컨텍스트 크기에서 Transformer보다 10배 이상 저렴합니다. 모드 아래로, 괜찮습니다. 매우 제한적으로 천천히 실행됩니다. 하드웨어
  • 동일한 데이터 세트에서 Transformer와 유사한 성능
  • RNN에는 기술적인 컨텍스트 크기 제한이 없습니다(무제한 컨텍스트!)
Disadvan 태그


슬라이딩 윈도우 문제, 특정 지점을 넘어서는 메모리 손실

  • 14B 매개변수 이상으로 확장하는 것이 입증되지 않음
  • 트랜스포머 최적화 및 채택만큼 좋지 않음
  • 그래서 RWKV 동안 아직 LLaMA2의 600억 개 이상의 매개변수 규모에 도달하지 않았지만 적절한 지원과 리소스를 통해 더 낮은 비용과 더 넓은 맥락에서 그렇게 할 수 있는 잠재력이 있습니다. 특히 모델이 더 작고 더 효율적인 경향이 있기 때문에

사용 사례는 효율성을 위해 중요합니다. 이를 고려하십시오. 그러나 이것이 최종 해결책은 아닙니다. 핵심은 건강한 대안에 있습니다.

우리는 다른 대안과 그 이점을 배우는 것을 고려해야 합니다.


확산 모델: 텍스트 훈련이 더 빠릅니다. 그러나 다중 에포크 훈련에는 매우 유연합니다. 이유를 알아내면 토큰 위기를 완화하는 데 도움이 될 수 있습니다.

생성적 적대 네트워크/에이전트: 데이터 세트가 없는 텍스트 기반 모델이더라도 특정 대상에 대해 필요한 훈련 세트를 훈련하는 데 기술을 사용할 수 있습니다.

원제:

RWKV 소개: 선형 변환기의 부상 및 대안 탐색

, 저자:

picocreator https://www.php.cn/ 링크/b433da1b32b5ca96c0ba7fcb9edba97d

위 내용은 RWKV 소개: 선형 변압기의 등장 및 대안 모색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제