>기술 주변기기 >일체 포함 >ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

PHPz
PHPz앞으로
2023-09-20 20:53:021308검색

Transformer 아키텍처는 현대 기계 학습 분야에서 널리 사용되었습니다. 핵심은 토큰의 확률 분포를 생성하는 데 사용되는 소프트맥스를 포함하는 변환기의 핵심 구성 요소 중 하나에 초점을 맞추는 것입니다. Softmax는 지수 계산과 시퀀스 길이 합산을 수행하여 병렬화를 수행하기 어렵게 만들기 때문에 비용이 더 높습니다.

Google DeepMind가 새로운 아이디어를 내놓았습니다. 소프트맥스 연산을 반드시 확률 분포를 출력하지 않는 새로운 방법으로 교체하세요. 또한 그들은 ReLU를 시퀀스 길이로 나누어 사용하면 시각적 변환기와 함께 사용할 때 기존 소프트맥스에 접근하거나 이에 필적할 수 있다는 것을 관찰했습니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

문서 링크: https://arxiv.org/abs/2309.08586

이 결과는 병렬화에 대한 새로운 솔루션을 제공합니다. ReLU의 초점은 시퀀스 길이 차원 병렬화에 중점을 두는 것이기 때문입니다. 전통적인 방법보다 수집 작업이 적습니다

방법

핵심은

핵심은 d차원 쿼리, 키 및 값 변환 역할에 초점 ​​{q_i, k_i, v_i}를 2단계 프로세스를 통해

첫 번째 단계에서 핵심은 가중치에 집중하는 것입니다 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.:

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

여기서 ф는 일반적으로 소프트맥스입니다.

이를 사용하는 다음 단계는 가중치를 적용하여 출력을 계산하는 것입니다.ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 이 문서에서는 ф의 대안으로 점별 계산을 사용하는 방법을 살펴봅니다.

ReLU 요점은

DeepMind가 1의 ф = Softmax에 대해 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.이 더 나은 대안임을 관찰했습니다. ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.ReLU라는 초점을 맞추는 것이 포인트입니다.

확장된 점별 초점은

에 초점을 맞추는 것입니다. 연구원들은 또한 더 넓은 범위의 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 옵션을 실험적으로 탐색했습니다. relu², gelu,softplus, 신원,relu6,sigmoid}.

다시 작성해야 할 사항은 다음과 같습니다. 시퀀스 길이 확장

또한 시퀀스 길이 L과 관련된 프로젝트를 사용하여 확장하면 정확도가 향상될 수 있음을 발견했습니다. Softmax를 제거하려는 이전 연구에서는 이 스케일링 방식을 사용하지 않았습니다

현재 소프트맥스를 사용하고 디자인에 집중하는 트랜스포머 중에는 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.가 있는데, 이는 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.필수 조건은 아닐지라도 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.초기화 중에 이를 보장할 수 있습니다. ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다., 이 조건을 유지하면 소프트맥스를 교체할 때 다른 하이퍼파라미터를 변경할 필요성이 줄어들 수 있습니다.

초기화 중에 q와 k의 요소는 O(1)이므로 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.도 O(1)가 됩니다. ReLU와 같은 활성화 함수는 O(1)을 유지하므로 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.의 복잡성을 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.로 만들려면 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 인수가 필요합니다.

실험 및 결과

주요 결과

그림 1은 ImageNet-21k 훈련에 대한 ReLU focus on focus 및 Softmax focus on focus의 스케일링 추세를 보여줍니다. x축은 실험에 필요한 총 커널 계산 시간을 시간 단위로 표시합니다. ReLU의 가장 큰 장점은 시퀀스 길이 차원에서 병렬화할 수 있어 소프트맥스보다 수집 작업이 덜 필요하다는 것입니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

다시 작성해야 하는 내용은 시퀀스 길이 확장의 효과입니다.

그림 2는 다시 작성해야 하는 내용을 비교합니다. 시퀀스 길이 확장 방법과 기타 방법 결과 Softmax에 대한 점별 대안입니다. 구체적으로는 소프트맥스를 대체하기 위해 relu, relu², gelu, Softplus, Identity 등의 방법을 사용하는 것입니다. X축은 α입니다. Y축은 S/32, S/16 및 S/8 Vision Transformer 모델의 정확도입니다. 일반적으로 α가 1에 가까울 때 최상의 결과를 얻습니다. 명확한 최적의 비선형성이 없기 때문에 더 빠르기 때문에 주요 실험에서 ReLU를 사용했습니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

qk-layernorm의 효과는 다음과 같이 다시 설명할 수 있습니다.

qk-layernorm은 쿼리와 키가 계산되는 주요 실험에 사용되었습니다. LayerNorm을 통과하기 전에 가중치에 집중하세요. DeepMind는 qk-layernorm을 기본적으로 사용하는 이유는 모델 크기를 확장할 때 불안정성을 방지하기 위해 필요하다고 말합니다. 그림 3은 qk-layernorm 제거의 영향을 보여줍니다. 이 결과는 qk-layernorm이 이러한 모델에 거의 영향을 미치지 않는다는 것을 나타냅니다. 그러나 모델 크기가 커지면 상황이 달라질 수 있습니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

재설명: 문에 효과를 추가했습니다

소프트맥스 제거에 대한 이전 연구에서는 게이팅 유닛을 추가하는 방법을 채택했지만 이 방법은 시퀀스 길이에 따라 확장할 수 없습니다. 구체적으로, 게이트 어텐션 유닛에는 출력 투영 이전에 요소별 곱셈 조합으로 얻은 출력을 생성하는 추가 투영이 있습니다. 그림 4는 게이트가 있으면 다시 작성할 필요가 없는지 여부를 보여줍니다. 즉, 시퀀스 길이의 확장입니다. 전반적으로 DeepMind는 게이트가 있든 없든, 게이트가 있든 없든 재작성을 요구함으로써 최고의 정확도가 달성된다는 것을 관찰합니다. 시퀀스 길이 확장. 또한 ReLU를 사용하는 S/8 모델의 경우 이 게이팅 메커니즘은 실험에 필요한 코어 시간을 약 9.3% 증가시킵니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

위 내용은 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제