ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.-일체 포함-php.cn

집

기술 주변기기

일체 포함

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

PHPz

Sep 20, 2023 pm 08:53 PM

모델google

Transformer 아키텍처는 현대 기계 학습 분야에서 널리 사용되었습니다. 핵심은 토큰의 확률 분포를 생성하는 데 사용되는 소프트맥스를 포함하는 변환기의 핵심 구성 요소 중 하나에 초점을 맞추는 것입니다. Softmax는 지수 계산과 시퀀스 길이 합산을 수행하여 병렬화를 수행하기 어렵게 만들기 때문에 비용이 더 높습니다.

Google DeepMind가 새로운 아이디어를 내놓았습니다. 소프트맥스 연산을 반드시 확률 분포를 출력하지 않는 새로운 방법으로 교체하세요. 또한 그들은 ReLU를 시퀀스 길이로 나누어 사용하면 시각적 변환기와 함께 사용할 때 기존 소프트맥스에 접근하거나 이에 필적할 수 있다는 것을 관찰했습니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

문서 링크: https://arxiv.org/abs/2309.08586

이 결과는 병렬화에 대한 새로운 솔루션을 제공합니다. ReLU의 초점은 시퀀스 길이 차원 병렬화에 중점을 두는 것이기 때문입니다. 전통적인 방법보다 수집 작업이 적습니다

방법

핵심은

핵심은 d차원 쿼리, 키 및 값 변환 역할에 초점 {q_i, k_i, v_i}를 2단계 프로세스를 통해

첫 번째 단계에서 핵심은 가중치에 집중하는 것입니다 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. :

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

여기서 ф는 일반적으로 소프트맥스입니다.

이를 사용하는 다음 단계는 가중치를 적용하여 출력을 계산하는 것입니다. ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 이 문서에서는 ф의 대안으로 점별 계산을 사용하는 방법을 살펴봅니다.

ReLU 요점은

DeepMind가 1의 ф = Softmax에 대해 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 이 더 나은 대안임을 관찰했습니다. ReLU라는 초점을 맞추는 것이 포인트입니다.

확장된 점별 초점은

에 초점을 맞추는 것입니다. 연구원들은 또한 더 넓은 범위의 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 옵션을 실험적으로 탐색했습니다. relu², gelu,softplus, 신원,relu6,sigmoid}.

다시 작성해야 할 사항은 다음과 같습니다. 시퀀스 길이 확장

또한 시퀀스 길이 L과 관련된 프로젝트를 사용하여 확장하면 정확도가 향상될 수 있음을 발견했습니다. Softmax를 제거하려는 이전 연구에서는 이 스케일링 방식을 사용하지 않았습니다

현재 소프트맥스를 사용하고 디자인에 집중하는 트랜스포머 중에는 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 가 있는데, 이는 필수 조건은 아닐지라도 초기화 중에 이를 보장할 수 있습니다. , 이 조건을 유지하면 소프트맥스를 교체할 때 다른 하이퍼파라미터를 변경할 필요성이 줄어들 수 있습니다.

초기화 중에 q와 k의 요소는 O(1)이므로 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다. 도 O(1)가 됩니다. ReLU와 같은 활성화 함수는 O(1)을 유지하므로 의 복잡성을 로 만들려면 인수가 필요합니다.

실험 및 결과

주요 결과

그림 1은 ImageNet-21k 훈련에 대한 ReLU focus on focus 및 Softmax focus on focus의 스케일링 추세를 보여줍니다. x축은 실험에 필요한 총 커널 계산 시간을 시간 단위로 표시합니다. ReLU의 가장 큰 장점은 시퀀스 길이 차원에서 병렬화할 수 있어 소프트맥스보다 수집 작업이 덜 필요하다는 것입니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

다시 작성해야 하는 내용은 시퀀스 길이 확장의 효과입니다.

그림 2는 다시 작성해야 하는 내용을 비교합니다. 시퀀스 길이 확장 방법과 기타 방법 결과 Softmax에 대한 점별 대안입니다. 구체적으로는 소프트맥스를 대체하기 위해 relu, relu², gelu, Softplus, Identity 등의 방법을 사용하는 것입니다. X축은 α입니다. Y축은 S/32, S/16 및 S/8 Vision Transformer 모델의 정확도입니다. 일반적으로 α가 1에 가까울 때 최상의 결과를 얻습니다. 명확한 최적의 비선형성이 없기 때문에 더 빠르기 때문에 주요 실험에서 ReLU를 사용했습니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

qk-layernorm의 효과는 다음과 같이 다시 설명할 수 있습니다.

qk-layernorm은 쿼리와 키가 계산되는 주요 실험에 사용되었습니다. LayerNorm을 통과하기 전에 가중치에 집중하세요. DeepMind는 qk-layernorm을 기본적으로 사용하는 이유는 모델 크기를 확장할 때 불안정성을 방지하기 위해 필요하다고 말합니다. 그림 3은 qk-layernorm 제거의 영향을 보여줍니다. 이 결과는 qk-layernorm이 이러한 모델에 거의 영향을 미치지 않는다는 것을 나타냅니다. 그러나 모델 크기가 커지면 상황이 달라질 수 있습니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

재설명: 문에 효과를 추가했습니다

소프트맥스 제거에 대한 이전 연구에서는 게이팅 유닛을 추가하는 방법을 채택했지만 이 방법은 시퀀스 길이에 따라 확장할 수 없습니다. 구체적으로, 게이트 어텐션 유닛에는 출력 투영 이전에 요소별 곱셈 조합으로 얻은 출력을 생성하는 추가 투영이 있습니다. 그림 4는 게이트가 있으면 다시 작성할 필요가 없는지 여부를 보여줍니다. 즉, 시퀀스 길이의 확장입니다. 전반적으로 DeepMind는 게이트가 있든 없든, 게이트가 있든 없든 재작성을 요구함으로써 최고의 정확도가 달성된다는 것을 관찰합니다. 시퀀스 길이 확장. 또한 ReLU를 사용하는 S/8 모델의 경우 이 게이팅 메커니즘은 실험에 필요한 코어 시간을 약 9.3% 증가시킵니다.

ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.

위 내용은 ReLU는 시각적 Transformer의 Softmax를 대체하고 DeepMind의 새로운 트릭은 비용을 빠르게 절감합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

이 기사는 51CTO.COM에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

관련 기사

AI 치료사가 여기 있습니다 : 14 획기적인 정신 건강 도구가 알아야 할 획기적인 정신 건강 도구Apr 30, 2025 am 11:17 AM

훈련 된 치료사의 인간 관계와 직관을 제공 할 수는 없지만 연구에 따르면 많은 사람들이 비교적 얼굴이없고 익명의 AI 봇과의 걱정과 우려를 편안하게 공유하는 것으로 나타났습니다. 이것이 항상 좋은지 i

식료품 통로에 AI를 호출합니다Apr 30, 2025 am 11:16 AM

수십 년 동안의 기술 인 인공 지능 (AI)은 식품 소매 산업에 혁명을 일으키고 있습니다. AI의 영향은 다양한 비즈니스 기능에 걸쳐 대규모 효율성 상승 및 비용 절감에서 간소화 된 프로세스에 이르기까지 AI의 영향은 불공정입니다.

당신의 정신을 높이기 위해 생성 AI에서 Pep 대화를받는 것Apr 30, 2025 am 11:15 AM

그것에 대해 이야기합시다. 혁신적인 AI 혁신에 대한이 분석은 다양한 영향력 AI 복잡성을 식별하고 설명하는 것을 포함하여 AI의 최신 AI에 대한 진행중인 Forbes 열 커버리지의 일부입니다 (여기 링크 참조). 또한, 내 comp

AI 구동과 개인화가 모든 비즈니스에 필수품 인 이유Apr 30, 2025 am 11:14 AM

전문 이미지를 유지하려면 가끔 옷장 업데이트가 필요합니다. 온라인 쇼핑은 편리하지만 직접 시도한 트립 온의 확실성이 부족합니다. 내 해결책? AI 기반 개인화. 나는 AI 조수 큐레이팅 의류 selecti를 구상합니다

Duolingo는 잊어 버리십시오 : Google Translate의 새로운 AI 기능은 언어를 가르칩니다Apr 30, 2025 am 11:13 AM

Google Translate는 언어 학습 기능을 추가합니다 Android Authority에 따르면 APP Expert AssembledeBug는 최신 버전의 Google Translate 앱에는 사용자가 개인화 된 활동을 통해 언어 기술을 향상시킬 수 있도록 설계된 새로운 "연습"테스트 코드가 포함되어 있음을 발견했습니다. 이 기능은 현재 사용자에게는 보이지 않지만 AsschBLEDEBUG는 부분적으로이를 활성화하고 새로운 사용자 인터페이스 요소 중 일부를 볼 수 있습니다. 활성화되면이 기능은 "Beta"배지가 표시된 화면 하단에 새로운 졸업식 캡 아이콘을 추가하여 "연습"기능이 실험 형태로 처음 릴리스 될 것임을 나타내는 새로운 졸업식 캡 아이콘을 추가합니다. 관련 팝업 프롬프트는 "당신을 위해 맞춤화 된 활동을 연습하십시오!"를 보여줍니다. 이는 Google이 사용자 정의를 생성한다는 것을 의미합니다.

그들은 AI를 위해 TCP/IP를 만들고 있으며 Nanda라고합니다Apr 30, 2025 am 11:12 AM

MIT 연구원들은 AI 에이전트를 위해 설계된 획기적인 웹 프로토콜 인 Nanda를 개발하고 있습니다. 네트워크 에이전트 및 분산 된 AI의 경우 Nanda는 인터넷 기능을 추가하여 AI Agen을 활성화하여 Anthropic의 MCP (Model Context Protocol)를 기반으로합니다.

프롬프트 : Deepfake Detection은 급성장하는 비즈니스입니다Apr 30, 2025 am 11:11 AM

Meta의 최신 벤처 : Chatgpt와 경쟁하는 AI 앱 Facebook, Instagram, WhatsApp 및 Threads의 모회사 인 Meta는 새로운 AI 기반 응용 프로그램을 시작하고 있습니다. 이 독립형 앱인 Meta AI는 OpenAi의 chatgpt와 직접 경쟁하는 것을 목표로합니다. 지렛대

비즈니스 리더를위한 AI 사이버 보안에서 향후 2 년Apr 30, 2025 am 11:10 AM

AI 사이버 공격의 상승 조수를 탐색합니다 최근에 Ciso의 인류의 Ciso 인 Jason Clinton은 인간이 아닌 정체성과 관련된 새로운 위험을 강조했습니다.

See all articles

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

맨티스BT

Mantis는 제품 결함 추적을 돕기 위해 설계된 배포하기 쉬운 웹 기반 결함 추적 도구입니다. PHP, MySQL 및 웹 서버가 필요합니다. 데모 및 호스팅 서비스를 확인해 보세요.

mPDF

mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.