Deepseek-V3는 1 : 다중 헤드 잠재 관심을 설명했습니다-일체 포함-php.cn

집

기술 주변기기

일체 포함

Deepseek-V3는 1 : 다중 헤드 잠재 관심을 설명했습니다

PHPz

Feb 26, 2025 am 03:00 AM

deepseek-v3 자세한 설명 일련의 기사 : 황소의 잠재적주의 메커니즘 (MLA) 이 기사는 "DeepSeek-V3의 자세한 설명"시리즈의 첫 번째 기사입니다.

이 일련의 기사는 두 가지 주요 주제를 다룰 것입니다 :

DeepSeek-V3의 주요 건축 혁신에는 MLA (Bulner 잠재적주의 관심) [3], Deepseekmoe [4], 보조 손실없이 부하 밸런싱 및 다중 태그 예측 훈련이 포함됩니다.

Deepseek-V3 교육 프로세스, 사전 훈련, 미세 조정 및 강화 학습 정렬 단계를 포함한 교육 프로세스.

이 기사는 주로 DeepSeek-V2의 개발에서 원래 제안되었으며 DeepSeek-v3에 적용 된 다중 헤드 잠재적주의 메커니즘 (MLA)

에 중점을 둡니다.

우리는 표준 MHA부터 시작하여 추론 단계에서 키 값 캐시가 필요한 이유, MQA와 GQA를 최적화하려고하는 방법, 로프 작동 방식 등을 설명합니다.

참조.

배경 MLA를 더 잘 이해 하고이 기사를 일대일로 만들기 위해 MLA의 세부 사항을 탐구하기 전에이 섹션의 몇 가지 관련 개념을 검토 할 것입니다.

디코더 변압기에서 MHA MLA는자가 회귀 텍스트 생성의 추론을 가속화하기 위해 개발 되었으므로이 맥락에서 논의 된 MHA는 디코더 전용 변압기를위한 것입니다.

다음 그림은 디코딩을위한 세 가지 변압기 아키텍처를 비교합니다. 그런 다음 디코더 부품은 [6]에 의해 단순화되어 (b)에 표시된 디코더 전용 변압기 모델을 얻었으며, 나중에 GPT [8]와 같은 많은 생성 모델에 의해 사용되었습니다.

오늘날, 대형 언어 모델은 (c)보다 안정적인 훈련을 위해 (c)에 표시된 구조를 더 자주 선택하고, 출력보다는 입력에 정규화를 적용하고, Layernorm을 RMS Norm으로 업그레이드합니다. 이것은이 기사에서 논의하는 기준 아키텍처 역할을합니다.

주의 헤드를 가지고 있고 각주의 헤드의 치수가 d_h 로 표현되므로 연결된 치수는 (
d_h ). 레이어가있는 모델의 경우, 해당 레이어에서 t-th 태그의 입력을 로 표시하면 우리는 d 에서 ( 의 치수를 매핑하려면 선형 매핑 행렬을 사용해야합니다.

여기서 , w^k 및 는 선형 매핑 행렬입니다 : 맵핑 후 , k_t 및 를

n_h DeepSeek-V3 Explained 1: Multi-head Latent Attention t로 분할하여 비례 닷 제품을 계산하십시오 여기서 여기서 ()에서 d : <.> 식 (1) ~ (8)의 위에서 설명한 절차는 단일 마커에 대한 것입니다. 추론 과정에서 우리는 새로 생성 된 각 마크 업에 대해이 프로세스를 반복해야하며, 여기에는 많은 반복 계산이 포함됩니다. 이것은 키 값 캐싱이라는 기술로 이어집니다. 키-값 캐시 이름에서 알 수 있듯이 키-값 캐싱은 각 디코딩 단계에서 재 계산하는 대신 이전 키와 값을 캐싱하고 재사용함으로써 자동 회귀 프로세스 속도를 높이기 위해 설계된 기술입니다. KV 캐시는 일반적으로 추론 단계에서만 사용됩니다. 훈련 중에 전체 입력 시퀀스를 병렬로 처리해야하기 때문입니다. KV 캐시는 일반적으로 롤링 버퍼로 구현됩니다. 각 디코딩 단계에서 새 Query Q 만 계산하고 캐시에 저장된 K 및 V는 새로운 Q 및 재사용 K 및 V를 사용하여주의를 계산하기 위해 재사용됩니다. 동시에, 새로운 태그 K 및 V도 나중에 사용하기 위해 캐시에 추가됩니다.

그러나 키-값 캐시에 의해 가져온 가속도는 메모리 비용으로옵니다. 키-값 캐시는 일반적으로

배치 크기 × 시퀀스 길이 × 숨겨진 크기 x 헤드 카운트 DeepSeek-V3 Explained 1: Multi-head Latent Attention 에 따라 다르기 때문입니다. 배치 크기 나 시퀀스가 더 길면 메모리 병목 현상이 발생할 수 있습니다. ~~이것은이 제한을 다루기 위해 설계된 두 가지 기술, 즉 다중 정체주의와 그룹 쿼리주의로 이어집니다.~~ 다중 쿼리주의 (MQA) 대 그룹 쿼리주의 (GQA) 다음 그림은 원래 MHA, 그룹화 된 쿼리주의 (GQA) [10]와 다중 정체주의 (MQA) [9] 간의 비교를 보여줍니다. MQA의 기본 아이디어는 모든 쿼리 헤더에서 단일 키와 단일 값 헤더를 공유하는 것입니다.이 쿼리 헤더에서 메모리 사용량을 크게 줄일 수 있지만주의 정확도에도 영향을 줄 수 있습니다. GQA는 MHA와 MQA 사이의 보간 방법으로 간주 될 수 있으며, 여기서 한 쌍의 키와 값 헤더 만 모두 쿼리 헤더 세트 만 공유합니다. 그러나 이것은 여전히 MHA보다 더 나쁜 결과로 이어질 것입니다. 후기 장에서는 MLA가 메모리 효율성과 모델링 정확도의 균형을 맞추기 위해 어떻게 관리하는지 살펴볼 것입니다. 로프 (회전 위치 임베드) 우리가 언급해야 할 마지막 배경은 로프 [11]입니다. 이것은 사인 함수를 사용하여 쿼리와 주요 벡터를 다중 헤드주의를 회전시켜 위치 정보를주의 메커니즘으로 직접 인코딩합니다.

보다 구체적으로, 로프는 각 태그의 쿼리 및 키 벡터에 위치에 따른 회전 행렬 를 적용하고 사인 및 코사인 함수를 기본으로 사용하지만 고유 한 방식으로 회전을 구현할 수 있습니다.

위치 의존적 인 원인을 이해하려면 4 가지 요소 (x_1, x_2, x_3, x_4) 만있는 장난감 임베딩 벡터를 고려하십시오.
로프를 적용하려면 먼저 연속 치수를 쌍으로 그룹화합니다.
(x_1, x_2) -& gt; (x_3, x_4) -& gt; 그런 다음 회전 행렬을 적용하여 각 쌍을 회전시킵니다. 여기서 θ = θ (p) = p ⋅ θ_0, θ_0은 기본 주파수 입니다. 4D 장난감 예제에서 이것은 (x_1, x_2)가 θ_0을 회전하는 반면 (x_3, x_4)는 2 ⋅ θ_0을 회전한다는 것을 의미합니다.
이것이 우리 가이 회전 행렬을 호출하는 이유
위치 관련
: 각 위치 (또는 각 쌍)에서 회전 각도가 위치에 의해 결정되는 다른 회전 행렬을 적용합니다.
로프는 긴 시퀀스 인코딩의 효율성으로 인해 현대 대형 언어 모델에서 널리 사용되지만 위의 공식에서 볼 수 있듯이 Q와 K에 대한 위치 감도가있어 일부 측면에서는 호환되지 않습니다. MLA와 함께.
BULES의 잠재적 인주의 메커니즘
마지막으로 MLA 섹션에 대해 계속 논의 할 수 있습니다. 이 섹션에서는 먼저 MLA의 고급 아이디어에 대해 자세히 설명하고 로프 수정이 필요한 이유를 해결할 것입니다. 마지막으로 세부 알고리즘과 MLA의 성능도 소개합니다.
<: :> MLA : 고급 생각 MLA의 기본 아이디어는주의 입력을 압축하는 것입니다. h_t
는 치수가
d_c
인 저 차원 잠재 벡터로 압축하는 것입니다. 원본보다 작습니다 ( d_h
). 나중에주의를 계산해야 할 때이 잠재 벡터를 고차원 공간에 다시 매핑하여 키와 값을 복원 할 수 있습니다. 따라서, 잠재적 벡터 만 저장해야하므로 메모리 사용량이 크게 줄어 듭니다.
이 프로세스는 다음 방정식으로 더 공식적으로 설명 할 수 있습니다. 여기서 c^{kv} _t
는 잠복 벡터이고 w^{dkv} 는 입니다. h_t h_n
· )에서 d_c 의 압축 행렬에 맵핑됩니다 (여기서 Supercript에서 D 차원 감소 프로젝션 ", 이것은 압축을 의미하고, 는 공유 잠재적 벡터를 고차원 공간에 다시 맵핑하는 상단 투영 행렬입니다.

마찬가지로, 쿼리를 잠재적 인 저 차원 벡터에 매핑 한 다음 원래 고차원 공간에 다시 매핑 할 수 있습니다 : .

앞에서 언급했듯이 로프는 트레이닝 생성 모델이 긴 시퀀스를 처리하기위한 일반적인 선택입니다. 위의 MLA 정책을 직접 적용하면 로프와 호환되지 않습니다.

더 명확하게 보려면 Eqn을 사용하여주의를 계산할 때 어떤 일이 발생하는지 고려하십시오. 행렬 w^q

및 w^{uk}

는 가운데에 나타나고 그 조합은 d_c

에서 d에서 동일합니다. 의 매핑 치수. 원래 논문 [3]에서 저자는 로 "에 의해 w^q 에 흡수 될 수 있다고 묘사합니다. 캐시에 w^{uk} 를 저장할 필요가 없으므로 메모리 사용량이 더 줄어 듭니다. 그러나, 로프가 w^{uk} 의 왼쪽에 회전 행렬을 적용하기 때문에 그림 (4)의 회전 행렬을 고려할 때는 그렇지 않습니다. w^q 와 사이에 위치합니다. 배경 섹션에서 설명한 바와 같이,이 회전 행렬은 위치에 따라 다르므로 각 위치에 대한 회전 행렬이 다르다는 것을 의미합니다. 따라서, w^{uk} ** >

w^q **

***************************************************************************************************************************************************** ************************************** 할 수 없습니다 w^q ** 에 더 오래 흡수됩니다. 이 갈등을 해결하기 위해 저자들은 추가 쿼리 벡터와 공유 주요 벡터를 도입하고이 추가 벡터를 로프 프로세스에서만 사용하여 " 디퍼 커플 링 로프 "라는 것을 제안했습니다. 동시에 원래 키를 회전 행렬에서 어느 정도 분리하여 유지하십시오. 전체 MLA 프로세스는 다음과 같이 요약 될 수 있습니다 (방정식 번호는 [3]의 부록 C에서 재사용됩니다. 여기서 <.> eqn. (37) ~ (40) 쿼리 태그가 어떻게 처리되는지 설명하십시오. <.> eqn. (41) 및 (42)는 키 마커가 어떻게 처리되는지 설명합니다. <.> eqn. (43) 및 (44) 로프에 추가 공유 키를 사용하는 방법을 설명하십시오. (42)의 출력은 로프에 관여하지 않습니다. <.> eqn. (45)는 값 태그를 다루는 방법을 설명합니다.

이 과정에서는 파란색 변수를 상자로 캐시하면됩니다. 이 프로세스는 다음 흐름도를 사용하여보다 명확하게 설명 할 수 있습니다. ### mla의 성능 다음 표는 KV 캐시에 필요한 요소 수 (태그 당)와 MHA, GQA, MQA 및 MLA 간의 모델링 기능을 비교하여 MLA가 메모리 효율성과 모델링 기능 사이에서 실제로 더 나은 균형을 달성 할 수 있음을 보여줍니다. 흥미롭게도 MLA의 모델링 기능은 원래 MHA의 모델링 기능을 능가합니다. 더 구체적으로, 다음 표는 7B 모델에서 MHA, GQA 및 MQA의 성능을 보여줍니다. 여기서 MHA는 MQA 및 GQA보다 성능이 상당히 우수합니다.

DeepSeek-V3 Explained 1: Multi-head Latent Attention [3]의 저자는 또한 MHA와 MLA를 분석했으며, 결과는 아래 표에 요약되어 있으며 MLA는 전체적으로 더 나은 결과를 얻었습니다.

참조

[1] Deepseek [2] DeepSeek-V3 기술 보고서 [3] Deepseek-V2 : 강력하고 비용 효율적인 하이브리드 전문가 언어 모델 [4] Deepseekmoe : 하이브리드 전문가 언어 모델의 최종 전문가 전문 분야를 향해 [5] 하이브리드 전문가 모델에 대한 보조 손실로드 밸런싱 전략 [6]주의가 필요한 전부

[7] 긴 시퀀스 를 요약하여 Wikipedia를 생성합니다 [8] 생성 사전 훈련

를 통한 언어 이해를 향상시킵니다 [9] 빠른 변압기 디코딩 : 쓰기 헤드만으로도 [10] GQA : 멀티 헤드 체크 포인트에서 일반화 된 다중 쿼리 변압기 모델 훈련 [11] Roformer : 회전 위치가 포함 된 향상된 변압기

위 내용은 Deepseek-V3는 1 : 다중 헤드 잠재 관심을 설명했습니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

마찰에서 흐름까지 : AI가 법적 작업을 재구성하는 방법May 09, 2025 am 11:29 AM

법률 기술 혁명은 법률 전문가가 AI 솔루션을 적극적으로 수용하도록 추진력을 얻고 있습니다. 수동 저항은 더 이상 경쟁력을 유지하려는 사람들에게는 실행 가능한 옵션이 아닙니다. 기술 채택이 중요한 이유는 무엇입니까? 법률 전문가

이것이 Ai가 당신을 생각하고 당신에 대해 알고있는 것입니다.May 09, 2025 am 11:24 AM

많은 사람들은 AI와의 상호 작용이 익명이며 인간의 의사 소통과는 대조적이라고 가정합니다. 그러나 AI는 모든 채팅 중에 사용자를 적극적으로 프로파일 링합니다. 모든 프롬프트, 모든 단어는 분석 및 분류됩니다. AI Revo 의이 중요한 측면을 살펴 보겠습니다

번성하고 준비된 기업 문화를 구축하기위한 7 단계May 09, 2025 am 11:23 AM

성공적인 인공 지능 전략은 강력한 기업 문화 지원과 분리 될 수 없습니다. Peter Drucker가 말했듯이 비즈니스 운영은 사람들에게 달려 있으며 인공 지능의 성공도 마찬가지입니다. 인공 지능을 적극적으로 수용하는 조직의 경우 AI에 적응하는 기업 문화를 구축하는 것이 중요하며 AI 전략의 성공 또는 실패조차 결정합니다. West Monroe는 최근에 번성하는 AI 친화적 인 기업 문화를 구축하기위한 실용적인 가이드를 발표했으며 다음은 다음과 같습니다. 1. AI의 성공 모델을 명확하게 설명하십시오. 우선, AI가 비즈니스를 강화할 수있는 방법에 대한 명확한 비전이 있어야합니다. 이상적인 AI 운영 문화는 인간과 AI 시스템 간의 작업 프로세스를 자연스럽게 통합 할 수 있습니다. AI는 특정 작업에 능숙하지만 인간은 창의성과 판단에 능숙합니다.

Netflix New Scroll, Meta AI AI의 게임 체인저, Neuralink는 85 억 달러에 달했습니다.May 09, 2025 am 11:22 AM

메타 업그레이드 AI 보조 응용 프로그램 및 웨어러블 AI의 시대가오고 있습니다! ChatGpt와 경쟁하도록 설계된이 앱은 텍스트, 음성 상호 작용, 이미지 생성 및 웹 검색과 같은 표준 AI 기능을 제공하지만 이제 지리적 위치 기능을 처음으로 추가했습니다. 이것은 메타 AI가 자신의 위치와 질문에 대답 할 때보고있는 내용을 알고 있음을 의미합니다. 귀하의 관심사, 위치, 프로필 및 활동 정보를 사용하여 이전에는 불가능한 최신 상황 정보를 제공합니다. 이 앱은 또한 실시간 번역을 지원하여 Ray-Ban 안경의 AI 경험을 완전히 바꾸고 유용성을 크게 향상 시켰습니다. 외국 영화에 대한 관세 부과는 미디어와 문화에 대한 권력의 알몸 운동입니다. 구현되면 AI 및 가상 프로덕션으로 가속됩니다.

오늘이 단계를 수행하여 AI 사이버 범죄로부터 자신을 보호하십시오.May 09, 2025 am 11:19 AM

인공 지능은 사이버 범죄 분야를 혁신하여 새로운 방어 기술을 배우도록 강요하고 있습니다. 사이버 범죄자들은 깊은 위조 및 지능형 사이버 공격과 같은 강력한 인공 지능 기술을 사용하여 전례없는 규모로 사기 및 파괴를 사용하고 있습니다. 글로벌 비즈니스의 87%가 지난해 AI 사이버 범죄를 목표로 한 것으로보고되었습니다. 그렇다면이 현명한 범죄의 물결의 희생자가되는 것을 어떻게 피할 수 있습니까? 개인 및 조직 차원에서 위험을 식별하고 보호 조치를 취하는 방법을 살펴 보겠습니다. 사이버 범죄자가 인공 지능을 사용하는 방법 기술이 발전함에 따라 범죄자들은 개인, 기업 및 정부를 공격 할 수있는 새로운 방법을 지속적으로 찾고 있습니다. 인공 지능의 광범위한 사용은 최신 측면 일 수 있지만 잠재적 인 피해는 전례가 없습니다. 특히 인공 지능