>  기사  >  기술 주변기기  >  Mamba는 Transformer와 유사하며 시계열에 효과적입니까?

Mamba는 Transformer와 유사하며 시계열에 효과적입니까?

WBOY
WBOY앞으로
2024-04-02 11:31:191231검색

Mamba는 최근 가장 인기 있는 모델 중 하나이며 업계에서 Transformer를 대체할 잠재력이 있다고 간주됩니다. 오늘 소개된 기사에서는 Mamba 모델이 시계열 예측 작업에 효과적인지 여부를 살펴봅니다. 이 기사에서는 먼저 Mamba의 기본 원리를 소개한 다음 이 기사를 결합하여 Mamba가 시계열 예측 시나리오에 효과적인지 여부를 살펴봅니다. Mamba 모델은 자동 회귀 아키텍처를 사용하여 시계열 데이터의 장기적인 종속성을 캡처하는 딥 러닝 기반 모델입니다. 기존 모델과 비교하여 Mamba 모델은 시계열 예측 작업에서 우수한 성능을 발휘합니다. 실험과 비교 분석을 통해 본 논문에서는 Mamba 모델이 시계열 예측 작업에서 좋은 결과를 보임을 확인했습니다. 미래의 시계열 값을 정확하게 예측하고 장기적인 종속성을 포착하는 데 더 나은 성능을 발휘할 수 있습니다. 요약 제목 : Mamba는 시계열 예측에 효과적입니까? State Space Model의 구조에 관한 것이지만 RNN과 매우 유사합니다. Transformer와 비교하여 Mamba는 학습 단계와 추론 단계 모두에서 시퀀스 길이에 따라 선형적으로 증가하는 시간 복잡도를 가지며, 컴퓨팅 효율성은 Transformer의 구조에 따라 달라집니다.

Mamba의 핵심은 다음 4가지 부분으로 나눌 수 있습니다. Mamba는 Transformer와 유사하며 시계열에 효과적입니까?

상태 공간 모델(SSM)은 상태가 현재 상태에 미치는 영향과 현재 상태가 출력에 미치는 영향을 설명하는 데 사용되는 수학적 모델입니다. 상태 공간 모델에서는 이전 상태와 현재 순간의 입력이 다음 상태에 영향을 미치고 현재 상태가 출력에 미치는 영향을 가정합니다. SSM은 다음과 같은 형태로 표현될 수 있으며, 행렬 A, B, C, D는 하이퍼파라미터이다. 매트릭스 A는 이전 상태가 현재 상태에 미치는 영향을 나타냅니다. 매트릭스 B는 현재 순간의 입력이 다음 상태에 영향을 미친다는 것을 나타냅니다. 매트릭스 C는 현재 상태가 출력에 미치는 영향을 나타냅니다. 행렬 D는 입력이 출력에 미치는 직접적인 영향을 나타냅니다. 현재 출력과 현재 순간의 입력을 관찰하면 다음 상태의 값을 유추할 수 있습니다. 현재의 관측 결과와 당시의 상태를 토대로 판단됩니다. SSM은 동적 시스템 모델링, 상태 추정, 제어 애플리케이션과 같은 분야에서 사용될 수 있습니다.

Pictures

컨볼루션 표현: 컨볼루션을 사용하여 SSM을 표현하여 훈련 단계에서 동시 계산을 실현합니다. SSM의 계산 출력 공식을 시간에 따라 확장하고 해당 컨볼루션 커널을 특정 형식으로 설계하면 됩니다. 컨볼루션을 사용하여 이전 세 순간의 출력의 함수로 각 순간의 출력을 표현합니다.

Pictures

Hippo Matrix: 매개변수 A의 경우 과거 정보의 감쇠 융합을 실현하기 위해 Hippo Matrix가 도입되었습니다.

Mamba는 Transformer와 유사하며 시계열에 효과적입니까? Picture

선택 모듈: 매개변수 B와 매개변수 C의 개인화 행렬에 대해 과거 정보의 개인화 선택을 구현하고 매 순간 매개변수 행렬을 입력에 대한 함수로 변환하여 개인화 매개변수를 구현합니다. 매 순간.

Mamba는 Transformer와 유사하며 시계열에 효과적입니까?Pictures

Mamba에 대한 더 자세한 모델 분석과 후속 Mamba 관련 작업도 Knowledge Planet에 업데이트되었습니다. 관심 있는 학생들은 이 행성에서 더 깊이 배울 수 있습니다.

Mamba는 Transformer와 유사하며 시계열에 효과적입니까?2. Mamba 시계열 모델다음은 Mamba를 기반으로 시계열 데이터를 적용하는 본 글에서 제안하는 Mamba 시계열 예측 프레임워크를 소개합니다. 전체는 Embedding, S/D-Mamba 레이어, Norm-FFN-Norm 레이어의 세 부분으로 나누어집니다.

Embedding: iTransformer 처리 방법과 유사하게 각 변수를 별도로 매핑하고 각 변수의 임베딩을 생성한 후 각 변수의 임베딩을 후속 Mamba에 입력합니다. 따라서 이 글은 iTransformer의 모델 구조를 Mamba 구조로 변경한 것으로 볼 수도 있습니다.

S/D-Mamba 레이어: Embedding의 입력 차원은 [batch_size,variable_number,dim]입니다. Mamba에 대한 입력, 이 기사에서는 각 레이어가 하나의 mamba를 사용하는지 아니면 두 개의 mamba를 사용하는지를 각각 나타내는 두 개의 Mamba 레이어인 S와 D를 탐색합니다. 두 mamba는 두 레이어의 출력을 추가하여 각 레이어의 출력 결과를 얻습니다. -FFN-Norm Layer : 출력 레이어에서 정규화 레이어와 FFN 레이어를 사용하여 Mamba의 출력 표현을 정규화 및 매핑하고 이를 잔여 네트워크와 결합하여 모델 수렴 및 안정성을 향상시킵니다. Mamba는 Transformer와 유사하며 시계열에 효과적입니까?

Mamba는 Transformer와 유사하며 시계열에 효과적입니까?그림

3. 실험 결과

다음 그림은 Mamba와 iTransformer, PatchTST 및 기타 업계 주류 시계열 모델의 효과를 비교한 기사의 핵심 실험 결과입니다. 또한 이 기사에서는 다양한 예측 창, 일반화 속성 등에 대한 실험적 비교를 수행합니다. 실험에 따르면 Mamba는 컴퓨팅 리소스 측면에서 장점이 있을 뿐만 아니라 모델 효과 측면에서 Transformer 관련 모델과 비교할 수 있으며 장기 모델링에서도 유망한 것으로 나타났습니다.

Mamba는 Transformer와 유사하며 시계열에 효과적입니까?사진

위 내용은 Mamba는 Transformer와 유사하며 시계열에 효과적입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제