시계열 예측에서 Transformer는 종속성을 설명하고 다단계 표현을 추출하는 강력한 기능을 보여주었습니다. 그러나 일부 연구자들은 Transformer 기반 예측 변수의 효율성에 의문을 제기했습니다. 이러한 예측기는 일반적으로 동일한 타임스탬프의 여러 변수를 구별할 수 없는 채널에 포함하고 이러한 타임스탬프에 초점을 맞춰 시간적 종속성을 캡처합니다. 연구원들은 의미론적 관계보다는 수치적 관계를 고려하는 단순한 선형 레이어가 성능과 효율성 모두에서 복잡한 Transformer보다 성능이 뛰어나다는 것을 발견했습니다. 동시에, 최근 연구에서는 변수의 독립성을 보장하고 상호 정보를 활용하는 것의 중요성이 점점 더 주목받고 있습니다. 이러한 연구는 정확한 예측을 달성하기 위해 다변량 상관 관계를 명시적으로 모델링합니다. 그러나 일반적인 Transformer 아키텍처를 뒤집지 않고는 이 목표를 달성하기가 여전히 어렵습니다
Transformer 기반 예측 변수로 인한 논란을 고려하여 연구자들은 Transformer가 시계열 예측에 사용되는 이유에 대해 생각하고 있습니다. 다른 많은 분야에서는 선형 모델로 사용되지만 다른 많은 분야에서는 지배적입니다
최근 Tsinghua University의 새로운 논문은 다른 관점을 제안합니다. Transformer의 성능은 고유한 것이 아니라 스키마의 부적절한 적용으로 인해 발생합니다. 시계열 데이터에.
논문 링크: https://arxiv.org/pdf/2310.06625.pdf
Transformer 기반 예측 변수의 기존 구조는 다변량 시계열 예측에 적합하지 않을 수 있습니다. 그림 2의 왼쪽은 동일한 시간 단계의 포인트가 서로 다른 물리적 의미를 나타내지만 측정 결과가 일관되지 않음을 보여줍니다. 이러한 포인트는 토큰에 포함되어 있으며 다변량 상관 관계는 무시됩니다. 또한 실제 세계에서는 다변량 시점의 로컬 수용 필드와 타임스탬프의 불일치로 인해 개별 시간 단계에 유용한 정보가 표시되는 경우가 거의 없습니다. 또한, 시퀀스 변이는 시퀀스 순서에 의해 크게 영향을 받지만, 시간 차원의 변이 주의 메커니즘은 완전히 채택되지 않았습니다. 따라서 기본 시퀀스 표현을 캡처하고 다변량 상관 관계를 설명하는 Transformer의 능력이 약화되어 다양한 시계열 데이터에 대한 능력과 일반화 능력이 제한됩니다. (시간) 토큰의 경우, 연구자들은 시계열의 역 관점에서 시작하여 각 변수의 전체 시계열을 독립적으로 (변수) 토큰에 포함시킵니다. 이는 로컬 수용 영역을 확장하기 위한 패치의 극단적인 경우입니다. 반전을 통해 내장된 토큰은 시퀀스의 전역 표현을 집계하며, 이는 보다 변수 중심이 될 수 있고 다변수 연관을 위한 주의 메커니즘을 더 잘 활용할 수 있습니다. 동시에 피드포워드 네트워크는 룩백 시퀀스로 인코딩된 다양한 변수의 일반화된 표현을 능숙하게 학습하고 이를 디코딩하여 미래 시퀀스를 예측할 수 있습니다.
연구원들은 시계열 예측에 있어 Transformer는 유효하지 않지만 그 사용이 부적절하다고 지적했습니다. 본 논문에서 연구진은 Transformer의 구조를 재검토하고 iTransformer를 시계열 예측의 기본 기둥으로 추천했습니다. 각 시계열을 변수 토큰으로 포함하고, 다중 변수 상관 주의 메커니즘을 채택하고, 피드포워드 네트워크를 사용하여 시퀀스를 인코딩합니다. 실험 결과, 제안된 iTransformer는 실제 예측 벤치마크인 그림 1에서 최고 수준에 도달했으며 Transformer 기반 예측기가 직면한 문제를 예기치 않게 해결하는 것으로 나타났습니다
결론적으로 본 논문은
연구원은 Transformer의 아키텍처를 검토한 결과 시계열의 기본 Transformer 구성 요소의 기능이 완전히 개발되지 않았음을 발견했습니다.
이 기사에서 제안된 iTransformer는 독립 시계열을 토큰으로 처리하고, self-attention을 통해 다변수 상관 관계를 캡처하고, 레이어 정규화 및 피드포워드 네트워크 모듈을 사용하여 시계열 예측을 위한 더 나은 시퀀스 전역 표현을 학습합니다.
T 시간 단계와 N 변수를 사용하여 연구원은 미래 S 시간 단계를 예측합니다: . 편의상 는 시간 단계 t에서 동시에 기록된 다변량 변수이고, 는 각 변수에 대해 n으로 인덱스된 전체 시계열입니다. 실제로는 모니터의 시스템 대기 시간과 느슨하게 구성된 데이터 세트로 인해 에 본질적으로 동일한 타임스탬프를 가진 시점이 포함되지 않을 수 있다는 점에 주목할 가치가 있습니다.
의 요소는 물리적 측정 및 통계적 분포에서 서로 다를 수 있으며 변수 는 이러한 데이터를 공유하는 경우가 많습니다.
이 기사에서 제안한 아키텍처를 갖춘 iTransformer라는 Transformer 변형은 Attention 메커니즘이 다변량 상관 모델링에 적합해야 한다는 점을 제외하면 기본적으로 Transformer 변형에 대해 더 구체적인 요구 사항을 제시하지 않습니다. 따라서 효과적인 주의 메커니즘 세트는 변수 수가 증가할 때 연관의 복잡성을 줄이는 플러그인 역할을 할 수 있습니다.
iTransformer는 임베딩, 프로젝션 및 Transformer 블록을 포함하는 더 간단한 Transformer 인코더 아키텍처를 사용하여 네 번째 그림에 표시됩니다.
연구원들은 iTransformer를 다양한 A 종합 평가에 사용했습니다. 다양한 시계열 예측 애플리케이션에서 수행되어 프레임워크의 다양성을 확인하고 특정 시계열 차원에 대한 Transformer 구성 요소의 책임을 반전시키는 효과를 추가로 연구했습니다.
연구원들은 실험에 6개의 실제 데이터를 광범위하게 포함했습니다. ETT, 날씨, 전기, 교통 데이터 세트, 태양 에너지 데이터 세트 및 PEMS 데이터 세트를 포함한 세계 데이터 세트입니다. 자세한 데이터 세트 정보는 원본 텍스트
를 참조하세요. 다시 작성된 내용은 다음과 같습니다. 예측 결과
는 표 1에 표시되며 빨간색은 최적을 나타내고 밑줄은 최적을 나타냅니다. MSE/MAE가 낮을수록 내용이 다시 작성되어 예측 결과가 더 정확해집니다. 본 논문에서 제안하는 iTransformer는 SOTA 성능을 구현한다. 기본 Transformer 구성 요소는 시간 모델링 및 다변량 상관 관계가 가능하며 제안된 역 아키텍처는 실제 시계열 예측 시나리오를 효과적으로 해결할 수 있습니다.
다시 작성해야 할 사항은 다음과 같습니다. iTransformer의 보편성
iTransformers를 평가하기 위해 이 프레임워크를 Transformer와 그 변형에 적용한 연구자들은 이러한 변형이 종종 자기의 2차 복잡성 문제를 해결한다는 것을 발견했습니다. -Reformer, Informer, Flowformer 및 FlashAttention을 포함한 주의 메커니즘. 연구원들은 또한 단순히 관점을 반전시키는 것이 Transformer 기반 예측기의 성능을 향상시키고, 효율성을 향상시키며, 보이지 않는 변수로 일반화하고, 과거 관찰 데이터를 더 잘 활용할 수 있다는 것을 발견했습니다
표 2는 Transformer와 해당 iTransformers 평가를 보여줍니다. 프레임워크가 다양한 Transformer를 지속적으로 개선한다는 점은 주목할 가치가 있습니다. 전체적으로 트랜스포머는 평균 38.9%, 리포머는 평균 36.1%, 인포머는 평균 28.5%, 플로우포머는 평균 16.8%, 플래시포머는 평균 32.2% 향상됐다.
또 다른 요인은 iTransformer가 가변 차원의 Attention 메커니즘의 역구조를 채택하고 선형 복잡성으로 효율적인 주의를 도입하며 6개 변수로 인한 효율성 문제를 근본적으로 해결하기 때문에 Transformer 기반 예측기에서 널리 사용될 수 있다는 것입니다. 이 문제는 실제 응용 프로그램에서 흔히 발생하지만 채널 독립적인 경우에는 리소스를 많이 소모할 수 있습니다.
가설을 테스트하기 위해 연구원들은 iTransformer를 또 다른 일반화 전략인 채널 독립적 강제와 비교했습니다. 모든 변형에 대한 패턴입니다. 그림 5에서 볼 수 있듯이 CI-Transformer(Channel Independent)의 일반화 오류는 크게 증가할 수 있는 반면 iTransformer 예측 오류의 증가는 훨씬 작습니다.
Attention 및 Feedforward 네트워크의 책임이 반전되므로 룩백 길이가 증가함에 따라 Transformer와 iTransformer의 성능이 그림 6에서 평가됩니다. 이는 시간 차원에서 MLP를 활용하는 합리성을 검증합니다. 즉, 변환기는 확장된 전환 확인 기간의 이점을 누릴 수 있어 보다 정확한 예측을 얻을 수 있습니다.
모델 분석
연구진은 Transformer 부품의 합리성을 검증하기 위해 부품 교체(Replace) 및 부품 제거(w/o) 실험을 포함한 세부적인 절제 실험을 수행했습니다. 표 3은 실험 결과를 나열합니다.
자세한 내용은 원문을 참고해주세요.
위 내용은 Transformer Revisited: 반전이 더 효과적이며 실제 예측을 위한 새로운 SOTA 등장의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!