>  기사  >  기술 주변기기  >  Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델

Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델

WBOY
WBOY앞으로
2023-12-15 13:03:56777검색

오늘은 장기주기 예측에 사용할 수 있는 어댑터 기반의 범용 시계열 분석 프레임워크를 제안하는 Alibaba Damo Academy의 최신 연구에 대해 이야기하고 싶습니다. 단기 예측, 제로샷, 소수 등 7개 시계열 작업에서 놀라운 결과를 얻었습니다.

Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델

논문 제목: 하나의 크기로 모든 것에 적합: 사전 훈련된 언어 모델과 특별히 설계된 어댑터를 사용한 보편적인 시계열 분석

다운로드 가능한 링크: https://arxiv.org/pdf/2311.14782v1.pdf

1. 배경

시계열 예측 분야에서 대규모 모델을 구축할 때 어려운 점 중 하나는 NLP나 CV 분야처럼 훈련 데이터가 충분하지 않다는 것입니다. 이 기사에서는 NLP 또는 CV 분야에서 훈련된 대규모 모델을 기반으로 어댑터 기술과 결합하여 이를 시계열에 적용하여 다양한 시계열 문제를 해결하는 솔루션을 제안합니다.

NLP의 어댑터는 널리 사용됩니다. CV와 같은 분야, 특히 최근 대형 모델 애플리케이션에서는 대형 모델의 경량 미세 조정을 수행하는 데 어댑터가 사용되는 경우가 많습니다. 어댑터는 경량형 네트워크입니다. 이를 대형 모델의 일부 모듈에 삽입한 다음 대형 모델의 매개변수를 수정하고 어댑터의 매개변수만 업데이트하면 경량형 대형 모델 미세 조정이 가능합니다.

Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델Pictures

이제 Alibaba Damo Academy의 이번 작업에서 어댑터를 사용하여 사전 훈련된 NLP와 CV 모델을 결합하여 통합 시계열 모델을 구축하는 방법을 소개하겠습니다.

2. 전체 구조

본 글에서 제안하는 모델은 Preze 매개변수의 사전 학습된 언어 모델을 기반으로 하며 4가지 유형의 어댑터를 결합하여 구현됩니다. 전체 모델 구조는 아래 그림과 같습니다.

Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델Pictures

먼저 입력 시계열에 대해 정규화를 위해 RevIN 방법을 사용하겠습니다. 이는 각 시계열에서 평균을 빼고 분산으로 나누는 것을 의미합니다. 다음으로 PatchTST 방법을 사용하여 슬라이딩 윈도우를 통해 시계열을 여러 세그먼트로 분할하고 세그먼트 임베딩을 생성합니다. 처리된 시계열은 NLP 분야의 사전 훈련된 언어 모델에 입력됩니다. 전체 학습 과정 동안 언어 모델의 원래 매개변수는 변경되지 않으며 새로 추가된 4가지 유형의 어댑터 매개변수만 업데이트됩니다

3. 어댑터 디자인

이 기사에서는 연결할 수 있는 4가지 유형의 어댑터를 소개합니다. 시계열 적응이라는 목표를 달성하기 위해 CV 분야에서 NLP와 대형 모델의 다양한 위치. 이 네 가지 어댑터는 시간 어댑터, 채널 어댑터, 주파수 어댑터 및 예외 어댑터입니다. 시간 어댑터는 시간 차원 정보를 융합하는 데 사용되는 MLP 네트워크입니다. 본 논문에서는 시간 차원이나 공간 차원의 고차원 정보를 먼저 저차원 공간에 매핑한 후 다시 고차원 공간에 매핑하는 병목 구조를 채택합니다. 그 목적은 시간적 관계를 추출하는 과정에서 과적합의 위험을 피하기 위한 것입니다

채널 어댑터: 채널 어댑터의 구조는 시간적 어댑터와 유사하지만 차이점은 공간 차원에서 수행된다는 점입니다. 다변량 시퀀스의 변수 간의 관계를 추출하는 데 사용됩니다.

pictureAdapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델 주파수 어댑터는 시계열을 주파수 영역에 매핑합니다. 주파수 영역은 주파수 영역에서 MLP를 수행한 다음 이를 시간 영역으로 다시 매핑하여 주파수 영역과 같은 전역 정보를 추출합니다.

Anomaly Adapter: 이 부분에서는 주로 새로운 시계열 이상 탐지 방법을 구현합니다. 여기서는 Attention Score 행렬을 사용합니다. 정상적인 시퀀스의 경우 Attention Score 행렬은 주기적인 반복 특성을 나타내지만 비정상적인 시퀀스는 그렇지 않습니다. a 가우스 커널은 이상 어댑터 역할을 하며 시계열 이상 탐지를 위해 주의 출력 결과와 계산된 KL 발산을 사용합니다.

사진Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델또한 각 어댑터에 따라 다양한 정도의 영향을 받기 때문에 기사에서는 어댑터를 선택적으로 사용하기 위해 Gated 네트워크를 사용했습니다.

4. 실험 결과

7가지 효과. 본 논문에서 제안한 시계열 통합 대형 모델은 각 작업에서 업계의 다양한 SOTA 모델보다 더 나은 결과를 얻었습니다. 장기 예측 작업을 예로 들면 GPT2+Adaptor 기반의 통합 모델이 가장 잘 수행됩니다

Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델사진

위 내용은 Adapter 및 GPT 기반 시계열 다중 작업 통합 대규모 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제