시계열 예측에 언어 모델을 실제로 사용할 수 있나요? Betteridge의 헤드라인 법칙(물음표로 끝나는 모든 뉴스 헤드라인은 "아니오"로 대답할 수 있음)에 따르면 대답은 아니오여야 합니다. 그런 것 같습니다. 이렇게 강력한 LLM은 시계열 데이터를 잘 처리할 수 없습니다.
시계열, 즉 시계열은 이름에서 알 수 있듯이 발생 순서대로 배열된 데이터 포인트 시퀀스 집합을 나타냅니다.
시계열 분석은 질병 확산 예측, 소매 분석, 의료, 금융 등 다양한 분야에서 중요합니다. 시계열 분석 분야에서는 최근 많은 연구자들이 LLM(Large Language Model)을 사용하여 시계열의 이상 현상을 분류, 예측 및 탐지하는 방법을 연구하고 있습니다. 이 논문에서는 텍스트의 순차 종속성을 잘 처리하는 언어 모델이 시계열 데이터의 순차 종속성으로 일반화될 수도 있다고 가정합니다. 이 가정은 놀라운 일이 아닙니다. 결국 언어 모델은 이제 기계 학습 분야에서 가장 인기가 있습니다.
그렇다면 언어 모델이 전통적인 타이밍 작업에 얼마나 많은 도움을 줄 수 있을까요?
최근 버지니아 대학과 워싱턴 대학의 팀은 이 질문에 답하기 위해 노력했고 마침내 간단하지만 중요한 제안을 내놓았습니다. 시계열 예측 작업의 경우 언어 모델을 사용하는 일반적인 방법의 성능은 비슷하거나 더 나쁩니다. 기본 절제 방법보다 전자가 후자보다 훨씬 더 많은 계산이 필요합니다.
논문 제목: 언어 모델이 시계열 예측에 실제로 유용한가요?
논문 주소: https://arxiv.org/pdf/2406.16964
이러한 결과는 팀에서 얻은 것입니다. 현재 시계열 예측 연구에서 '걱정스러운 경향'을 드러내는 다수의 절제 연구.
그러나 팀은 또한 "우리의 목표는 언어 모델을 시계열에 사용할 수 없다는 것을 암시하는 것이 아닙니다." 사실 최근 일부 연구에서는 시간을 처리하기 위해 언어와 시계열 간의 상호 작용에 대한 좋은 잠재력이 있음을 보여주었습니다. 계열 추론 및 사회적 이해와 같은 작업.
대신 그들의 목표는 이 놀라운 발견을 강조하는 것입니다. 기존 시계열 작업의 경우 기존 방법은 사전 훈련된 언어 모델의 타고난 추론 기능을 거의 사용하지 않습니다.
실험 설정
팀은 세 가지 최첨단 시계열 예측 방법을 사용하고 LLM에 대한 세 가지 절제 방법(LLM 없음, LLM2Attn, LLM2Trsf)을 제안했습니다.
시계열 예측 작업에 대한 LLM의 효율성을 평가하기 위해 8개의 표준 데이터 세트에서 이러한 방법을 테스트했습니다.
언어 모델 및 시계열 참조 방법
그들은 LLM을 사용하여 시계열 예측을 위한 세 가지 최근 방법을 실험했습니다. 표 2를 참조하세요. 이러한 방법에 사용되는 기본 모델은 GPT-2 또는 LLaMA이며 다양한 정렬 및 미세 조정 전략이 사용됩니다.
OneFitsAll: OneFitsAll(GPT4TS라고도 함) 메서드는 입력 시계열에 인스턴스 정규화 및 패치 기술을 사용한 다음 이를 선형 레이어에 공급하여 언어 모델에 대한 입력 표현을 얻습니다. 훈련 중에 언어 모델의 다중 헤드 어텐션 및 피드포워드 레이어는 고정되는 반면 위치 임베딩 및 레이어 정규화는 최적화됩니다. 최종 레이어의 역할은 언어 모델의 최종 숨겨진 상태를 예측 결과로 변환하는 것입니다.
Time-LLM: Time-LLM을 사용할 때 입력 시계열은 패치 기법으로 토큰화되고 다중 헤드 어텐션은 이를 단어 임베딩의 저차원 표현과 정렬합니다. 그런 다음 이 정렬 프로세스의 출력은 기술적인 통계 기능이 포함된 동결된 사전 훈련된 언어 모델에 공급됩니다. 그런 다음 이 언어 모델의 출력 표현이 평면화되어 선형 레이어를 통과하여 예측이 이루어집니다.
LLaTA: LLaTA가 입력 시계열을 포함하는 방식은 각 채널을 토큰으로 처리하는 것입니다. 아키텍처의 절반은 교차 주의를 사용하여 시계열 표현을 언어 모델 단어 임베딩의 저차원 표현과 정렬하는 "텍스트 분기"입니다. 그런 다음 이 표현은 고정된 사전 훈련된 언어 모델로 전달되어 "텍스트 예측"이 생성됩니다. 동시에 아키텍처의 "시간적" 분기는 입력 시계열을 기반으로 사전 훈련된 언어 모델에 대한 하위 어댑터를 학습하여 추론을 위한 "시간적 예측"을 얻습니다. 모델에는 이러한 표현 간의 유사성을 고려하는 추가 손실 항이 포함되어 있습니다.
팀이 제안한 절제 방법
LLM 기반 예측변수의 경우 LLM의 영향을 분리하기 위해 팀에서는 LLM 구성 요소를 제거하거나 간단한 모듈로 교체하는 세 가지 절제 방법을 제안했습니다.
구체적으로 위 세 가지 방법 각각에 대해 다음과 같은 세 가지 수정 사항을 적용했습니다.
LLM 없이, 그림 1b를 참조하세요. 언어 모델을 완전히 제거하고 입력 토큰을 참조 메서드의 최종 계층에 직접 전달합니다.
LLM2Attn, 그림 1c를 참조하세요. 언어 모델을 무작위로 초기화된 단일 다중 헤드 주의 레이어로 대체합니다.
LLM2Trsf, 그림 1d를 참조하세요. 언어 모델을 무작위로 초기화된 단일 Transformer 모듈로 대체합니다.
위 절제 연구에서 나머지 예측 변수는 변경되지 않은 상태로 유지됩니다(훈련 가능). 예를 들어 그림 1b에 표시된 것처럼 LLM을 제거한 후 입력 인코딩이 출력 매핑으로 직접 전달됩니다. 그리고 그림 1c와 1d에서 볼 수 있듯이 LLM을 Attention이나 Transformer로 교체한 후 원래 방법의 나머지 구조와 함께 훈련됩니다.
데이터세트 및 평가 지표
벤치마크 데이터세트. 평가에서는 ETT(ETTm1, ETTm2, ETTh1, ETTh2의 4개 하위 집합 포함), 질병, 날씨, 교통, 전기 등 실제 데이터 세트를 사용합니다. 표 1은 이러한 데이터 세트의 통계를 제공합니다. 환율, 코로나 사망, 택시(30분), NN5(일일) 및 FRED-MD도 이용 가능합니다.
평가 지표. 본 연구에서 보고된 평가 지표는 예측된 시계열 값과 실제 시계열 값 사이의 평균 절대 오차(MAE)와 평균 제곱 오차(MSE)입니다.
Results
구체적으로 팀은 다음과 같은 연구 질문(RQ)을 탐구했습니다.
(RQ1) 사전 훈련된 언어 모델이 예측 성능을 향상시키는 데 도움이 될 수 있습니까?
(RQ2) LLM 기반 방법은 소비하는 계산 비용만큼 가치가 있습니까?
(RQ3) 언어 모델 사전 훈련이 예측 작업 수행에 도움이 됩니까?
(RQ4) LLM은 시계열의 순차적 종속성을 특성화할 수 있습니까?
(RQ5) LLM이 퓨샷 학습에 도움이 되나요?
(RQ6) 퍼포먼스는 어디서 나오나요?
사전 학습 언어 모델이 예측 성능을 향상하는 데 도움이 되나요? (RQ1)
실험 결과에 따르면 사전 훈련된 LLM은 시계열 예측 작업에 아직 그다지 유용하지 않습니다.
전체적으로 표 3에 표시된 대로 8개의 데이터 세트와 2개의 지표에서 Ablation 방법이 26/26건에서 Time-LLM 방법보다 우수하고 22/22건에서 Time-LLM 방법보다 성능이 뛰어납니다. 26건은 LLaTA보다 우수하고 19/26건에서는 OneFitsAll보다 우수합니다.
결론적으로 LLM이 시계열 예측에 효과적으로 사용될 수 있다고 말하기는 어렵습니다.
LLM 기반 방법은 소비하는 계산 비용만큼 가치가 있나요? (RQ2)
여기서 이러한 방법의 계산 강도는 공칭 성능을 기준으로 평가됩니다. 참조 접근 방식의 언어 모델은 수억 또는 수십억 개의 매개변수를 사용하여 시계열 예측을 수행합니다. 이러한 언어 모델의 매개변수가 고정된 경우에도 학습 및 추론 중에 여전히 상당한 계산 오버헤드가 발생합니다.
예를 들어 Time-LLM에는 6642M 매개변수가 있고 날씨 데이터 세트에 대한 훈련을 완료하는 데 3003분이 걸리는 반면, 절제 방법에는 0.245M 매개변수만 있고 평균 훈련 시간은 2.17분에 불과합니다. 표 4는 ETTh1 및 Weather 데이터 세트에 대한 다른 방법 교육에 대한 정보를 제공합니다.
추론 시간의 경우 여기서 접근 방식은 최대 배치 크기로 나누어 예제당 추론 시간을 추정하는 것입니다. 평균적으로 Time-LLM, OneFitsAl, LLaTA는 수정된 모델에 비해 추론 시간이 28.2배, 2.3배, 1.2배 더 많이 소요됩니다.
그림 3은 녹색 마커(절제 방법)가 일반적으로 빨간색 마커(LLM)보다 낮고 왼쪽에 집중되어 있는 몇 가지 예를 제공합니다. 이는 계산 비용이 덜 들지만 예측 성능이 더 우수하다는 것을 보여줍니다.
간단히 말하면, 시계열 예측 작업에서는 LLM의 계산 강도로는 그에 따른 성능 향상을 가져올 수 없습니다.
언어 모델 사전 훈련이 예측 작업 수행에 도움이 되나요? (RQ3)
평가 결과에 따르면 시계열 예측 작업의 경우 대규모 데이터 세트를 사용한 사전 학습이 실제로 필요하지 않은 것으로 나타났습니다. 사전 훈련 중에 학습한 지식이 예측 성능에 의미 있는 개선을 가져올 수 있는지 테스트하기 위해 팀은 LLaTA에 대한 사전 훈련과 미세 조정의 다양한 조합이 시계열 데이터에 미치는 영향을 실험했습니다.
사전 훈련 + 미세 조정(Pre+FT): 사전 훈련된 언어 모델을 시계열 데이터에 대해 미세 조정하는 독창적인 방법입니다. 여기서 LLaTA의 경우 기본 언어 모델을 동결하고 LoRA(낮은 순위 어댑터)를 학습하는 접근 방식이 있습니다.
임의 초기화 + 미세 조정(woPre+FT): 사전 훈련에서 얻은 텍스트 지식이 시계열 예측에 도움이 됩니까? 여기서 언어 모델의 가중치는 무작위로 초기화되고(따라서 사전 학습의 효과가 제거됨) LLM은 미세 조정된 데이터 세트에서 처음부터 학습됩니다.
사전 훈련 + 미세 조정 없음(Pre+woFT): 시계열 데이터에 대한 미세 조정이 예측 성능을 얼마나 향상시킬 수 있나요? 여기서 우리는 언어 모델을 동결하고 LoRA 학습을 포기합니다. 이는 시계열 처리에서 언어 모델 자체의 성능을 반영할 수 있습니다.
임의 초기화 + 미세 조정 없음(woPre+woFT): 이는 분명히 입력 시계열을 예측 결과에 무작위로 투영하는 것입니다. 결과는 다른 방법과 비교하기 위한 기준으로 사용되었습니다.
전체 결과는 표 5에 나와 있습니다. MAE 및 MSE 지표에 따르면 8개 데이터 세트에서 "사전 훈련 + 미세 조정"이 3번 가장 좋은 성능을 보인 반면 "무작위 초기화 + 미세 조정"은 8번 가장 좋은 결과를 얻었습니다. 이는 언어 지식이 시계열 예측에 제한적인 도움이 됨을 보여줍니다. 그러나 "사전 훈련 + 미세 조정 없음"과 기본 "무작위 초기화 + 미세 조정 없음"은 각각 5와 0의 최상의 결과를 얻었으며 이는 미세 조정 과정에서 언어 지식이 큰 도움이 되지 않음을 보여줍니다.
간단히 말하면, 사전 학습을 통해 얻은 텍스트 지식은 시계열 예측에 제한적인 도움을 줍니다.
LLM은 시계열의 순차적 종속성을 특성화할 수 있나요? (RQ4)
위치 인코딩을 미세 조정하기 위해 LLM을 사용하는 대부분의 시계열 예측 방법은 시퀀스에서 시간 단계의 위치를 이해하는 데 도움이 됩니다. 팀은 위치 표현이 뛰어난 시계열 모델의 경우 입력 위치가 뒤섞이면 예측 성능이 크게 떨어질 것으로 예측합니다. 그들은 시계열 데이터를 스크램블하는 세 가지 방법을 실험했습니다. 전체 시퀀스를 무작위로 섞는 것(sf-all), 시퀀스의 첫 번째 절반만 무작위로 섞는 것(sf-half), 시퀀스의 첫 번째와 두 번째 절반을 교환하는 것(예: 반). . 결과를 표 6에 나타내었다.
LLM 기반 방법에 대한 입력 셔플링의 영향은 절제 방법과 유사합니다. 이는 LLM이 시계열의 순차적 종속성을 특성화하는 데 뛰어난 능력이 없음을 보여줍니다.
LLM이 퓨샷 학습에 도움이 되나요? (RQ5)
평가 결과에 따르면 LLM은 Few-shot 학습 시나리오에서는 거의 의미가 없는 것으로 나타났습니다.
그들의 평가 실험은 각 데이터 세트의 10%를 가져와 모델과 해당 절제 방법을 재교육하는 것이었습니다. 특히 여기서는 LLaMA(Time-LLM)를 평가합니다. 결과를 표 7에 나타내었다.
LLM 유무에 관계없이 성능이 비슷하다는 것을 알 수 있습니다. 각 경우에는 더 나은 성능을 보이는 8가지 사례가 있습니다. 연구팀은 GPT-2 기반 방법인 LLaTA를 사용해 비슷한 실험도 진행했다. 결과는 표 8에 나와 있으며, 여기서 절제 방법은 소수 샘플 시나리오에서 LLM보다 더 잘 수행됩니다.
공연은 어디서 나오나요? (RQ6)
이 섹션에서는 LLM 시계열 모델에서 일반적으로 사용되는 코딩 기술을 평가합니다. 패치와 단일 레이어 주의를 결합하는 것은 간단하면서도 효과적인 옵션임이 밝혀졌습니다.
LLM 기반 방법의 단순한 절제로는 성능이 저하되지 않는 것으로 이전에 밝혀졌습니다. 이 현상의 원인을 이해하기 위해 팀은 패치 및 분해와 같은 LLM 시계열 작업에서 일반적으로 사용되는 몇 가지 인코딩 기술을 연구했습니다. 인코딩을 지원하기 위해 기본 Transformer 모듈도 사용할 수 있습니다.
패칭과 주의를 결합한 구조는 소규모 데이터 세트(100만 개 미만의 타임스탬프)에서 대부분의 다른 인코딩 방법보다 성능이 뛰어나며 LLM 방법과도 비교할 수 있는 것으로 나타났습니다.
자세한 구조는 그림 4에 표시되어 있으며, 시계열에 "인스턴스 정규화"를 적용한 후 패치 및 프로젝션을 수행합니다. 그런 다음 기능 학습을 위해 패치 사이에 주의 계층이 사용됩니다. 교통(~1,500만) 및 전기(~800만)와 같은 대규모 데이터 세트의 경우 기본 Transformer를 사용하는 단일 레이어 선형 모델의 인코딩 성능이 더 좋습니다. 이러한 방법에서는 최종적으로 단일 선형 레이어를 사용하여 시계열 임베딩을 투영하여 예측 결과를 얻습니다.
코딩에 있어서 패치는 한마디로 매우 중요합니다. 또한 기본적인 관심과 Transformer 모듈도 코딩에 효과적으로 도움을 줄 수 있습니다.
위 내용은 LLM은 시계열 예측에 적합하지 않습니다. 추론 능력도 사용하지 않습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!