최근 호주의 Monash University, Ant Group, IBM Research 및 기타 기관의 연구원들은 LLM(대형 언어 모델)에 대한 모델 재프로그래밍의 적용을 탐색하고 새로운 관점, 즉 일반 시계열 예측을 위한 대규모 언어 모델 프로그래밍을 제안했습니다. 시스템, Time-LLM 프레임워크. 이 프레임워크는 언어 모델을 수정하지 않고도 고정밀하고 효율적인 예측을 달성할 수 있습니다. 여러 데이터 세트 및 예측 작업에서 기존 시계열 모델을 능가할 수 있으므로 LLM은 코끼리 춤처럼 교차 모달 시계열 데이터를 처리할 때 탁월한 성능을 발휘할 수 있습니다. .
최근 일반 지능 분야에서 대형 언어 모델 개발, "대형 모델 + 시계열/시간 데이터"라는 새로운 방향으로 관련해서 많은 진전이 보이고 있습니다. 현재 LLM은 시계열/시간적 데이터 마이닝 방법을 혁신하여 도시, 에너지, 교통, 건강 등과 같은 고전적인 복잡한 시스템에서 효율적인 의사 결정을 촉진하고 보다 보편적인 지능형 형태의 시간/공간 분석으로 나아갈 수 있는 잠재력을 가지고 있습니다. .
이 문서는 다양한 범용 작업과 시간별 도메인 애플리케이션을 처리하기 위해 훈련되고 영리하게 용도 변경될 수 있는 언어 및 기타 관련 모델과 같은 대규모 기본 모델을 제안합니다. 순차 및 시간 공간 데이터 . 참조: https://arxiv.org/pdf/2310.10196.pdf.
최근 연구에서는 자연어 처리에서 시계열 및 시공간 작업까지 대규모 언어 모델을 확장했습니다. 이 새로운 연구 방향, 즉 "대형 모델 + 시계열/시공간 데이터"는 제로샷 시계열 예측 추론을 위해 LLM을 직접 활용하는 LLMTime과 같은 많은 관련 개발을 만들어냈습니다. LLM은 강력한 학습 및 표현 기능을 갖추고 있으며 텍스트 시퀀스 데이터의 복잡한 패턴과 장기적인 종속성을 효과적으로 캡처할 수 있지만 자연어 처리에 초점을 맞춘 "블랙 박스"로서 시계열 및 시공간 작업에서 LLM을 적용하는 것은 여전히 문제에 직면해 있습니다. 도전. TimesNet, TimeMixer 등과 같은 기존 시계열 모델과 비교할 때 LLM은 거대한 매개변수와 규모로 인해 "코끼리"와 비슷합니다.
당신이 요구하는 것은 자연어 분야에서 훈련된 대규모 언어 모델(LLM)이 텍스트 패턴 전반에 걸쳐 숫자 시퀀스 데이터를 처리하고 시계열 및 시공간적 작업에서 강력한 추론을 발휘할 수 있도록 "길들이는" 방법입니다. 현재 연구의 주요 초점이 되었습니다. 이를 위해서는 언어학적 데이터와 시간적 데이터 사이의 잠재적인 패턴 유사성을 탐색하고 이를 특정 시계열 및 시공간적 작업에 효과적으로 적용하기 위한 더 깊은 이론적 분석이 필요합니다.
LLM 재프로그래밍은 일반적인 시계열 예측 기술입니다. (1) 시간적 입력 재프로그래밍과 (2) 프롬프트 사전 프로그래밍이라는 두 가지 핵심 기술을 제안하여 시간적 예측 작업을 LLM이 효과적으로 해결할 수 있는 "언어" 작업으로 변환하고 대규모 언어 모델을 성공적으로 활성화하여 높은 수준을 달성합니다. 성능. 정확한 타이밍 추론을 수행하는 능력.
논문 주소: https://openreview.net/pdf?id=Unb5CVPtae
논문 코드: https://github.com/KimMeen/Time-LLM
1. 문제 배경
타이밍. 데이터는 현실에서 광범위하게 저장되며, 타이밍 예측은 많은 실제 동적 시스템에서 매우 중요하며 널리 연구되어 왔습니다. 단일 대형 모델이 여러 작업을 처리할 수 있는 자연어 처리(NLP) 및 컴퓨터 비전(CV)과 달리 시계열 예측 모델은 다양한 작업 및 애플리케이션 시나리오의 요구 사항을 충족하도록 특별히 설계해야 하는 경우가 많습니다. 최근 연구에 따르면 복잡한 시간 시퀀스를 처리할 때 LLM(대형 언어 모델)도 신뢰할 수 있는 것으로 나타났습니다. 시간 분석 작업을 처리하기 위해 대규모 언어 모델 자체의 추론 기능을 활용하는 것은 여전히 어려운 일입니다.
2. 논문 개요
본 연구에서 저자는 별도의 훈련 없이 LLM을 쉽게 사용하여 일반 대형 언어 모델 재프로그래밍(LLM Reprogramming) 프레임워크인 Time-LLM을 제안합니다. 대규모 언어 모델 자체에 대해. Time-LLM은 먼저 텍스트 프로토타입(Text Prototypes)을 사용하여 입력 시계열 데이터를 재프로그래밍하고 자연어 표현을 사용하여 시계열 데이터의 의미 정보를 표현함으로써 서로 다른 두 데이터 양식을 정렬하므로 대규모 언어 모델이 수정이 필요하면 다른 데이터 형식 뒤에 있는 정보를 이해할 수 있습니다.
입력 시계열 데이터와 해당 작업에 대한 LLM의 이해를 더욱 높이기 위해 저자는 추가적인 상황별 프롬프트와 시계열 데이터 표현 이전의 작업 지침은 순차적 작업에 대한 LLM의 처리 기능입니다. 이 연구에서 저자는 주류 시계열 벤치마크 데이터 세트에 대해 충분한 실험을 수행했으며 그 결과 Time-LLM이 대부분의 경우 기존 시계열 모델을 능가하고 퓨샷 및 제로샷 샘플에서 더 나은 성능을 달성할 수 있음을 보여주었습니다. 샘플(제로샷) 학습 작업이 크게 개선되었습니다.
이 작업의 주요 기여는 다음과 같이 요약될 수 있습니다.
1. 이 작업은 백본 언어 모델을 수정하지 않고 타이밍 분석을 위해 대규모 언어 모델을 다시 프로그래밍하는 새로운 개념을 제안합니다. 저자는 시계열 예측이 기성 LLM으로 효과적으로 해결할 수 있는 또 다른 "언어적" 작업으로 간주될 수 있음을 보여줍니다.
2 이 작업은 입력 시간 데이터를 보다 자연스러운 텍스트 프로토타입 표현으로 재프로그래밍하고 이를 도메인 전문 지식 및 작업 설명과 같은 선언적 단서와 통합하여 향상시키는 일반적인 언어 모델 재프로그래밍 프레임워크인 Time-LLM을 제안합니다. 효과적인 도메인 간 추론을 위해 LLM을 안내하는 입력 컨텍스트입니다. 이 기술은 다중 모드 타이밍 기본 모델 개발을 위한 견고한 기반을 제공합니다.
3. Time-LLM은 주류 예측 작업, 특히 소수 샘플 및 제로 샘플 시나리오에서 지속적으로 최고의 기존 모델 성능을 능가합니다. 또한 Time-LLM은 뛰어난 모델 재프로그래밍 효율성을 유지하면서 더 높은 성능을 달성할 수 있습니다. 시계열 및 기타 순차 데이터에 대해 LLM의 아직 활용되지 않은 잠재력을 극적으로 활용하세요.
3. 모델 프레임워크
위 모델 프레임워크 다이어그램의 ①과 ②에서 볼 수 있듯이 입력된 시계열 데이터는 먼저 RevIN에 의해 정규화된 후 여러 패치로 분할되어 잠재 공간에 매핑됩니다.
시계열 데이터와 텍스트 데이터는 표현 방식에 상당한 차이가 있으며, 서로 다른 양상에 속합니다. 시계열은 자연어로 직접 편집하거나 손실 없이 설명할 수 없습니다. 이는 LLM이 시계열을 이해하도록 직접 유도하는 데 중요한 과제를 제기합니다. 따라서 시간적 입력 특성을 자연어 텍스트 도메인에 맞춰 정렬해야 합니다.
다양한 양식을 정렬하는 일반적인 방법은 크로스 어텐션(Cross-Attention)입니다. 모델 프레임워크 다이어그램의 ③에서 볼 수 있듯이 모든 단어의 임베딩 및 타이밍 입력 기능에 대해서만 크로스 어텐션을 만들면 됩니다. 입력 기능은 Query 이고 모든 단어의 임베딩은 Key 및 Value 입니다. 그러나 LLM의 고유 어휘는 매우 방대하므로 시간적 특징을 모든 단어에 효과적으로 직접 정렬할 수 없으며 모든 단어가 시계열과 의미론적 관계를 정렬하지 않습니다. 이 문제를 해결하기 위해 본 연구에서는 어휘의 선형 조합을 수행하여 텍스트 프로토타입을 얻습니다. 텍스트 프로토타입의 수는 원래 어휘보다 훨씬 적습니다. "간단한 상승 또는 느린 하락."
특정 타이밍 작업에서 LLM의 기능을 완전히 활성화하기 위해 이 작업은 모델 프레임워크 다이어그램의 ④에 표시된 것처럼 간단하고 효과적인 방법인 프롬프트 접두사 패러다임을 제안합니다. 최근 발전을 통해 이미지와 같은 다른 데이터 패턴을 단서의 접두사에 원활하게 통합할 수 있어 이러한 입력을 기반으로 효율적인 추론이 가능하다는 사실이 밝혀졌습니다. 이러한 발견에서 영감을 받아 저자는 자신의 방법을 실제 시계열에 직접 적용할 수 있도록 대안적인 질문을 제기합니다. 힌트가 입력 컨텍스트를 풍부하게 하고 재프로그래밍된 시계열 패치의 변환을 안내하는 접두사 정보 역할을 할 수 있습니까? 이 개념을 PaP(Prompt-as-Prefix)라고 하며, 또한 저자는 패치 재프로그래밍을 보완하면서 다운스트림 작업에 대한 LLM의 적응성을 크게 향상시키는 것을 관찰했습니다. 일반인의 관점에서 이는 접두어 프롬프트로 자연어 형태로 시계열 데이터 세트의 일부 사전 정보를 제공하고 이를 정렬된 시계열 기능과 결합하여 예측 효과를 향상시킬 수 있음을 의미합니다.
위 그림은 두 가지 프롬프트 방법을 보여줍니다. Patch-as-Prefix에서는 언어 모델이 자연어로 표현된 시계열의 후속 값을 예측하라는 메시지를 표시합니다. 이 접근 방식에는 다음과 같은 몇 가지 제약 사항이 있습니다. (1) 외부 도구의 도움 없이 고정밀 숫자를 처리할 때 언어 모델은 종종 낮은 민감도를 나타내므로 장기 예측 작업을 정확하게 처리하는 데 심각한 문제가 발생합니다. (2) 다양한 언어 모델의 경우 다양한 말뭉치에 대해 사전 훈련되어 있고 고정밀 숫자를 생성할 때 다양한 단어 분할 유형을 사용할 수 있으므로 복잡한 맞춤형 후처리가 필요합니다. 이로 인해 예측은 ['0', '.', '6', '1'] 및 0.61을 나타내는 ['0', '.', '61']과 같은 다양한 자연어 형식으로 표시됩니다.
실제로 저자는 효과적인 프롬프트를 구축하기 위한 세 가지 주요 구성 요소를 식별했습니다. (1) 데이터 세트 컨텍스트 (2) LLM을 다양한 다운스트림 작업에 적용하기 위한 작업 지침 (3) 추세, 시간 지연 및 대기와 같은 통계 설명 LLM이 시계열 데이터의 특성을 더 잘 이해할 수 있도록 합니다. 아래 이미지는 프롬프트의 예를 보여줍니다.
4. 실험 결과
아래 표에서 볼 수 있듯이 Time-LLM은 벤치마크에서 이전 최고 수준을 크게 뛰어넘었습니다. 또한 GPT-2를 직접 사용하는 GPT4TS에 비해 리프로그래밍 아이디어와 Prompt-as-Prefix(Prompt-as-Prefix)를 사용하는 Time-LLM도 크게 개선되어 이 방법의 효율성을 나타냅니다.
또한 교차 도메인 적응 프레임워크 내에서 재프로그래밍된 LLM의 제로샷 제로샷 학습 능력을 평가합니다. 재프로그래밍 능력 덕분에 교차 도메인에서 LLM의 예측 능력을 완전히 활성화합니다. 아래 표에서 볼 수 있듯이 Time-LLM은 제로샷 시나리오에서도 탁월한 예측 결과를 보여줍니다.
5. 요약
대형 언어 모델(LLM)의 급속한 발전으로 인해 크로스 모달 시나리오에서 인공 지능의 발전이 크게 촉진되었으며 여러 분야에서 광범위한 적용이 촉진되었습니다. 그러나 LLM의 대규모 매개변수 규모와 주로 자연어 처리(NLP) 시나리오를 위한 설계로 인해 교차 모달 및 교차 도메인 애플리케이션에 많은 문제가 발생합니다. 이를 고려하여 우리는 텍스트와 시퀀스 데이터 간의 교차 모드 상호 작용을 달성하고 이 방법을 대규모 시계열 및 시공간 데이터 처리에 널리 적용하는 것을 목표로 대규모 모델을 재프로그래밍하는 새로운 아이디어를 제안합니다. 이러한 방식으로 우리는 LLM을 유연한 춤추는 코끼리처럼 만들고 더 넓은 범위의 응용 시나리오에서 강력한 기능을 보여줄 수 있기를 바랍니다.
관심 있는 친구들은 논문(https://arxiv.org/abs/2310.01728)을 읽거나 프로젝트 페이지(https://github.com/KimMeen/Time-LLM)를 방문하여 자세히 알아보세요.
이 프로젝트는 앤트그룹 지능형 엔진 사업부 AI 혁신 R&D 부서인 넥스트에보(NextEvo)의 전폭적인 지원을 받았는데, 특히 언어 및 기계 지능팀과 최적화 지능팀 간의 긴밀한 협력 덕분이다. 지능형 엔진 사업부 부사장인 Zhou Jun과 최적화 인텔리전스 팀 책임자인 Lu Xingyu의 리더십과 지도 아래 우리는 이 중요한 성과를 성공적으로 완료하기 위해 협력했습니다.
위 내용은 코끼리는 춤을 출 수 없다고 누가 말했습니까? ICLR 2024의 타이밍 예측을 달성하기 위한 대규모 언어 모델 재프로그래밍 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!