Rumah  >  Artikel  >  Peranti teknologi  >  Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

WBOY
WBOYke hadapan
2024-03-16 22:55:11969semak imbas

Ramalan siri masa memainkan peranan penting dalam pelbagai bidang, seperti peruncitan, kewangan, pembuatan, penjagaan kesihatan dan sains semula jadi, dsb. Dalam industri runcit, kos inventori boleh dikurangkan dengan berkesan dan hasil meningkat dengan menambah baik ketepatan ramalan permintaan. Ini bermakna perniagaan boleh memenuhi permintaan pelanggan dengan lebih baik, mengurangkan inventori yang tidak terjual dan kerugian, sambil meningkatkan jualan dan keuntungan. Oleh itu, ramalan siri masa mempunyai nilai yang besar dalam bidang runcit dan boleh membawa bahan kepada perusahaan

Model pembelajaran mendalam (DL) mendominasi tugas "ramalan siri masa boleh pelbagai" dan digunakan dalam pelbagai pertandingan dan prestasi Cemerlang sebenar dalam aplikasi.

Pada masa yang sama, kemajuan ketara telah dicapai dalam model bahasa asas berskala besar dalam tugasan pemprosesan bahasa semula jadi (NLP), dengan berkesan meningkatkan prestasi tugasan seperti terjemahan, penjanaan peningkatan perolehan dan penyiapan kod.

Latihan model NLP bergantung pada data teks besar-besaran, yang datang daripada pelbagai sumber, termasuk perangkak, kod sumber terbuka, dll. Model terlatih boleh mengecam corak dalam bahasa dan mempunyai keupayaan untuk belajar daripada sampel sifar : sebagai contoh, Model besar digunakan dalam tugas mendapatkan semula di mana model boleh menjawab soalan tentang peristiwa semasa dan meringkaskannya.

Walaupun peramal berasaskan pembelajaran mendalam mengatasi kaedah tradisional dalam banyak aspek, termasuk mengurangkan kos latihan dan inferens, masih terdapat beberapa cabaran yang perlu diatasi:

Banyak model pembelajaran mendalam menjalani latihan dan pengesahan yang panjang. diuji pada siri masa baharu. Sebaliknya, model asas untuk ramalan siri masa mempunyai keupayaan "ramalan luar kotak" dan boleh digunakan pada data siri masa yang tidak diketahui tanpa latihan tambahan. Ciri ini membolehkan pengguna menumpukan pada meningkatkan ramalan untuk tugas hiliran praktikal seperti perancangan permintaan runcit.

Para penyelidik di Google Research baru-baru ini mencadangkan model asas untuk ramalan siri masa yang dipanggil TimesFM, yang telah dilatih terlebih dahulu mengenai 100 bilion titik masa dunia sebenar. Berbanding dengan model bahasa besar (LLM) terkini, saiz TimesFM jauh lebih kecil, hanya mengandungi parameter 200M.

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Pautan kertas: https://arxiv.org/pdf/2310.10688.pdf

Hasil eksperimen menunjukkan bahawa walaupun skala kecil, TimesFM menunjukkan prestasi yang berbeza merentas pelbagai domain dan skala masa yang tidak dilatih. "prestasi tangkapan sifar" yang mengejutkan yang hampir dengan prestasi kaedah terlatih yang terlatih dan diselia dengan canggih pada set data ini.

Para penyelidik merancang untuk menjadikan model TimesFM tersedia kepada pelanggan luar dalam Google Cloud Vertex AI akhir tahun ini.

Model asas TimesFM

LLM biasanya dilatih dengan cara penyahkod sahaja, termasuk tiga langkah:

1 Teks diuraikan menjadi subkata yang dipanggil token2

token lapisan Transformer bertindan dan menghasilkan output yang sepadan dengan setiap token input Perlu diingat bahawa lapisan ini tidak boleh mengendalikan token tanpa input, iaitu token masa hadapan

3 daripada token sebelumnya dan meramalkan token ke-(i+1)

Semasa inferens, LLM menjana output satu token pada satu masa.

Sebagai contoh, apabila memasukkan gesaan "Apakah ibu negara Perancis (Apakah ibu negara Perancis?), model itu mungkin menjana token "The", dan kemudian menjana token "Modal" seterusnya berdasarkan pada gesaan ini. " (captial) dan seterusnya sehingga model menghasilkan jawapan lengkap: "Ibu kota Perancis ialah Paris" (Ibu kota Perancis ialah Paris).

Model asas untuk ramalan siri masa harus disesuaikan dengan konteks pembolehubah (apa yang diperhatikan oleh model) dan julat (perkara yang diramalkan oleh model pertanyaan) sambil cukup berkuasa untuk mengekod semua corak daripada set data pra-terlatih yang besar (corak).

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Serupa dengan LLM, penyelidik menggunakan lapisan Transformer bertindan (lapisan perhatian kendiri dan suapan ke hadapan) sebagai blok binaan utama model TimesFM dalam konteks ramalan siri masa, tampalan (satu set titik masa berterusan) sebagai tanda, idea itu datang daripada kerja ramalan ufuk panjang baru-baru ini: tugas khusus adalah untuk meramalkan titik masa ke (i+1) untuk output ke-i yang diberikan pada penghujung tampung lapisan Transformer bertindan

Tetapi TimesFM mempunyai beberapa perbezaan utama daripada model bahasa:

1 Model memerlukan blok perceptron berbilang lapisan dengan sambungan baki untuk menukar tampalan siri masa menjadi token, yang boleh dibandingkan dengan pengekodan kedudukan (. PE) bersama-sama dengan input ke lapisan Transformer. Untuk melakukan ini, kami menggunakan blok sisa yang serupa dengan kerja kami sebelumnya dalam ramalan jangka panjang.

2. Token output daripada Transformer bertindan boleh digunakan untuk meramalkan panjang titik masa berikutnya yang lebih panjang daripada panjang patch input, iaitu panjang patch output boleh lebih besar daripada panjang patch input.

Anggapkan bahawa siri masa dengan panjang 512 titik masa digunakan untuk melatih model TimesFM dengan "panjang patch input 32" dan "panjang patch output 128":

Semasa latihan, model dilatih di masa yang sama Untuk menggunakan 32 mata masa pertama untuk meramal 128 mata masa seterusnya, gunakan 64 mata masa pertama untuk meramal mata masa 65 hingga 192, gunakan 96 mata masa pertama untuk meramal mata masa 97 hingga 224, dan seterusnya.

Dengan mengandaikan bahawa data input ialah siri masa dengan panjang 256, dan tugasnya adalah untuk meramal 256 titik masa seterusnya pada masa hadapan, model mula-mula menjana ramalan masa hadapan untuk titik masa 257 hingga 384, dan kemudian mengambil titik awal Input panjang 256 ditambah Output yang dijana adalah bersyarat untuk menjana mata masa 385 hingga 512.

Sebaliknya, jika dalam model, panjang patch output adalah sama dengan panjang patch input 32, maka untuk tugas yang sama, model melalui lapan langkah generasi dan bukannya 2, meningkatkan risiko pengumpulan ralat dan oleh itu dalam keputusan eksperimen Seperti yang dapat dilihat dalam , panjang tampalan keluaran yang lebih panjang akan membawa kepada prestasi ramalan jangka panjang yang lebih baik.

Data pra-latihan

Sama seperti LLM boleh menjadi lebih baik dengan lebih banyak token, TimesFM memerlukan sejumlah besar data siri masa yang sah untuk belajar dan menambah baik penyelidik menghabiskan banyak masa mencipta dan menilai set data latihan, mendapati dua yang lebih baik kaedah:

Data sintetik membantu dengan asas

Anda boleh menggunakan model statistik atau simulasi fizikal untuk menjana data siri masa sintetik yang bermakna, pada asasnya Corak temporal boleh membimbing model untuk mempelajari tatabahasa ramalan siri masa .

Data dunia sebenar menambah rasa dunia sebenar

Penyelidik menyisir set data siri masa awam yang tersedia dan secara terpilih menggabungkan 100 bilion Korpus besar titik masa disatukan.

Dalam set data, terdapat paparan halaman daripada Google Trends dan Wikipedia, yang menjejaki perkara yang pengguna minati, dan mencerminkan dengan baik arah aliran dan corak banyak siri masa dunia sebenar yang lain, membantu TimesFM memahami dengan lebih baik. meningkatkan prestasi generalisasi untuk "konteks khusus domain yang tidak dilihat semasa latihan."

Sifar-sampel keputusan penilaian

Para penyelidik menjalankan penilaian sifar sampel TimesFM pada data yang tidak kelihatan semasa latihan menggunakan penanda aras siri masa yang biasa digunakan, dan diperhatikan bahawa TimesFM mengatasi kebanyakan kaedah statistik seperti ARIMA, ETS, dan boleh memadankan atau mengatasi prestasi model DL yang berkuasa seperti DeepAR, PatchTST, yang telah dilatih secara eksplisit pada siri masa sasaran.

Para penyelidik menggunakan Arkib Peramalan Monash untuk menilai prestasi luar biasa TimesFM, set data yang mengandungi puluhan ribu siri masa daripada pelbagai domain seperti trafik, cuaca dan ramalan permintaan, meliputi kekerapan dari minit. kepada data tahunan.

Berdasarkan literatur sedia ada, para penyelidik meneliti min ralat mutlak (MAE) yang diskalakan dengan sewajarnya kepada purata ke atas set data.

Seperti yang dapat dilihat, Zero-shot (ZS) TimesFM mengatasi kaedah yang paling diselia, termasuk model pembelajaran mendalam terkini. TimesFM dan GPT-3.5 juga dibandingkan untuk ramalan menggunakan teknologi pembayang khusus yang dicadangkan oleh llmtime (ZS), dan hasilnya membuktikan bahawa TimesFM berprestasi lebih baik daripada llmtime (ZS)

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Pada dataset Monash, TimesFM (ZS ) Nisbah MAE kepada kaedah seliaan dan sifar pukulan yang lain (lebih rendah adalah lebih baik)

Kebanyakan set data Monash adalah jangka pendek atau sederhana, bermakna panjang ramalan tidak terlalu panjang; para penyelidik juga menguji TimesFM pada tanda aras yang biasa digunakan untuk ramalan jangka panjang ialah PatchTST garis dasar terkini (dan garis dasar ramalan jangka panjang yang lain).

Para penyelidik merancang MAE pada set data ETT untuk tugas meramalkan 96 dan 192 titik masa ke masa hadapan, mengira metrik pada tetingkap ujian terakhir setiap set data. . ) dan sepadan dengan model PatchTST diselia yang dilatih secara eksplisit pada set data yang sepadan.

Kesimpulan

Para penyelidik melatih model penyahkod asas sahaja menggunakan korpus pra-latihan yang besar sebanyak 100 bilion titik masa dunia nyata, yang kebanyakannya adalah data siri masa minat carian daripada Google Trends dan halaman daripada Wikipedia Views.

Hasilnya menunjukkan bahawa walaupun model pra-latihan parameter 200 M yang agak kecil, menggunakan seni bina TimesFM, mempamerkan prestasi tangkapan sifar yang agak baik dalam pelbagai penanda aras awam (domain dan butiran yang berbeza).

Atas ialah kandungan terperinci Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam