Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM-AI-php.cn

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 16, 2024 pm 10:55 PM

Modelkereta api

Ramalan siri masa memainkan peranan penting dalam pelbagai bidang, seperti peruncitan, kewangan, pembuatan, penjagaan kesihatan dan sains semula jadi, dsb. Dalam industri runcit, kos inventori boleh dikurangkan dengan berkesan dan hasil meningkat dengan menambah baik ketepatan ramalan permintaan. Ini bermakna perniagaan boleh memenuhi permintaan pelanggan dengan lebih baik, mengurangkan inventori yang tidak terjual dan kerugian, sambil meningkatkan jualan dan keuntungan. Oleh itu, ramalan siri masa mempunyai nilai yang besar dalam bidang runcit dan boleh membawa bahan kepada perusahaan

Model pembelajaran mendalam (DL) mendominasi tugas "ramalan siri masa boleh pelbagai" dan digunakan dalam pelbagai pertandingan dan prestasi Cemerlang sebenar dalam aplikasi.

Pada masa yang sama, kemajuan ketara telah dicapai dalam model bahasa asas berskala besar dalam tugasan pemprosesan bahasa semula jadi (NLP), dengan berkesan meningkatkan prestasi tugasan seperti terjemahan, penjanaan peningkatan perolehan dan penyiapan kod.

Latihan model NLP bergantung pada data teks besar-besaran, yang datang daripada pelbagai sumber, termasuk perangkak, kod sumber terbuka, dll. Model terlatih boleh mengecam corak dalam bahasa dan mempunyai keupayaan untuk belajar daripada sampel sifar : sebagai contoh, Model besar digunakan dalam tugas mendapatkan semula di mana model boleh menjawab soalan tentang peristiwa semasa dan meringkaskannya.

Walaupun peramal berasaskan pembelajaran mendalam mengatasi kaedah tradisional dalam banyak aspek, termasuk mengurangkan kos latihan dan inferens, masih terdapat beberapa cabaran yang perlu diatasi:

Banyak model pembelajaran mendalam menjalani latihan dan pengesahan yang panjang. diuji pada siri masa baharu. Sebaliknya, model asas untuk ramalan siri masa mempunyai keupayaan "ramalan luar kotak" dan boleh digunakan pada data siri masa yang tidak diketahui tanpa latihan tambahan. Ciri ini membolehkan pengguna menumpukan pada meningkatkan ramalan untuk tugas hiliran praktikal seperti perancangan permintaan runcit.

Para penyelidik di Google Research baru-baru ini mencadangkan model asas untuk ramalan siri masa yang dipanggil TimesFM, yang telah dilatih terlebih dahulu mengenai 100 bilion titik masa dunia sebenar. Berbanding dengan model bahasa besar (LLM) terkini, saiz TimesFM jauh lebih kecil, hanya mengandungi parameter 200M.

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Pautan kertas: https://arxiv.org/pdf/2310.10688.pdf

Hasil eksperimen menunjukkan bahawa walaupun skala kecil, TimesFM menunjukkan prestasi yang berbeza merentas pelbagai domain dan skala masa yang tidak dilatih. "prestasi tangkapan sifar" yang mengejutkan yang hampir dengan prestasi kaedah terlatih yang terlatih dan diselia dengan canggih pada set data ini.

Para penyelidik merancang untuk menjadikan model TimesFM tersedia kepada pelanggan luar dalam Google Cloud Vertex AI akhir tahun ini.

Model asas TimesFM

LLM biasanya dilatih dengan cara penyahkod sahaja, termasuk tiga langkah:

1 Teks diuraikan menjadi subkata yang dipanggil token2

token lapisan Transformer bertindan dan menghasilkan output yang sepadan dengan setiap token input Perlu diingat bahawa lapisan ini tidak boleh mengendalikan token tanpa input, iaitu token masa hadapan

3 daripada token sebelumnya dan meramalkan token ke-(i+1)

Semasa inferens, LLM menjana output satu token pada satu masa.

Sebagai contoh, apabila memasukkan gesaan "Apakah ibu negara Perancis (Apakah ibu negara Perancis?), model itu mungkin menjana token "The", dan kemudian menjana token "Modal" seterusnya berdasarkan pada gesaan ini. " (captial) dan seterusnya sehingga model menghasilkan jawapan lengkap: "Ibu kota Perancis ialah Paris" (Ibu kota Perancis ialah Paris).

Model asas untuk ramalan siri masa harus disesuaikan dengan konteks pembolehubah (apa yang diperhatikan oleh model) dan julat (perkara yang diramalkan oleh model pertanyaan) sambil cukup berkuasa untuk mengekod semua corak daripada set data pra-terlatih yang besar (corak).

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Serupa dengan LLM, penyelidik menggunakan lapisan Transformer bertindan (lapisan perhatian kendiri dan suapan ke hadapan) sebagai blok binaan utama model TimesFM dalam konteks ramalan siri masa, tampalan (satu set titik masa berterusan) sebagai tanda, idea itu datang daripada kerja ramalan ufuk panjang baru-baru ini: tugas khusus adalah untuk meramalkan titik masa ke (i+1) untuk output ke-i yang diberikan pada penghujung tampung lapisan Transformer bertindan

Tetapi TimesFM mempunyai beberapa perbezaan utama daripada model bahasa:

1 Model memerlukan blok perceptron berbilang lapisan dengan sambungan baki untuk menukar tampalan siri masa menjadi token, yang boleh dibandingkan dengan pengekodan kedudukan (. PE) bersama-sama dengan input ke lapisan Transformer. Untuk melakukan ini, kami menggunakan blok sisa yang serupa dengan kerja kami sebelumnya dalam ramalan jangka panjang.

2. Token output daripada Transformer bertindan boleh digunakan untuk meramalkan panjang titik masa berikutnya yang lebih panjang daripada panjang patch input, iaitu panjang patch output boleh lebih besar daripada panjang patch input.

Anggapkan bahawa siri masa dengan panjang 512 titik masa digunakan untuk melatih model TimesFM dengan "panjang patch input 32" dan "panjang patch output 128":

Semasa latihan, model dilatih di masa yang sama Untuk menggunakan 32 mata masa pertama untuk meramal 128 mata masa seterusnya, gunakan 64 mata masa pertama untuk meramal mata masa 65 hingga 192, gunakan 96 mata masa pertama untuk meramal mata masa 97 hingga 224, dan seterusnya.

Dengan mengandaikan bahawa data input ialah siri masa dengan panjang 256, dan tugasnya adalah untuk meramal 256 titik masa seterusnya pada masa hadapan, model mula-mula menjana ramalan masa hadapan untuk titik masa 257 hingga 384, dan kemudian mengambil titik awal Input panjang 256 ditambah Output yang dijana adalah bersyarat untuk menjana mata masa 385 hingga 512.

Sebaliknya, jika dalam model, panjang patch output adalah sama dengan panjang patch input 32, maka untuk tugas yang sama, model melalui lapan langkah generasi dan bukannya 2, meningkatkan risiko pengumpulan ralat dan oleh itu dalam keputusan eksperimen Seperti yang dapat dilihat dalam , panjang tampalan keluaran yang lebih panjang akan membawa kepada prestasi ramalan jangka panjang yang lebih baik.

Data pra-latihan

Sama seperti LLM boleh menjadi lebih baik dengan lebih banyak token, TimesFM memerlukan sejumlah besar data siri masa yang sah untuk belajar dan menambah baik penyelidik menghabiskan banyak masa mencipta dan menilai set data latihan, mendapati dua yang lebih baik kaedah:

Data sintetik membantu dengan asas

Anda boleh menggunakan model statistik atau simulasi fizikal untuk menjana data siri masa sintetik yang bermakna, pada asasnya Corak temporal boleh membimbing model untuk mempelajari tatabahasa ramalan siri masa .

Data dunia sebenar menambah rasa dunia sebenar

Penyelidik menyisir set data siri masa awam yang tersedia dan secara terpilih menggabungkan 100 bilion Korpus besar titik masa disatukan.

Dalam set data, terdapat paparan halaman daripada Google Trends dan Wikipedia, yang menjejaki perkara yang pengguna minati, dan mencerminkan dengan baik arah aliran dan corak banyak siri masa dunia sebenar yang lain, membantu TimesFM memahami dengan lebih baik. meningkatkan prestasi generalisasi untuk "konteks khusus domain yang tidak dilihat semasa latihan."

Sifar-sampel keputusan penilaian

Para penyelidik menjalankan penilaian sifar sampel TimesFM pada data yang tidak kelihatan semasa latihan menggunakan penanda aras siri masa yang biasa digunakan, dan diperhatikan bahawa TimesFM mengatasi kebanyakan kaedah statistik seperti ARIMA, ETS, dan boleh memadankan atau mengatasi prestasi model DL yang berkuasa seperti DeepAR, PatchTST, yang telah dilatih secara eksplisit pada siri masa sasaran.

Para penyelidik menggunakan Arkib Peramalan Monash untuk menilai prestasi luar biasa TimesFM, set data yang mengandungi puluhan ribu siri masa daripada pelbagai domain seperti trafik, cuaca dan ramalan permintaan, meliputi kekerapan dari minit. kepada data tahunan.

Berdasarkan literatur sedia ada, para penyelidik meneliti min ralat mutlak (MAE) yang diskalakan dengan sewajarnya kepada purata ke atas set data.

Seperti yang dapat dilihat, Zero-shot (ZS) TimesFM mengatasi kaedah yang paling diselia, termasuk model pembelajaran mendalam terkini. TimesFM dan GPT-3.5 juga dibandingkan untuk ramalan menggunakan teknologi pembayang khusus yang dicadangkan oleh llmtime (ZS), dan hasilnya membuktikan bahawa TimesFM berprestasi lebih baik daripada llmtime (ZS)

Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM

Pada dataset Monash, TimesFM (ZS ) Nisbah MAE kepada kaedah seliaan dan sifar pukulan yang lain (lebih rendah adalah lebih baik)

Kebanyakan set data Monash adalah jangka pendek atau sederhana, bermakna panjang ramalan tidak terlalu panjang; para penyelidik juga menguji TimesFM pada tanda aras yang biasa digunakan untuk ramalan jangka panjang ialah PatchTST garis dasar terkini (dan garis dasar ramalan jangka panjang yang lain).

Para penyelidik merancang MAE pada set data ETT untuk tugas meramalkan 96 dan 192 titik masa ke masa hadapan, mengira metrik pada tetingkap ujian terakhir setiap set data. . ) dan sepadan dengan model PatchTST diselia yang dilatih secara eksplisit pada set data yang sepadan.

Kesimpulan

Para penyelidik melatih model penyahkod asas sahaja menggunakan korpus pra-latihan yang besar sebanyak 100 bilion titik masa dunia nyata, yang kebanyakannya adalah data siri masa minat carian daripada Google Trends dan halaman daripada Wikipedia Views.

Hasilnya menunjukkan bahawa walaupun model pra-latihan parameter 200 M yang agak kecil, menggunakan seni bina TimesFM, mempamerkan prestasi tangkapan sifar yang agak baik dalam pelbagai penanda aras awam (domain dan butiran yang berbeza).

Atas ialah kandungan terperinci Dengan hanya 200M parameter, prestasi sifar sampel melebihi seliaan! Google mengeluarkan model ramalan siri masa asas TimesFM. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:51CTO.COM. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

Carta 10 kuasa bi yang paling banyak digunakan - Analytics VidhyaApr 16, 2025 pm 12:05 PM

Memanfaatkan kekuatan visualisasi data dengan carta Microsoft Power BI Dalam dunia yang didorong oleh data hari ini, dengan berkesan menyampaikan maklumat yang rumit kepada penonton bukan teknikal adalah penting. Visualisasi data jambatan jurang ini, mengubah data mentah i

Sistem Pakar di AIApr 16, 2025 pm 12:00 PM

Sistem Pakar: menyelam yang mendalam ke dalam kuasa membuat keputusan AI Bayangkan mempunyai akses kepada nasihat pakar mengenai apa -apa, dari diagnosis perubatan kepada perancangan kewangan. Itulah kuasa sistem pakar dalam kecerdasan buatan. Sistem ini meniru pro

Tiga coder getaran terbaik memecahkan revolusi AI ini dalam kodApr 16, 2025 am 11:58 AM

Pertama sekali, jelas bahawa ini berlaku dengan cepat. Pelbagai syarikat bercakap mengenai perkadaran kod mereka yang kini ditulis oleh AI, dan ini semakin meningkat pada klip pesat. Terdapat banyak anjakan pekerjaan

Runway AI's Gen-4: Bagaimanakah montaj AI boleh melampaui kebodohanApr 16, 2025 am 11:45 AM

Industri filem, bersama semua sektor kreatif, dari pemasaran digital ke media sosial, berdiri di persimpangan teknologi. Sebagai kecerdasan buatan mula membentuk semula setiap aspek bercerita visual dan mengubah landskap hiburan

Bagaimana untuk mendaftar selama 5 hari kursus percuma ISRO AI? - Analytics VidhyaApr 16, 2025 am 11:43 AM

Kursus Online AI/ML percuma ISRO: Gerbang ke Inovasi Teknologi Geospatial Pertubuhan Penyelidikan Angkasa India (ISRO), melalui Institut Pengesan Jauh India (IIRS), menawarkan peluang yang hebat untuk pelajar dan profesional

Algoritma Carian Tempatan di AIApr 16, 2025 am 11:40 AM

Algoritma Carian Tempatan: Panduan Komprehensif Merancang acara berskala besar memerlukan pengagihan beban kerja yang cekap. Apabila pendekatan tradisional gagal, algoritma carian tempatan menawarkan penyelesaian yang kuat. Artikel ini meneroka pendakian bukit dan simul

Terbuka beralih fokus dengan GPT-4.1, mengutamakan pengekodan dan kecekapan kosApr 16, 2025 am 11:37 AM

Pelepasan ini termasuk tiga model yang berbeza, GPT-4.1, GPT-4.1 Mini dan GPT-4.1 Nano, menandakan langkah ke arah pengoptimuman khusus tugas dalam landskap model bahasa yang besar. Model-model ini tidak segera menggantikan antara muka yang dihadapi pengguna seperti

Prompt: CHATGPT menjana pasport palsuApr 16, 2025 am 11:35 AM

Gergasi Chip Nvidia berkata pada hari Isnin ia akan memulakan pembuatan superkomputer AI - mesin yang boleh memproses sejumlah besar data dan menjalankan algoritma kompleks - sepenuhnya dalam A.S. untuk kali pertama. Pengumuman itu datang selepas Presiden Trump Si

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang laluByDDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

ZendStudio 13.5.1 Mac

Persekitaran pembangunan bersepadu PHP yang berkuasa

PhpStorm versi Mac

Alat pembangunan bersepadu PHP profesional terkini (2018.2.1).

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

VSCode Windows 64-bit Muat Turun

Editor IDE percuma dan berkuasa yang dilancarkan oleh Microsoft

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7529

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi