Rumah >Peranti teknologi >AI >Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak sama

Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak sama

WBOY
WBOYke hadapan
2023-10-05 16:53:061222semak imbas

Dalam masalah siri masa, terdapat jenis siri masa yang tidak diambil sampel pada frekuensi yang sama, iaitu selang masa antara dua cerapan bersebelahan dalam setiap kumpulan adalah berbeza. Pembelajaran perwakilan siri masa telah banyak dikaji dalam siri masa pensampelan frekuensi sama, tetapi terdapat kurang penyelidikan dalam siri masa pensampelan tidak teratur ini, dan kaedah pemodelan siri masa jenis ini berbeza daripada pensampelan frekuensi sama di sana ialah perbezaan besar dalam kaedah pemodelan

Artikel yang diperkenalkan hari ini meneroka kaedah aplikasi pembelajaran perwakilan dalam masalah siri masa pensampelan tidak teratur, menggunakan pengalaman yang relevan dalam NLP dan mencapai hasil perbandingan dalam tugasan hiliran.

Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak samaPictures

  • paper Tajuk: Paits: Pretraining and Augmentation for Series TimeDownload Time tidak teratur: https://arxiv.org/pdf/2308.13703v1.pdf
  • 1 definisi data

Berikut ialah perwakilan data siri masa yang tidak teratur, seperti yang ditunjukkan dalam rajah di bawah. Setiap siri masa terdiri daripada satu set triple Setiap triple mengandungi tiga medan: masa, nilai dan ciri, yang masing-masing mewakili masa pensampelan, nilai dan ciri lain bagi setiap elemen dalam siri masa. Selain tiga kali ganda ini, setiap jujukan juga termasuk ciri statik lain yang tidak berubah dari semasa ke semasa, serta label untuk setiap siri masa

gambarGoogle: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak samaSecara amnya kaedah pemodelan siri masa yang tidak teratur ini, struktur biasa Data tiga kali ganda di atas dibenamkan secara berasingan, disambungkan bersama, dan dimasukkan ke dalam model seperti transformer Dengan cara ini, maklumat pada setiap saat dan perwakilan masa pada setiap saat disepadukan dan dimasukkan ke dalam model untuk meramalkan tugasan berikutnya.

GambarGoogle: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak samaDalam tugasan artikel ini, data yang digunakan termasuk bukan sahaja data berlabel, tetapi juga data tidak berlabel untuk pra-latihan tanpa pengawasan.

2. Gambaran Keseluruhan Kaedah

Kaedah pra-latihan dalam artikel ini merujuk kepada pengalaman dalam bidang pemprosesan bahasa semula jadi dan terutamanya merangkumi dua aspek

Reka bentuk tugasan pra-latihan: Untuk mengendalikan siri masa yang tidak teratur, sesuai pra-latihan perlu direka Tugas membolehkan model mempelajari perwakilan yang berkesan daripada data yang tidak diselia. Artikel ini terutamanya memperkenalkan dua tugasan pra-latihan berdasarkan ramalan dan berasaskan pembinaan semula

Reka bentuk kaedah peningkatan data: Dalam kajian ini, kaedah peningkatan data untuk pembelajaran tanpa pengawasan telah direka, termasuk menambah bunyi, menambah topeng rawak, dll.

Di samping itu, artikel itu juga memperkenalkan algoritma untuk set data teragih yang berbeza untuk meneroka kaedah pembelajaran tanpa pengawasan yang optimum

3 Reka bentuk tugasan pra-latihan

Artikel ini mencadangkan dua tugasan pra-latihan pada siri masa yang tidak teratur, masing-masing, ialah Peramalan pralatihan. dan Pralatihan Pembinaan Semula.

Dalam pralatihan Ramalan, untuk setiap ciri dalam siri masa, nilainya diramalkan berdasarkan urutan prapesanan tetingkap masa dengan saiz tertentu. Ciri di sini merujuk kepada ciri dalam triplet. Memandangkan setiap ciri mungkin muncul beberapa kali dalam tetingkap masa, atau mungkin tidak muncul sama sekali, nilai kejadian pertama ciri ini digunakan sebagai label untuk pra-latihan. Data input termasuk siri asal dan siri masa yang dipertingkatkan.

Dalam pra-latihan pembinaan semula, pertama, untuk siri masa asal, urutan dipertingkatkan dijana melalui beberapa kaedah peningkatan data, dan kemudian urutan dipertingkat digunakan sebagai input, dan vektor perwakilan dijana oleh pengekod, dan kemudian input kepada penyahkod Pulihkan siri masa asal dalam pemproses. Artikel menggunakan topeng untuk membimbing bahagian urutan yang perlu dipulihkan Jika topeng adalah semua 1, keseluruhan urutan dipulihkan Selepas mendapatkan parameter pra-latihan, ia boleh digunakan secara langsung pada tugas finetune hiliran keseluruhan proses pralatihan-finetune Seperti yang ditunjukkan di bawah.

Gambar

Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak sama 4. Reka bentuk kaedah peningkatan dataDalam artikel ini, kami mencadangkan dua kaedah peningkatan data. Kaedah pertama ialah menambah hingar, dengan memperkenalkan beberapa gangguan rawak dalam data untuk meningkatkan kepelbagaian data. Kaedah kedua ialah pelekat rawak, yang menggalakkan model untuk mempelajari ciri yang lebih mantap dengan memilih secara rawak beberapa bahagian data untuk ditutup. Kaedah peningkatan data ini boleh membantu kami meningkatkan prestasi dan keupayaan generalisasi model

Untuk setiap nilai atau titik masa jujukan asal, hingar boleh ditambah dengan menambahkan hingar Gaussian. Kaedah pengiraan khusus adalah seperti berikut:

Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak samaGambar

Kaedah topeng rawak menggunakan idea daripada NLP, dan membina siri masa yang dipertingkatkan dengan memilih masa, ciri, nilai dan elemen lain secara rawak untuk topeng dan penggantian rawak.

Rajah berikut menunjukkan kesan dua jenis kaedah peningkatan data di atas:

Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak samaGambar

Selain itu, artikel tersebut menggunakan gabungan peningkatan data, kaedah pra-latihan, dsb., untuk siri masa yang berbeza data, daripada gabungan ini Cari kaedah pra-latihan yang optimum.

5. Keputusan eksperimen

Dalam artikel ini, percubaan telah dijalankan pada berbilang set data untuk membandingkan kesan kaedah pra-latihan yang berbeza pada set data ini. Dapat diperhatikan bahawa kaedah pra-latihan yang dicadangkan dalam artikel telah mencapai peningkatan yang ketara pada kebanyakan set data

Atas ialah kandungan terperinci Google: Kaedah baharu untuk mempelajari perwakilan siri masa dengan pensampelan frekuensi tidak sama. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam