Rumah >Peranti teknologi >AI >Ringkasan lapan kaedah pengelasan siri masa
Mengklasifikasikan siri masa ialah salah satu tugas biasa yang menggunakan mesin dan model pembelajaran mendalam. Artikel ini akan merangkumi 8 jenis kaedah pengelasan siri masa. Ini terdiri daripada kaedah berasaskan jarak atau margin mudah kepada kaedah menggunakan rangkaian saraf dalam. Artikel ini bertujuan untuk berfungsi sebagai artikel rujukan untuk semua algoritma pengelasan siri masa.
Sebelum merangkumi pelbagai jenis kaedah pengelasan siri masa (TS), kita satukan dahulu konsep siri masa TS boleh dibahagikan menjadi TS univariate atau multivariate.
Set data TS tunggal atau multivariat biasanya mengandungi set tertib TS tunggal atau multivariat. Tambahan pula, set data biasanya mengandungi vektor label yang diwakili oleh pengekodan tunggal, yang panjangnya mewakili label kelas yang berbeza.
Matlamat pengelasan TS ditakrifkan dengan melatih mana-mana model pengelasan pada set data tertentu supaya model boleh mempelajari taburan kebarangkalian set data yang disediakan. Iaitu, model harus belajar untuk menetapkan label kelas dengan betul apabila diberi TS.
Kaedah pengelasan TS berasaskan jarak atau jiran terdekat menggunakan pelbagai metrik berdasarkan jarak untuk mengklasifikasikan data yang diberikan. Ia ialah teknik pembelajaran yang diselia di mana hasil ramalan TS baharu bergantung pada maklumat label siri masa yang diketahui yang paling hampir sama.
Metrik jarak ialah fungsi yang menerangkan jarak antara dua atau lebih siri masa dan adalah penentu. Ukuran jarak biasa ialah:
Selepas membuat keputusan mengenai metrik, algoritma k-nerest neighbor (KNN) biasanya digunakan, yang mengukur jarak antara TS baharu dan semua TS dalam set data latihan. Selepas mengira semua jarak, pilih k yang paling hampir. Akhirnya TS baru ditugaskan ke kelas yang majoriti k jiran terdekat tergolong.
Walaupun norma yang paling popular pastinya adalah norma p, terutamanya jarak Euclidean, ia mempunyai dua kelemahan utama yang menjadikannya kurang sesuai untuk tugas pengelasan TS. Oleh kerana norma hanya ditakrifkan untuk dua TS yang sama panjang, ia tidak selalu mungkin untuk mendapatkan urutan yang sama panjang dalam amalan. Norma hanya membandingkan dua nilai TS pada setiap titik masa secara bebas, tetapi kebanyakan nilai TS berkorelasi antara satu sama lain.
Dan DTW boleh menyelesaikan dua batasan p norma. DTW klasik meminimumkan jarak antara dua titik siri masa yang cap masanya mungkin berbeza. Ini bermakna TS yang sedikit beralih atau herot masih dianggap serupa. Rajah di bawah menggambarkan perbezaan antara metrik berasaskan p-norma dan cara DTW berfungsi.
Digabungkan dengan KNN, DTW digunakan sebagai algoritma garis dasar untuk pelbagai penilaian penanda aras klasifikasi TS.
KNN juga boleh dilaksanakan menggunakan kaedah pepohon keputusan. Sebagai contoh, algoritma hutan jiran memodelkan hutan pokok keputusan yang menggunakan ukuran jarak untuk membahagikan data TS.
Kaedah berasaskan selang biasanya membahagikan TS kepada beberapa selang yang berbeza. Setiap urutan kemudiannya digunakan untuk melatih pengelas pembelajaran mesin (ML) yang berasingan. Satu set pengelas akan dijana, setiap pengelas bertindak mengikut selang masanya sendiri. Pengiraan kelas yang paling biasa antara subsiri terperingkat berasingan mengembalikan label akhir untuk keseluruhan siri masa.
Wakil model berasaskan selang yang paling terkenal ialah Hutan Siri Masa. TSF ialah himpunan pepohon keputusan yang dibina atas urutan rawak bagi TS awal. Setiap pokok bertanggungjawab untuk menetapkan kelas kepada julat.
Ini dilakukan dengan mengira ciri ringkasan (biasanya min, sisihan piawai dan cerun) untuk mencipta vektor ciri bagi setiap selang. Pepohon keputusan kemudian dilatih berdasarkan ciri yang dikira dan ramalan diperoleh dengan undian majoriti semua pokok. Proses pengundian adalah perlu kerana setiap pokok hanya menilai susulan tertentu dari TS awal.
Selain TSF, terdapat model berasaskan selang lain. Varian TSF menggunakan ciri tambahan seperti median, julat antara kuartil, nilai minimum dan maksimum subsiri. Berbanding dengan algoritma TSF klasik, terdapat algoritma yang agak kompleks yang dipanggil algoritma Random Interval Spectral Ensemble (RISE).
Algoritma RISE berbeza daripada hutan TS klasik dalam dua aspek.
Dalam teknologi RISE, setiap pepohon keputusan dibina pada set ciri Fourier, autokorelasi, autoregresif dan autokorelasi separa. Algoritma berfungsi seperti berikut:
Pilih selang rawak pertama TS dan hitung ciri di atas pada selang ini. Set latihan baharu kemudiannya dicipta dengan menggabungkan ciri yang diekstrak. Berdasarkan ini, pengelas pokok keputusan dilatih. Langkah-langkah ini akhirnya diulang menggunakan konfigurasi berbeza untuk mencipta model ensemble, yang merupakan hutan rawak bagi pengelas pokok keputusan tunggal.
Algoritma berasaskan kamus ialah satu lagi jenis pengelas TS, yang berdasarkan struktur kamus. Ia merangkumi sejumlah besar pengelas yang berbeza dan kadangkala boleh digunakan dalam kombinasi dengan pengelas di atas.
Berikut ialah senarai kaedah berasaskan kamus yang diliputi:
Kaedah jenis ini biasanya mula-mula menukar TS menjadi jujukan simbol dan mengekstrak "PERKATAAN" daripadanya melalui tetingkap gelongsor. Pengkelasan akhir kemudiannya dilakukan dengan menentukan taburan "PERKATAAN", yang biasanya dilakukan dengan mengira dan menyusun "PERKATAAN". Teori di sebalik pendekatan ini ialah siri masa adalah serupa, bermakna ia tergolong dalam kelas yang sama jika ia mengandungi "PERKATAAN" yang serupa. Proses utama pengelas berasaskan kamus biasanya sama.
Berikut ialah senarai pengelas berasaskan kamus yang paling popular:
Algoritma Bag-of-Patterns (BOP) berfungsi sama dengan algoritma Bag-of-Words yang digunakan untuk klasifikasi data teks. Algoritma ini mengira bilangan kali perkataan berlaku.
Teknik yang paling biasa untuk mencipta perkataan daripada nombor (di sini TS mentah) dipanggil Symbolic Aggregation Approximation (SAX). TS mula-mula dibahagikan kepada blok yang berbeza, setiap blok kemudiannya dinormalisasi, bermakna ia mempunyai min 0 dan sisihan piawai 1.
Biasanya panjang perkataan lebih panjang daripada bilangan nilai sebenar dalam urutan. Oleh itu, binning terus digunakan untuk setiap blok. Purata nilai sebenar bagi setiap tong sampah kemudiannya dikira dan dipetakan kepada satu huruf. Sebagai contoh, semua nilai di bawah -1 diberikan huruf "a", semua nilai di atas -1 dan di bawah 1 adalah "b", dan semua nilai di atas 1 adalah "c". Imej di bawah menggambarkan proses ini.
Di sini setiap segmen mengandungi 30 nilai, nilai-nilai ini dibahagikan kepada kumpulan 6, setiap kumpulan diberikan tiga huruf yang mungkin, membentuk perkataan lima huruf. Bilangan kemunculan setiap perkataan akhirnya diringkaskan dan digunakan untuk pengelasan dengan memasukkannya ke dalam algoritma jiran terdekat.
Bertentangan dengan idea algoritma BOP di atas, dalam algoritma BOP, TS asal didiskrisikan menjadi huruf dan kemudian perkataan, dan pekali Fourier yang serupa boleh digunakan kepada kaedah TS.
Algoritma yang paling terkenal ialah Symbolic Fourier Approximation (SFA), yang boleh dibahagikan kepada dua bahagian.
Mengira penjelmaan Fourier diskret TS sambil mengekalkan subset pekali yang dikira.
Setiap lajur matriks yang terhasil didiskrisikan secara bebas, menukarkan urutan TS TS kepada perkataan tunggal.
Berdasarkan prapemprosesan di atas, pelbagai algoritma boleh digunakan untuk memproses maklumat selanjutnya untuk mendapatkan ramalan TS.
Prinsip kerja algoritma Bag-of-SFA-Symbols (BOSS) adalah seperti berikut:
Varian algoritma BOSS termasuk banyak variasi:
Algoritma BOSS Ensemble sering digunakan untuk membina berbilang model BOSS tunggal, setiap model dalam They berbeza dari segi parameter: panjang perkataan, saiz abjad dan saiz tetingkap. Tangkap corak pelbagai panjang dengan konfigurasi ini. Sebilangan besar model diperoleh dengan mencari grid parameter dan mengekalkan hanya pengelas terbaik.
Algoritma BOSS dalam Ruang Vektor (BOSSVS) ialah varian kaedah BOSS individu menggunakan model ruang vektor, yang mengira histogram untuk setiap kelas dan mengira kekerapan Jangka -matriks kekerapan dokumen songsang (TF-IDF). Pengelasan kemudiannya diperoleh dengan mencari kelas yang mempunyai persamaan kosinus tertinggi antara vektor TF-IDF setiap kelas dan histogram TS itu sendiri.
Algoritma BOSS Boleh Kontrak (cBOSS) secara pengiraan jauh lebih pantas daripada kaedah BOSS klasik.
Pecutan dicapai dengan tidak melakukan carian grid pada keseluruhan ruang parameter tetapi pada sampel yang dipilih secara rawak daripadanya. cBOSS menggunakan subsampel data untuk setiap pengelas asas. cBOSS meningkatkan kecekapan memori dengan hanya mempertimbangkan bilangan tetap pengelas asas terbaik dan bukannya semua pengelas di atas ambang prestasi tertentu.
Varian algoritma BOSS seterusnya ialah BOSS Rawak (RBOSS). Kaedah ini menambah proses stokastik dalam pemilihan panjang tetingkap gelongsor dan dengan bijak mengagregatkan ramalan pengelas BOSS individu. Ini serupa dengan varian cBOSS, mengurangkan masa pengiraan sambil masih mengekalkan prestasi garis dasar.
Algoritma Pengekstrakan Pengelas TS (WEASEL) boleh meningkatkan prestasi kaedah BOSS standard dengan menggunakan tingkap gelongsor dengan panjang yang berbeza dalam transformasi SFA. Sama seperti varian BOSS yang lain, ia menggunakan saiz tetingkap pelbagai panjang untuk menukar TS menjadi vektor ciri, yang kemudiannya dinilai oleh pengelas KNN.
WEASEL menggunakan kaedah terbitan ciri khusus yang dilakukan dengan menggunakan hanya urutan tidak bertindih bagi setiap tetingkap gelongsor menggunakan ujian χ2, menapis ciri yang paling berkaitan.
Gabungkan WEASEL dengan Simbol Multivariate Unsupervised (WEASEL+MUSE) untuk mengekstrak dan menapis ciri multivariate daripada TS dengan mengekodkan maklumat kontekstual ke dalam setiap ciri.
Kaedah berasaskan Shapelet menggunakan idea urutan siri masa awal (iaitu shapelet). Shapelet dipilih untuk menggunakannya sebagai wakil kelas, yang bermaksud bahawa shapelet mengandungi ciri-ciri utama kelas yang boleh digunakan untuk membezakan kelas yang berbeza. Dalam kes yang optimum, mereka boleh mengesan persamaan setempat antara TS dalam kelas yang sama.
Rajah berikut menunjukkan contoh shapelet. Ia hanya susulan daripada keseluruhan TS.
Menggunakan algoritma berasaskan shapelet memerlukan masalah untuk menentukan shapelet yang hendak digunakan. Ia adalah mungkin untuk memilih dengan tangan membuat satu set shapelet, tetapi ini boleh menjadi sangat sukar. Shapelet juga boleh dipilih secara automatik menggunakan pelbagai algoritma.
Transformasi Shapelet ialah algoritma berdasarkan pengekstrakan Shapelet yang dicadangkan oleh Lines et al Ia adalah salah satu algoritma yang paling biasa digunakan pada masa ini. Memandangkan TS bagi n pemerhatian bernilai sebenar, shapelet ditakrifkan oleh subset TS panjang l.
Jarak minimum antara shapelet dan keseluruhan TS boleh diukur menggunakan jarak Euclidean - atau mana-mana metrik jarak lain - antara shapelet itu sendiri dan semua shapelet dengan panjang l bermula dari TS.
Kemudian algoritma memilih k shapelet terbaik yang panjangnya berada dalam julat tertentu. Langkah ini boleh dilihat sebagai sejenis pengekstrakan ciri univariat, dengan setiap ciri ditakrifkan oleh jarak antara shapelet dan semua TS dalam set data yang diberikan. Shapelet kemudiannya disusun berdasarkan beberapa statistik. Ini biasanya statistik-f atau χ², yang menyusun shapelet mengikut keupayaan mereka untuk membezakan kelas.
Selepas melengkapkan langkah di atas, sebarang jenis algoritma ML boleh digunakan untuk mengklasifikasikan set data baharu. Contohnya, pengelas berasaskan knn, mesin vektor sokongan atau hutan rawak, dsb.
Satu lagi masalah dengan mencari shapelet yang ideal ialah kerumitan masa yang dahsyat, yang meningkat secara eksponen dengan bilangan sampel latihan.
Algoritma berdasarkan pembelajaran Shapelet cuba menyelesaikan batasan algoritma berdasarkan pengekstrakan Shapelet. Ideanya ialah untuk mempelajari satu set shapelet yang mampu membezakan kelas, dan bukannya mengekstraknya terus daripada set data yang diberikan.
Melakukan ini mempunyai dua kelebihan utama:
Tetapi pendekatan ini juga mempunyai beberapa kelemahan dengan menggunakan fungsi pengecilan boleh dibezakan dan kelemahan pengelas yang dipilih.
Untuk menggantikan jarak Euclidean, kita perlu bergantung pada fungsi boleh dibezakan, jadi shapelet boleh dipelajari melalui algoritma turunan kecerunan atau rambatan belakang. Yang paling biasa bergantung pada fungsi LogSumExp, yang menghampiri nilai maksimum dengan lancar dengan mengambil logaritma jumlah eksponen hujahnya. Oleh kerana fungsi LogSumExp tidak cembung ketat, algoritma pengoptimuman mungkin tidak menumpu dengan betul, yang bermaksud ia boleh membawa kepada minima setempat yang buruk.
Dan memandangkan proses pengoptimuman itu sendiri adalah komponen utama algoritma, berbilang hiperparameter perlu ditambah untuk penalaan.
Tetapi kaedah ini sangat berguna dalam amalan dan boleh menjana beberapa cerapan baharu ke dalam data.
Sedikit variasi algoritma berasaskan shapelet ialah algoritma berasaskan kernel. Ketahui dan gunakan kernel lilitan rawak (algoritma penglihatan komputer yang paling biasa), yang mengekstrak ciri daripada TS tertentu.
Algoritma Random Convolution Kernel Transform (ROKET) direka khas untuk tujuan ini. . Ia menggunakan sejumlah besar isirong yang berbeza-beza dalam panjang, berat, berat sebelah, pelebaran dan pelapik, dan dicipta secara rawak daripada pengedaran tetap.
Selepas memilih kernel, anda juga memerlukan pengelas yang boleh memilih ciri yang paling relevan untuk membezakan kelas. Regresi rabung (varian teratur L2 regresi linear) telah digunakan dalam kertas asal untuk melakukan ramalan. Terdapat dua faedah untuk menggunakannya, pertama kecekapan pengiraannya, walaupun untuk masalah pengelasan berbilang kelas, dan kedua kesederhanaan memperhalusi hiperparameter regularisasi unik menggunakan pengesahan silang.
Salah satu kelebihan teras menggunakan algoritma berasaskan kernel atau algoritma ROKET ialah kos pengiraan untuk menggunakannya agak rendah.
Kaedah berasaskan ciri secara amnya boleh merangkumi kebanyakan algoritma yang menggunakan beberapa jenis pengekstrakan ciri untuk siri masa tertentu, dan ramalan kemudiannya dilakukan oleh algoritma pengelasan.
Mengenai ciri, daripada ciri statistik mudah kepada ciri berasaskan Fourier yang lebih kompleks. Sebilangan besar ciri sedemikian boleh didapati dalam hctsa (https://github.com/benfulcher/hctsa), tetapi mencuba dan membandingkan setiap ciri boleh menjadi tugas yang mustahil, terutamanya untuk set data yang lebih besar. Oleh itu, algoritma ciri siri masa biasa (catch22) telah dicadangkan.
Kaedah ini bertujuan untuk membuat kesimpulan set ciri TS yang kecil, yang bukan sahaja memerlukan prestasi pengelasan yang kuat tetapi juga meminimumkan lebihan. catch22 memilih sejumlah 22 ciri daripada perpustakaan hctsa (perpustakaan menyediakan lebih daripada 4000 ciri).
Pembangun kaedah ini memperoleh 22 ciri dengan melatih model berbeza pada 93 set data berbeza dan menilai ciri TS berprestasi terbaik pada mereka, dan mendapat anak yang masih mengekalkan set prestasi cemerlang. Pengelas padanya boleh dipilih secara bebas, yang menjadikannya hiperparameter lain untuk ditala.
Kaedah berasaskan ciri lain ialah pengelas Profil Matriks (MP), iaitu pengelas TS berasaskan MP yang boleh ditafsir yang boleh mengekalkan prestasi garis dasar sambil memberikan hasil yang boleh ditafsir.
Para pereka bentuk mengekstrak model bernama Profil Matriks daripada pengelas berasaskan shapelet. Model ini mewakili semua jarak antara jujukan TS dan jiran terdekatnya. Dengan cara ini, MP boleh mengekstrak ciri TS dengan berkesan, seperti motif dan perselisihan Motif ialah susulan TS yang sangat serupa antara satu sama lain, manakala perselisihan menerangkan urutan yang berbeza antara satu sama lain.
Sebagai model pengelasan teori, sebarang model boleh digunakan. Pembangun kaedah ini memilih pengelas pokok keputusan.
Selain daripada dua kaedah yang dinyatakan, sktime juga menyediakan beberapa lagi pengelas TS berasaskan ciri.
Ensemble Model itu sendiri bukanlah algoritma yang berdiri sendiri, tetapi teknik yang menggabungkan pelbagai pengelas TS untuk mencipta ramalan gabungan yang lebih baik. Ensembel model mengurangkan varians dengan menggabungkan berbilang model individu, serupa dengan hutan rawak menggunakan sejumlah besar pokok keputusan. Dan menggunakan pelbagai jenis algoritma pembelajaran yang berbeza membawa kepada set ciri yang dipelajari yang lebih luas dan pelbagai, yang seterusnya membawa kepada diskriminasi kelas yang lebih baik.
Ensembel model yang paling popular ialah Hierarki Vote Collective of Transformation-based Ensemble (HIVE-COTE). Ia wujud dalam pelbagai jenis versi serupa, tetapi apa yang mereka semua mempunyai persamaan ialah gabungan maklumat daripada pengelas yang berbeza, iaitu ramalan, dengan menggunakan purata wajaran untuk setiap pengelas.
Sktime menggunakan dua algoritma HIVE-COTE yang berbeza, yang pertama menggabungkan kebarangkalian setiap penganggar, termasuk pengelas transformasi shapelet (STC), hutan TS, RISE dan cBOSS . Yang kedua ditakrifkan oleh gabungan STC, Diverse Canonical Interval Forest Classifier (DrCIF, varian TS Forest), Arsenal (kumpulan model ROCKET) dan TDE (varian algoritma BOSS).
Ramalan akhir diperolehi oleh algoritma CAWPE, yang memberikan pemberat kepada setiap pengelas yang diperolehi oleh kualiti anggaran relatif pengelas yang terdapat pada set data latihan.
Rajah berikut ialah rajah yang biasa digunakan untuk menggambarkan struktur kerja algoritma HIVE-COTE:
Mengenai Algoritma berdasarkan pembelajaran mendalam boleh menulis artikel panjang mereka sendiri untuk menerangkan semua butiran tentang setiap seni bina. Walau bagaimanapun, artikel ini hanya menyediakan beberapa model dan teknik penanda aras klasifikasi TS yang biasa digunakan.
Walaupun algoritma berasaskan pembelajaran mendalam sangat popular dan dikaji secara meluas dalam bidang seperti penglihatan komputer dan NLP, ia kurang biasa dalam bidang pengelasan TS. Fawaz et al. Kajian menyeluruh tentang kaedah sedia ada semasa dalam kertas kerja mereka tentang pembelajaran mendalam untuk pengelasan TS: Ringkasan Lebih daripada 60 model rangkaian saraf (NN) dengan enam seni bina telah dikaji:
Kebanyakan model di atas pada asalnya dibangunkan untuk kes penggunaan yang berbeza. Jadi ia perlu diuji mengikut kes penggunaan yang berbeza.
Juga dilancarkan pada tahun 2020 rangkaian InceptionTime. InceptionTime ialah himpunan lima model pembelajaran mendalam, setiap satunya dicipta oleh InceptionTime yang pertama kali dicadangkan oleh Szegedy et al. Modul awal ini menggunakan berbilang penapis dengan panjang yang berbeza pada TS secara serentak, sambil mengekstrak ciri dan maklumat yang berkaitan daripada jujukan TS yang lebih pendek dan lebih panjang. Rajah berikut menunjukkan modul InceptionTime.
Ia terdiri daripada berbilang modul awal yang disusun dalam cara suapan ke hadapan dan disambungkan dengan sisa. Akhir sekali, pengumpulan purata global dan rangkaian neural yang disambungkan sepenuhnya menjana hasil ramalan.
Gambar di bawah menunjukkan kerja modul permulaan tunggal.
Senarai besar algoritma, model dan teknik yang diringkaskan dalam artikel ini bukan sahaja akan membantu memahami bidang kaedah klasifikasi siri masa yang luas, tetapi Saya harap ia akan berguna kepada anda
Atas ialah kandungan terperinci Ringkasan lapan kaedah pengelasan siri masa. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!