Rumah >Peranti teknologi >AI >Adakah Mamba setanding dengan Transformer berkesan pada siri masa?
Mamba adalah salah satu model paling popular baru-baru ini, dan dianggap oleh industri berpotensi untuk menggantikan Transformer. Artikel yang diperkenalkan hari ini meneroka sama ada model Mamba berkesan dalam tugas ramalan siri masa. Artikel ini mula-mula memperkenalkan prinsip asas Mamba, dan kemudian menggabungkan artikel ini untuk meneroka sama ada Mamba berkesan dalam senario ramalan siri masa. Model Mamba ialah model berasaskan pembelajaran mendalam yang menggunakan seni bina autoregresif untuk menangkap kebergantungan jangka panjang dalam data siri masa. Berbanding dengan model tradisional, model Mamba berprestasi baik pada tugas ramalan siri masa. Melalui eksperimen dan analisis perbandingan, kertas kerja ini mendapati bahawa model Mamba mempunyai keputusan yang baik dalam tugas ramalan siri masa. Ia boleh meramalkan nilai siri masa masa hadapan dengan tepat dan berprestasi lebih baik dalam menangkap kebergantungan jangka panjang. Ringkasan
Mamba ialah seorang jenis Berdasarkan struktur Model Angkasa Negeri, tetapi sangat serupa dengan RNN. Berbanding dengan Transformer, Mamba mempunyai kerumitan masa yang meningkat secara linear dengan panjang jujukan dalam kedua-dua fasa latihan dan fasa inferens, dan kecekapan pengkomputeran bergantung pada struktur Transformer.Teras Mamba boleh dibahagikan kepada 4 bahagian berikut:
Model Angkasa Negeri (SSM) ialah model matematik yang digunakan untuk menerangkan kesan sesuatu keadaan terhadap keadaan semasa dan kesan keadaan semasa terhadap output. Dalam Model Ruang Negeri, diandaikan bahawa input keadaan sebelumnya dan saat semasa akan mempengaruhi keadaan seterusnya, dan kesan keadaan semasa pada output. SSM boleh dinyatakan dalam bentuk berikut, di mana matriks A, B, C, dan D adalah hiperparameter. Matriks A mewakili kesan keadaan sebelumnya pada keadaan semasa; Matriks B menunjukkan bahawa input pada saat semasa akan mempengaruhi keadaan seterusnya; Matriks C mewakili kesan keadaan semasa pada output; Matriks D mewakili kesan langsung input ke atas output. Dengan memerhatikan output semasa dan input pada saat semasa, nilai keadaan seterusnya boleh disimpulkan. Ia ditentukan berdasarkan hasil pemerhatian semasa dan keadaan ketika itu. SSM boleh digunakan dalam bidang seperti pemodelan sistem dinamik, anggaran keadaan dan aplikasi kawalan.
Ungkapan lilitan: Gunakan lilitan untuk mewakili SSM untuk merealisasikan pengiraan serentak dalam fasa latihan Dengan mengembangkan formula keluaran pengiraan dalam SSM mengikut masa, dengan mereka bentuk kernel lilitan yang sepadan kepada bentuk tertentu , anda boleh. gunakan konvolusi untuk menyatakan output setiap momen sebagai fungsi output tiga momen sebelumnya: GambarMatriks Hippo: Untuk parameter A, Hippo Matrix diperkenalkan untuk merealisasikan peleburan maklumat sejarah ;
PictureModul terpilih: Untuk matriks diperibadikan parameter B dan parameter C, nyatakan pemilihan maklumat sejarah yang diperibadikan, tukar matriks parameter pada setiap saat kepada fungsi mengenai input dan realisasikan parameter yang diperibadikan pada setiap saat. . 2. Model siri masa Mamba
Berikut memperkenalkan rangka kerja ramalan siri masa Mamba yang dicadangkan dalam artikel ini, yang berdasarkan Mamba untuk menyesuaikan data siri masa. Keseluruhannya dibahagikan kepada tiga bahagian: Pembenaman, lapisan S/D-Mamba dan Lapisan Norm-FFN-Norm. Pembenaman: Sama seperti kaedah pemprosesan iTransformer, setiap pembolehubah dipetakan secara berasingan, pembenaman setiap pembolehubah dijana, dan kemudian pembenaman setiap pembolehubah dimasukkan ke dalam Mamba berikutnya. Oleh itu, artikel ini juga boleh dilihat sebagai pengubahsuaian struktur model iTransformer, menukarnya kepada struktur MambaS/D-Mamba lapisan: Dimensi input bagi Embedding ialah [saiz_kelompok, nombor_bolehubah, malap], iaitu; input ke dalam Mamba , artikel itu meneroka dua lapisan Mamba, S dan D, yang masing-masing menunjukkan sama ada setiap lapisan menggunakan satu mamba atau dua mambas akan menambah output dua untuk mendapatkan hasil keluaran setiap lapisan -FFN-Norm Layer : Dalam lapisan output, gunakan lapisan normalisasi dan lapisan FFN untuk menormalkan dan memetakan perwakilan output Mamba, dan menggabungkannya dengan rangkaian baki untuk meningkatkan penumpuan dan kestabilan model.
Gambar
Gambar berikut ialah hasil percubaan teras dalam artikel, yang membandingkan kesan Mamba dengan iTransformer, PatchTST dan model siri masa arus perdana yang lain dalam industri. Makalah ini juga menjalankan perbandingan percubaan pada tingkap ramalan yang berbeza, sifat generalisasi, dsb. Eksperimen menunjukkan bahawa Mamba bukan sahaja mempunyai kelebihan dalam sumber pengkomputeran, tetapi juga setanding dengan model berkaitan Transformer dari segi kesan model, dan juga menjanjikan dalam pemodelan jangka panjang.
gambar
Atas ialah kandungan terperinci Adakah Mamba setanding dengan Transformer berkesan pada siri masa?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!