Rumah >Peranti teknologi >AI >Terokai konsep, perbezaan, kebaikan dan keburukan RNN, LSTM dan GRU

Terokai konsep, perbezaan, kebaikan dan keburukan RNN, LSTM dan GRU

WBOY
WBOYke hadapan
2024-01-22 19:51:191169semak imbas

Terokai konsep, perbezaan, kebaikan dan keburukan RNN, LSTM dan GRU

Dalam data siri masa, terdapat kebergantungan antara pemerhatian, jadi mereka tidak bebas antara satu sama lain. Walau bagaimanapun, rangkaian saraf tradisional menganggap setiap pemerhatian sebagai bebas, yang mengehadkan keupayaan model untuk memodelkan data siri masa. Untuk menyelesaikan masalah ini, Rangkaian Neural Berulang (RNN) telah diperkenalkan, yang memperkenalkan konsep ingatan untuk menangkap ciri dinamik data siri masa dengan mewujudkan kebergantungan antara titik data dalam rangkaian. Melalui sambungan berulang, RNN boleh menghantar maklumat sebelumnya ke dalam pemerhatian semasa untuk meramalkan nilai masa hadapan dengan lebih baik. Ini menjadikan RNN alat yang berkuasa untuk tugasan yang melibatkan data siri masa.

Tetapi bagaimanakah RNN mencapai ingatan seperti ini?

RNN merealisasikan ingatan melalui gelung maklum balas dalam rangkaian saraf, yang merupakan perbezaan utama antara RNN dan rangkaian neural tradisional. Gelung maklum balas membenarkan maklumat dihantar dalam lapisan, manakala rangkaian saraf suapan hadapan mempunyai maklumat yang dihantar hanya antara lapisan. Oleh itu, terdapat pelbagai jenis RNN:

  • Recurrent Neural Network (RNN)
  • Long Short-Term Memory Network (LSTM)
  • Gated Recurrent Unit Network (GRU)

Artikel ini akan memperkenalkan RNN , LSTM Konsep, persamaan dan perbezaan antara GRU dan GRU, serta beberapa kelebihan dan kekurangannya.

Recurrent Neural Network (RNN)

Melalui gelung maklum balas, output unit RNN juga digunakan sebagai input oleh unit yang sama. Oleh itu, setiap RNN mempunyai dua input: masa lalu dan sekarang. Menggunakan maklumat lepas mencipta ingatan jangka pendek.

Untuk pemahaman yang lebih baik, gelung maklum balas unit RNN boleh dikembangkan. Panjang sel yang dikembangkan adalah sama dengan bilangan langkah masa urutan input.

Anda boleh melihat bagaimana pemerhatian lalu dilalui melalui rangkaian terungkap sebagai keadaan tersembunyi. Dalam setiap sel, input daripada langkah masa semasa, keadaan tersembunyi daripada langkah masa sebelumnya dan pincang digabungkan dan kemudian dikekang melalui fungsi pengaktifan untuk menentukan keadaan tersembunyi pada langkah masa semasa.

RNN boleh digunakan untuk ramalan satu-dengan-satu, satu-ke-banyak, ramai-ke-satu dan banyak-ke-banyak.

Kelebihan RNN

Berkat ingatan jangka pendeknya, RNN boleh memproses data berjujukan dan mengenal pasti corak dalam data sejarah. Selain itu, RNN mampu mengendalikan input dengan panjang yang berbeza.

Kelemahan RNN

RNN mengalami masalah penurunan kecerunan yang hilang. Dalam kes ini, kecerunan yang digunakan untuk mengemas kini pemberat semasa perambatan belakang menjadi sangat kecil. Mendarab pemberat dengan kecerunan menghampiri sifar menghalang rangkaian daripada mempelajari pemberat baharu. Menghentikan pembelajaran menyebabkan RNN melupakan apa yang telah dilihatnya dalam urutan yang lebih panjang. Masalah penurunan kecerunan yang lenyap meningkat dengan bilangan lapisan rangkaian.

Memandangkan RNN hanya mengekalkan maklumat terkini, model ini menghadapi masalah apabila mempertimbangkan pemerhatian lepas. Oleh itu, RNN hanya mempunyai ingatan jangka pendek dan tiada ingatan jangka panjang.

Di samping itu, memandangkan RNN menggunakan perambatan belakang untuk mengemas kini pemberat dalam masa, rangkaian juga akan mengalami letupan kecerunan, dan jika fungsi pengaktifan ReLu digunakan, ia akan terjejas oleh unit ReLu yang mati. Yang pertama mungkin menyebabkan masalah penumpuan, manakala yang kedua mungkin menyebabkan pembelajaran terhenti.

Long Short-Term Memory (LSTM)

LSTM ialah sejenis RNN yang istimewa, yang menyelesaikan masalah kehilangan kecerunan RNN.

Kunci kepada LSTM ialah keadaan unit, yang dihantar dari input unit ke output. Keadaan sel membenarkan maklumat mengalir sepanjang keseluruhan rantai dengan hanya tindakan linear yang lebih kecil melalui tiga get. Oleh itu, keadaan sel mewakili ingatan jangka panjang LSTM. Ketiga-tiga get ini dipanggil get forget, get input dan gate output masing-masing. Gerbang ini bertindak sebagai penapis dan mengawal aliran maklumat dan menentukan maklumat yang disimpan atau diabaikan.

Pintu lupa menentukan berapa banyak ingatan jangka panjang yang perlu dikekalkan. Untuk tujuan ini, fungsi sigmoid digunakan untuk mengambil kira kepentingan keadaan sel. Output berubah antara 0 dan 1, dengan 0 tidak mengekalkan maklumat dan 1 mengekalkan semua maklumat tentang keadaan sel.

Ger masuk menentukan maklumat yang ditambahkan pada keadaan sel dan dengan itu pada ingatan jangka panjang.

Ger keluar menentukan bahagian mana keadaan sel membina output. Oleh itu, pintu keluar bertanggungjawab untuk ingatan jangka pendek.

Secara amnya, negeri dikemas kini melalui get forget dan get input.

Kelebihan LSTM

Kelebihan LSTM adalah serupa dengan RNN, kelebihan utamanya ialah ia boleh menangkap corak jujukan jangka panjang dan jangka pendek. Oleh itu, ia adalah RNN yang paling biasa digunakan.

Kelemahan LSTM

Disebabkan struktur yang lebih kompleks, kos pengiraan LSTM lebih tinggi, menyebabkan masa latihan lebih lama.

Memandangkan LSTM juga menggunakan algoritma perambatan belakang temporal untuk mengemas kini pemberat, LSTM mempunyai kelemahan perambatan balik, seperti unit ReLu mati, letupan kecerunan, dsb.

Gated Recurrent Unit (GRU)

Sama seperti LSTM, GRU menyelesaikan masalah kecerunan RNN ringkas yang hilang. Walau bagaimanapun, perbezaan daripada LSTM ialah GRU menggunakan lebih sedikit get dan tidak mempunyai memori dalaman yang berasingan, iaitu keadaan sel. Oleh itu, GRU bergantung sepenuhnya pada keadaan tersembunyi sebagai ingatan, yang membawa kepada seni bina yang lebih mudah.

Pintu tetapan semula bertanggungjawab untuk ingatan jangka pendek kerana ia menentukan berapa banyak maklumat masa lalu yang dikekalkan dan diabaikan.

Pintu kemas kini bertanggungjawab untuk ingatan jangka panjang dan setanding dengan get lupa LSTM.

🎜

Keadaan tersembunyi langkah masa semasa ditentukan berdasarkan dua langkah:

Pertama, tentukan keadaan tersembunyi calon. Keadaan calon ialah gabungan input semasa dan keadaan tersembunyi langkah masa sebelumnya dan fungsi pengaktifan. Pengaruh keadaan tersembunyi sebelumnya pada keadaan tersembunyi calon dikawal oleh get set semula.

Langkah kedua ialah menggabungkan keadaan tersembunyi calon dengan keadaan tersembunyi langkah masa sebelumnya untuk menjana keadaan tersembunyi semasa. Cara keadaan tersembunyi sebelumnya dan keadaan tersembunyi calon digabungkan ditentukan oleh get kemas kini.

Jika nilai yang diberikan oleh get kemas kini ialah 0, keadaan tersembunyi sebelumnya diabaikan sepenuhnya dan keadaan tersembunyi semasa adalah sama dengan keadaan tersembunyi calon. Jika gerbang kemas kini memberikan nilai 1, sebaliknya adalah benar.

Kelebihan GRU

Disebabkan seni binanya yang lebih ringkas berbanding LSTM, GRU lebih cekap dari segi pengiraan, lebih pantas untuk dilatih dan memerlukan kurang memori.

Selain itu, GRU telah terbukti lebih cekap untuk jujukan yang lebih kecil.

Kelemahan GRU

Oleh kerana GRU tidak mempunyai keadaan tersembunyi dan keadaan sel yang berasingan, mereka mungkin tidak dapat mengambil kira pemerhatian lepas seperti LSTM.

Serupa dengan RNN dan LSTM, GRU juga mungkin mengalami kekurangan perambatan belakang untuk mengemas kini pemberat dalam masa, iaitu unit ReLu mati dan letupan kecerunan.

Atas ialah kandungan terperinci Terokai konsep, perbezaan, kebaikan dan keburukan RNN, LSTM dan GRU. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:163.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam
Artikel sebelumnya:Penalti LaplaceArtikel seterusnya:Penalti Laplace