Rumah > Artikel > Peranti teknologi > Diperkenalkan buat pertama kali! Menggunakan inferens sebab untuk melakukan pembelajaran peneguhan separa boleh diperhatikan
Artikel "Inferens Balas Pantas untuk Pembelajaran Peneguhan Berasaskan Sejarah" mencadangkan algoritma inferens sebab yang pantas, yang mengurangkan kerumitan pengiraan inferens sebab-akibat - ke tahap yang boleh digabungkan dengan pembelajaran pengukuhan dalam talian.
Sumbangan teori artikel ini terutamanya mempunyai dua perkara:
1 🎜>
2. Lanjutkan kriteria pintu belakang yang terkenal daripada anggaran kesan campur tangan univariat kepada anggaran kesan campur tangan multivariasi, yang dipanggil kriteria pintu belakang langkah.
Latar BelakangPerlu menyediakan pengetahuan asas tentang pembelajaran peneguhan yang boleh diperhatikan separa dan inferens sebab akibat. Saya tidak akan memperkenalkan terlalu banyak di sini, tetapi berikut adalah beberapa portal:
Pembelajaran peneguhan yang boleh diperhatikan separa:
Penjelasan POMDP https:/ / www.zhihu.com/zvideo/1326278888684187648
Penaakulan kausal:
Penaakulan kausal dalam rangkaian neural dalam https://zhihuanlan. .com/p/425331915
MotivasiMengekstrak/mengekodkan ciri daripada maklumat sejarah ialah cara asas untuk menyelesaikan pembelajaran peneguhan yang boleh diperhatikan separa. Kaedah arus perdana ialah menggunakan model jujukan-ke-jujukan (seq2seq) untuk mengekod sejarah Contohnya, kaedah pembelajaran tetulang LSTM/GRU/NTM/Transformer yang popular dalam bidang ini termasuk dalam kategori ini. Persamaan kaedah jenis ini ialah sejarah dikodkan berdasarkan korelasi antara maklumat sejarah dan isyarat pembelajaran (ganjaran alam sekitar), iaitu, lebih besar korelasi sesuatu maklumat sejarah, lebih tinggi berat yang diberikan kepadanya. . Walau bagaimanapun, kaedah ini
tidak boleh menghapuskan korelasi mengelirukanyang disebabkan oleh pensampelan. Berikan contoh mengambil kunci untuk membuka pintu, seperti yang ditunjukkan di bawah:
Di sini, sama ada ejen boleh membuka pintu hanya bergantung kepada sama ada ia telah diperolehi dalam sejarah tanpa bergantung kepada negeri lain dalam sejarah. Walau bagaimanapun, jika strategi pensampelan ejen mempunyai keutamaan untuk beberapa laluan, ia akan membawa kepada korelasi yang tinggi antara keadaan pada laluan pilihan ini. Sebagai contoh, selepas ejen mendapat kunci, ia akan cenderung untuk mengambil laluan atas untuk membuka pintu dan bukannya pergi ke laluan bawah untuk membuka pintu, yang akan menjadikan perkara membuka pintu sangat berkaitan dengan TV. Jenis keadaan bukan sebab tetapi sangat berkaitan ini akan diberi pemberat yang agak tinggi oleh seq2seq, menjadikan maklumat sejarah yang dikodkan sangat berlebihan. Dalam contoh ini, apabila kita menganggarkan korelasi antara TV dan pembukaan pintu, terdapat korelasi tinggi yang mengelirukan antara kedua-duanya disebabkan oleh kehadiran kunci. Untuk menganggarkan kesan sebenar pembukaan pintu TV, adalah perlu untuk
mengalih keluar korelasi yang mengelirukan ini. Korelasi yang mengelirukan seperti itu boleh disingkirkan dengan do-calculus dalam inferens sebab akibat [1]:
Asingkanyang berpotensi mengelirukan pembolehubah pintu belakang kunci dan bola, dengan itu memotong korelasi statistik antara pembolehubah pintu belakang (kunci/bola) dan TV, dan kemudian menukar kebarangkalian bersyarat p(Buka|, kunci/bola) berkenaan dengan pembolehubah pintu belakang (kunci/ Bola) disepadukan (gambar kanan Rajah 1), dan kesan sebenar p(Buka|do( ))=0.5 diperolehi. Memandangkan keadaan sejarah dengan kesan kausal agak jarang, apabila kita mengalih keluar korelasi yang mengelirukan, skala keadaan sejarah boleh dikurangkan dengan banyak. Oleh itu, kami berharap dapat menggunakan inferens sebab untuk membuang korelasi yang mengelirukan dalam sampel sejarah, dan kemudian menggunakan seq2seq untuk mengekod sejarah untuk mendapatkan perwakilan sejarah yang lebih padat.
(Motivasi untuk artikel ini)[1] Nota: Apa yang dipertimbangkan di sini ialah do-calculus diselaraskan oleh pintu belakang, dengan pautan sains popular https:/ /blog.csdn .net/qq_31063727/article/details/118672598
Melakukan inferens sebab dalam urutan sejarah adalah berbeza daripada masalah inferens sebab umum. Pembolehubah dalam jujukan sejarah mempunyai kedua-dua dimensi masa dan ruang , iaitu gabungan masa cerapan , dengan o ialah cerapan dan t ialah cap waktu (sebagai perbandingan, MDP sangat mesra, keadaan Markov hanya mempunyai dimensi spatial). Pertindihan dua dimensi menjadikan skala pemerhatian sejarah agak besar - gunakan untuk mewakili bilangan cerapan pada setiap cap masa, dan gunakan T untuk mewakili jumlah tempoh masa, kemudian keadaan sejarah Terdapat jenis nilai (badan biasa O( ) ialah simbol kerumitan). [2]
Kaedah inferens penyebab sebelum ini adalah berdasarkan pengesanan intervensi univariate, yang hanya boleh melakukan satu pembolehubah pada satu masa. Melakukan penaakulan kausal pada keadaan sejarah berskala besar akan menghasilkan kerumitan masa yang sangat tinggi , menjadikannya sukar untuk digabungkan dengan algoritma RL dalam talian.
[2] Nota: Takrif formal kesan sebab akibat campur tangan univariat adalah seperti berikut
seperti yang ditunjukkan dalam rajah di atas menunjukkan, memandangkan sejarah , adalah perlu untuk menganggarkan kesan sebab akibat pada pembolehubah pemindahan , lakukan dua langkah berikut: 1) Campur tangan dalam keadaan sejarah lakukan , 2) Gunakan keadaan sejarah sebelumnya sebagai pembolehubah pintu belakang, ialah pembolehubah bergerak balas Hitung kamiran berikut untuk mendapatkan kesan sebab akibat yang diperlukan
.
Memandangkan campur tangan pembolehubah tunggal Adalah sukar untuk menggabungkan pengesanan dengan RL dalam talian, jadi adalah perlu untuk membangunkan kaedah pengesanan intervensi multivariate.
Pemerhatian teras (hipotesis) kertas ini ialah keadaan sebab yang jarang dalam dimensi ruang. Pemerhatian ini adalah semula jadi dan biasa Sebagai contoh, apabila anda membuka pintu dengan kunci, banyak keadaan akan diperhatikan semasa proses, tetapi nilai pemerhatian kunci menentukan sama ada nilai pemerhatian ini menyumbang kepada jarang perkadaran semua nilai pemerhatian. Mengambil kesempatan daripada keterbatasan ini, kita boleh menapis sejumlah besar keadaan sejarah tanpa kesan kausal sekaligus melalui campur tangan berbilang pembolehubah. Tetapi kesan sebabnya tidak jarang dalam dimensi masa Begitu juga untuk membuka pintu dengan kunci boleh diperhatikan oleh ejen pada kebanyakan masa. Ketumpatan kesan sebab akibat dalam dimensi masa menghalang kita daripada menjalankan campur tangan multivariate—adalah mustahil untuk mengalih keluar sejumlah besar keadaan sejarah tanpa kesan sebab akibat sekaligus.
Berdasarkan dua pemerhatian di atas, idea teras kami ialah mula-mula membuat inferens dalam dimensi ruang, dan kemudian membuat inferens dalam dimensi masa. Menggunakan sparsity dalam dimensi spatial untuk mengurangkan bilangan campur tangan dengan ketara. Untuk menganggarkan secara berasingan kesan penyebab spatial, kami mencadangkan untuk mendapatkan kesan sebab akibat purata masa, yang bermaksud purata kesan sebab akibat beberapa keadaan sejarah dari semasa ke semasa (lihat teks asal untuk definisi khusus).
Berdasarkan idea ini, kami memberi tumpuan kepada masalah: masalah teras yang perlu diselesaikan ialah cara mengira campur tangan pada berbilang pembolehubah dengan nilai yang sama pada langkah masa yang berbeza (perhatikan ) kesan sebab akibat bersama. Ini kerana kriteria pintu belakang tidak digunakan pada campur tangan bersama pelbagai pembolehubah sejarah: seperti yang ditunjukkan dalam rajah di bawah, pertimbangkan campur tangan bersama bagi dwi pembolehubah dan , anda boleh melihat bahagian pembolehubah pintu belakang pada langkah masa kemudian termasuk dan tiada pembolehubah pintu belakang biasa antara kedua-duanya.
Kami menambah baik kriteria pintu belakang dan mencadangkan kriteria yang sesuai untuk menganggarkan anggaran kesan campur tangan bersama pelbagai pembolehubah. Untuk mana-mana dua pembolehubah yang diintervensi dan (i
formula pelarasan pintu belakang langkah
Kriteria ini memisahkan pembolehubah lain antara pembolehubah dua langkah masa bersebelahan, yang dipanggil pembolehubah pintu belakang langkah. Dalam gambar rajah kausal yang memenuhi kriteria ini, kita boleh menganggarkan kesan sebab akibat bersama mana-mana dua pembolehubah campur. Ia termasuk dua langkah: langkah 1. Gunakan pembolehubah yang lebih kecil daripada i pada langkah masa sebagai pembolehubah pintu belakang untuk menganggarkan dokesan sebab akibat. Ambil tertentu; pembolehubah pintu belakang dan yang diberikan digunakan sebagai syarat, dan pembolehubah antara dan adalah Baharu pembolehubah pintu belakang kira-kira (iaitu pembolehubah pintu belakang melangkah kira-kira dan ), anggaran lakukan kesan sebab bersyarat. Kemudian kesan kausal sendi adalah produk integral dari kedua-dua bahagian ini. Kriteria pintu belakang melangkah menggunakan dua langkah kriteria pintu belakang biasa, seperti yang ditunjukkan dalam rajah di bawah
Formula di atas menggunakan penunjuk pembolehubah yang lebih umum X .
Untuk kes lebih daripada tiga pembolehubah, dengan menggunakan kriteria pintu belakang langkah secara berterusan - pembolehubah antara pembolehubah campur tangan bersebelahan pada setiap dua langkah masa dianggap sebagai pembolehubah pintu belakang langkah , secara berterusan mengira formula di atas, kesan sebab akibat bersama campur tangan berbilang pembolehubah boleh diperolehi seperti berikut:
Teorem 1. Diberi satu set pembolehubah berintervensi dengan cap masa yang berbeza , jika setiap dua pembolehubah yang bersebelahan sementara memenuhi formula pelarasan pintu belakang langkah, maka kesan penyebab keseluruhan boleh dianggarkan dengan
Khusus untuk masalah pembelajaran peneguhan yang boleh diperhatikan separa, selepas menggantikan x dalam formula di atas dengan pemerhatian o, terdapat formula pengiraan kesan sebab akibat berikut:
Teorem 2. Memandangkan dan , kesan sebab akibat Do(o) boleh dianggarkan oleh
Pada ketika ini, makalah ini memberikan formula untuk mengira kesan penyebab spatial (iaitu, kesan sebab akibat purata masa Kaedah ini mengurangkan bilangan campur tangan daripada O() kepada O). (). Langkah seterusnya adalah untuk mengambil kesempatan daripada jarang kesan penyebab spatial (disebutkan pada permulaan bab ini) untuk mengurangkan lagi bilangan campur tangan secara eksponen. Gantikan intervensi pada satu pemerhatian dengan intervensi pada subruang pemerhatian - ini adalah idea biasa untuk mengambil kesempatan daripada sparsity untuk mempercepatkan pengiraan (lihat artikel asal). Dalam artikel ini, algoritma inferens kontrafaktual pantas dipanggil inferens kontrafaktual sejarah berasaskan pokok (T-HCI) dibangunkan, yang tidak akan diterangkan secara terperinci di sini (lihat teks asal untuk butiran). Malah, banyak algoritma inferens penyebab sejarah boleh dibangunkan berdasarkan kriteria pintu belakang melangkah, dan T-HCI hanyalah salah satu daripadanya. Keputusan akhir ialah Proposisi 3 (CI kasar kepada halus Jika , bilangan campur tangan untuk CI kasar kepada halus ialah).
Rajah struktur algoritma adalah seperti berikut
Algoritma mengandungi dua gelung, satu Ia adalah gelung T-HCI, dan satu lagi gelung pembelajaran dasar Kedua-duanya ditukar: dalam gelung pembelajaran dasar, ejen diambil sampel untuk mempelajari bilangan pusingan tertentu, dan sampel disimpan dalam. kolam main semula; dalam gelung T-HCI, sampel yang disimpan digunakan Menjalankan proses inferens sebab yang diterangkan di atas.
Keterbatasan: Penaakulan sebab dalam dimensi spatial telah memampatkan skala sejarah dengan secukupnya. Walaupun inferens sebab dalam dimensi masa boleh memampatkan lagi skala sejarah, memandangkan kerumitan pengiraan perlu diseimbangkan, artikel ini mengekalkan inferens korelasi dalam dimensi masa (menggunakan LSTM hujung-ke-hujung pada keadaan sejarah dengan kesan sebab-akibat spatial) dan tidak menggunakan alasan sebab musabab.
Tiga mata telah disahkan secara eksperimen, bertindak balas kepada tuntutan sebelumnya: 1) Bolehkah T-HCI meningkatkan kecekapan sampel kaedah RL 2) Adakah pengiraan? overhead T-HCI boleh diterima dalam amalan? 3) Bolehkah T-HCI melombong pemerhatian dengan kesan kausal Sila lihat bab eksperimen kertas untuk mendapatkan butiran, jadi saya tidak akan mengambil ruang di sini. Sudah tentu, rakan-rakan yang berminat juga boleh menghantar mesej peribadi/komen kepada saya.
Arah untuk pengembangan masa hadapan
Dua perkara untuk memulakan perbincangan:
1. HCI tidak terhad kepada jenis pembelajaran pengukuhan. Walaupun artikel ini mengkaji RL dalam talian, HCI juga boleh dilanjutkan secara semula jadi kepada RL luar talian, RL berasaskan model, dsb., dan anda juga boleh mempertimbangkan untuk menggunakan HCI untuk pembelajaran tiruan
2. HCI boleh dianggap sebagai titik jujukan kaedah perhatian keras khas dengan kesan kausal menerima berat perhatian 1, dan sebaliknya menerima berat perhatian 0. Dari perspektif ini, beberapa masalah ramalan jujukan juga mungkin cuba dikendalikan menggunakan HCI.
Atas ialah kandungan terperinci Diperkenalkan buat pertama kali! Menggunakan inferens sebab untuk melakukan pembelajaran peneguhan separa boleh diperhatikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!