Rumah > Artikel > Peranti teknologi > Bagaimana untuk menggunakan data dengan lebih baik dalam inferens sebab-akibat?
Pengenalan: Tajuk perkongsian ini ialah "Bagaimana untuk menggunakan data dengan lebih baik dalam inferens sebab-akibat? " ", yang terutamanya memperkenalkan kerja terbaru pasukan berkaitan dengan kertas kerja yang diterbitkan mengenai sebab dan akibat. Laporan ini memperkenalkan cara kami boleh menggunakan lebih banyak data untuk membuat inferens sebab dari dua aspek Satu ialah menggunakan data kawalan sejarah untuk secara jelas mengurangkan bias kekeliruan, dan satu lagi ialah inferens sebab di bawah gabungan data berbilang sumber.
Jadual kandungan teks penuh:
Masalah ramalan pembelajaran mesin biasa. secara amnya Apabila ditetapkan dalam sistem yang sama, taburan bebas dan serupa biasanya diandaikan, seperti meramalkan kebarangkalian kanser paru-paru dalam kalangan perokok, klasifikasi gambar dan masalah ramalan lain. Persoalan penyebab adalah berkaitan dengan mekanisme di sebalik data soalan biasa seperti "Adakah merokok menyebabkan kanser paru-paru?"
Terdapat dua jenis data yang sangat penting dalam masalah anggaran kesan sebab akibat: satu jenis ialah data pemerhatian, dan jenis lain ialah data eksperimen yang dijana secara rawak eksperimen terkawal.
Masalah anggaran sebab masalah E(Y|do(X)) dan masalah ramalan atau klasifikasi tradisional Perbezaan utama antara E(Y|X) ialah simbol intervensi yang dicadangkan oleh Judy Pearl muncul dalam keadaan yang diberikan. Campur tangan untuk memaksa pembolehubah X kepada nilai tertentu. Anggaran kesan sebab akibat dalam laporan ini terutamanya merujuk kepada anggaran kesan sebab akibat daripada data pemerhatian.
Bagaimana untuk menggunakan data dengan lebih baik dalam inferens sebab-akibat? Laporan ini akan memperkenalkan topik sedemikian menggunakan kertas kerja terbaru yang diterbitkan oleh dua pasukan sebagai contoh.
beberapa algoritma pokok kausal tradisional berpecah berdasarkan heterogeneity kesan kausal. sub-nod selepas pemisahan akan berbeza dengan ketara, dan perbezaan itu boleh ditangkap melalui pemisahan kesan sebab akibat dalam pengedaran data. Kriteria pembelahan pokok penyebab tradisional, seperti:
Pokok penyebab tradisional dan pokok angkat tidak dapat menjamin bahagian kiri selepas membelah . Taburan nod anak dan nod anak kanan adalah homogen. Oleh itu, anggaran tradisional
Kerja kami memfokuskan pada menganggarkan purata kesan sebab akibat CATT ke atas kumpulan eksperimen (kumpulan rawatan). CATT ditakrifkan sebagai:
Selanjutnya, anggaran kesan sebab akibat tradisional boleh dibahagikan kepada dua bahagian:
Pincang pilihan/confounding bias boleh ditakrifkan sebagai:
Makna intuitif ialah nilai anggaran apabila rawatan=0 dalam kumpulan eksperimen, tolak nilai anggaran apabila rawatan=0 dalam kumpulan kawalan. Dalam pokok penyebab tradisional, bias di atas tidak dicirikan, dan bias pemilihan mungkin menjejaskan anggaran kami, menyebabkan anggaran akhir menjadi berat sebelah.
Idea kami ialah menggunakan data kawalan sejarah yang terkumpul pada produk atau platform untuk mengurangkan kecenderungan pemilihan secara eksplisit. Operasi khusus adalah berdasarkan dua andaian:
Pendekatan khusus:
Maksud intuitif ialah: dalam kumpulan eksperimen, gunakan model kumpulan kawalan untuk anggaran; Dalam kumpulan kawalan, gunakan model kumpulan eksperimen untuk menganggarkan dua bahagian sedekat mungkin, supaya taburan kumpulan eksperimen dan kumpulan kawalan adalah hampir sama. Penggunaan entropi kekeliruan adalah salah satu sumbangan utama kerja kami.
Penyepaduan model pokok tradisional termasuk kaedah seperti membungkus dan meningkatkan. Kaedah integrasi yang digunakan oleh hutan uplift atau hutan sebab ialah kaedah bagging Penyepaduan hutan uplift adalah penjumlahan langsung, manakala integrasi hutan penyebab memerlukan penyelesaian fungsi kerugian.
Disebabkan modul pembetulan eksplisit yang direka dalam GBCT, GBCT menyokong penggunaan kaedah penggalak untuk penyepaduan. Idea asas adalah serupa dengan boosting: selepas pokok pertama dibetulkan, pokok kedua dibetulkan, dan pokok ketiga dibetulkan...
Dua bahagian percubaan telah dilakukan:
① Percubaan simulasi. Di bawah eksperimen simulasi yang mengandungi kebenaran asas, uji sama ada kaedah GBCT boleh mencapai hasil yang diharapkan. Penjanaan data untuk eksperimen simulasi dibahagikan kepada dua bahagian (lajur pertama Φ dalam jadual mewakili bias pemilihan. Semakin besar nilai Φ, semakin kuat bias pemilihan yang sepadan; nilai dalam jadual ialah MAE. Semakin kecil nilai MAE , lebih baik kaedahnya) :
② Data peningkatan had kad kredit sebenar. Satu eksperimen terkawal rawak telah dijalankan, dan data berat sebelah telah dibina berdasarkan eksperimen terkawal rawak. Merentasi tetapan yang berbeza, kaedah GBCT secara konsisten mengatasi kaedah tradisional, terutamanya pada data berat sebelah, menunjukkan prestasi yang lebih baik daripada kaedah tradisional.
Tugas kedua ialah gabungan data sebab, iaitu cara menganalisis data dengan lebih baik apabila terdapat pelbagai sumber data Menganggar sebab kesan.
Simbol utama: ialah pelbagai sumber data, Y ialah hasil, A ialah rawatan, X ialah persatuan kebimbangan Pembolehubah, Z ialah kovariat lain bagi setiap sumber data (domain) kecuali X, S ialah penunjuk domain untuk menunjukkan domain mana ia milik, dan μ ialah nilai jangkaan hasil yang berpotensi. Uraikan hasil ke dalam ungkapan berikut:
fungsi sasaran δ digunakan untuk menganggarkan kesan penyebab pada setiap domain, Dalam Selain itu, fungsi gangguan termasuk kesan utama, skor kecenderungan, skor kecenderungan domain, varians kesan, dsb.
Sesetengah kaedah tradisional, seperti meta learner, menganggap bahawa data adalah homolog, iaitu pengedaran adalah konsisten . Sesetengah kaedah gabungan data tradisional boleh mengendalikan kepelbagaian populasi merentas domain, tetapi tidak dapat menangkap secara eksplisit kepelbagaian hasil intervensi dan kesan sebab akibat merentas domain. Kerja kami memberi tumpuan kepada menangani heterogeniti yang lebih kompleks merentas domain, termasuk heterogeniti merentas domain dalam hasil intervensi dan heterogeniti merentas domain dalam kesan sebab akibat.
Rajah rangka kerja algoritma WMDL ditunjukkan dalam rajah di atas. Modul utama ialah:
Tiga modul digabungkan untuk mendapatkan anggaran akhir. Tiga sorotan algoritma WMDL ialah:
Dalam kerja ini, kami tidak menganggarkan hasil kumpulan eksperimen dan hasil kumpulan kawalan, dan kemudian membuat perbezaan untuk mendapatkan sebab dan akibat daripada menganggarkan kesan, kita menganggarkan secara langsung kesan sebab, iaitu Pembelajaran Langsung. Faedah Pembelajaran Langsung ialah ia boleh mengelakkan isyarat hingar frekuensi lebih tinggi dalam kumpulan eksperimen dan kawalan.
Bahagian kiri menganggap bahawa kesan sebab adalah sama antara berbilang domain, tetapi hasilnya mungkin heterogen ; bahagian kanan menganggap bahawa kesan sebab akibat antara setiap domain adalah berbeza, iaitu antara domain yang berbeza, walaupun kovariatnya adalah sama, kesan sebab akibatnya juga berbeza.
Formula diperoleh berdasarkan formula pembongkaran Hasil Y tolak kesan utama dibahagikan dengan rawatan dianggarkan sebagai I(X), dan penyelesaian optimum yang diperoleh ialah δ(X). Pengangka dalam ialah modul pemberat yang sedar maklumat sebab yang akan disebut kemudian, yang merupakan sumbangan utama kerja kami; diambil kira. Jika kesan sebab akibat antara domain berbeza adalah berbeza, maklumat penunjuk domain juga akan dipertimbangkan.
Kerja ini mempunyai tiga kelebihan:
① Melalui reka bentuk yang berbeza, ia bukan sahaja dapat mengendalikan kepelbagaian hasil intervensi, tetapi juga Mengendalikan heterogenitas antara kesan sebab;
② mempunyai sifat kekukuhan berganda. Buktinya diberikan dalam kertas bahawa selagi anggaran sama ada model skor kecenderungan domain atau model kesan utama tidak berat sebelah, anggaran akhir akan menjadi tidak berat sebelah (keadaan sebenar adalah lebih rumit sedikit, lihat kertas untuk butiran) ;
③ Kerja ini terutamanya mereka bentuk rangka kerja model separuh parametrik. Setiap modul model boleh menggunakan mana-mana model pembelajaran mesin, malah keseluruhan model boleh direka bentuk menjadi rangkaian saraf untuk mencapai pembelajaran hujung ke hujung.
Modul pemberat diperoleh daripada teori terikat kecekapan dalam statistik. Ia terutamanya mengandungi dua aspek maklumat:
① ialah modul untuk penukaran seimbang perbezaan pengedaran antara domain; > ialah modul maklumat kausal. Tiga gambar di sebelah kiri boleh digunakan untuk membantu pemahaman: Jika perbezaan taburan antara domain sumber dan domain sasaran adalah besar, keutamaan akan diberikan kepada sampel yang lebih dekat dengan domain sasaran
② Melalui reka bentuk fungsi skor kecenderungan pada penyebut, sampel bertindih dalam kumpulan eksperimen dan kumpulan kawalan diberi berat perbandingan③ Gunakan V untuk mencirikan hingar dalam data. Oleh kerana hingar berada dalam penyebut, sampel yang kurang hingar akan mendapat pemberat yang lebih besar.
Dengan bijak menggabungkan tiga bahagian di atas, perbezaan taburan antara domain yang berbeza dan prestasi maklumat sebab yang berbeza boleh dipetakan ke dalam domain bersatu .
Sama ada di bawah kesan kausal homogen atau kesan kausal heterogen, kaedah WMDL (Weighted Multi-domain Direct Learning ) mempunyai hasil yang lebih baik . Gambar di sebelah kanan menunjukkan eksperimen ablasi pada modul pemberat Eksperimen menunjukkan keberkesanan modul pemberat. Secara ringkasnya, kaedah WMDL secara konsisten menunjukkan prestasi yang lebih baik daripada kaedah lain, dan anggaran varians adalah agak kecil.
4. Aplikasi perniagaan dalam Ant
Dalam senario kawalan risiko kredit kewangan, kaedah intervensi seperti peningkatan kuota dan pengurangan harga dijangka mencapai kesan yang dijangkakan seperti perubahan dalam baki atau risiko. Dalam beberapa senario sebenar, kerja pembetulan GBCT akan menggunakan prestasi sejarah dalam tempoh sebelum angkat dahi (status kumpulan eksperimen dan kumpulan kawalan tanpa angkat dahi boleh diperolehi), dan menjalankan pembetulan eksplisit melalui maklumat sejarah, supaya intervensi nanti anggaran akan lebih tepat. Jika GBCT dibahagikan kepada nod kanak-kanak supaya tingkah laku sebelum intervensi diselaraskan, kesan sebab akibat selepas intervensi akan lebih mudah untuk dianggarkan. (Diperolehi selepas pembetulan) Dalam rajah, warna merah ialah kumpulan menaikkan dahi, warna biru ialah kumpulan tidak menaikkan dahi, dan kawasan kelabu di tengah adalah anggaran kesan penyebab. GBCT membantu kami membuat keputusan bijak yang lebih baik dan mengawal keseimbangan dan risiko produk kredit.
A1: Idea utama pembetulan GBCT adalah menggunakan maklumat kawalan sejarah untuk mengurangkan kecenderungan pemilihan secara eksplisit Kaedah GBCT dan kaedah perbezaan berganda JPS mempunyai persamaan dan perbezaan :
Andaikan terdapat beberapa pembolehubah pengeliru yang tidak diperhatikan Senario jenis ini sangat biasa dalam amalan Terdapat juga pembolehubah yang tidak diperhatikan dalam data kawalan sejarah, seperti perubahan dalam keadaan keluarga dan pendapatan sebelum kuota dinaikkan, mungkin tidak dapat diperhatikan, tetapi tingkah laku kewangan pengguna telah ditunjukkan dalam data sejarah. Kami berharap dapat mengurangkan kecenderungan pemilihan secara eksplisit melalui kaedah seperti entropi kekeliruan melalui maklumat prestasi sejarah, supaya apabila pokok itu berpecah, kepelbagaian antara pembolehubah yang mengelirukan boleh dicirikan ke dalam nod anak berpecah. Di antara nod kanak-kanak, pembolehubah pengeliru yang tidak diperhatikan adalah agak hampir supaya ia mempunyai kebarangkalian yang lebih besar, jadi anggaran kesan sebab-akibat adalah secara relatif lebih tepat.
S3: Pernahkah anda membandingkan GBCT dengan Pembelajaran Mesin Berganda (DML)?
Berbanding dengan DML, GBCT terutamanya mempertimbangkan cara menggunakan data kawalan sejarah. Dalam kaedah perbandingan, hasil sejarah akan diproses secara langsung sebagai kovariat, tetapi kaedah pemprosesan ini jelas tidak menggunakan maklumat dengan baik.
S4: Masalah serupa yang mungkin dihadapi dalam perniagaan ialah mungkin terdapat kecenderungan pemilihan di luar talian. Walau bagaimanapun, berat sebelah dalam talian mungkin agak berbeza daripada berat sebelah luar talian. Pada masa ini, semasa melakukan penilaian kesan di luar talian, mungkin tiada cara untuk menganggarkan kesan luar talian dengan sangat tepat.
Kami biasanya menggunakan kaedah berikut: gunakan data ujian tempoh berbeza (OOT) untuk pengesahan semasa penilaian luar talian untuk melihat keteguhan prestasinya. Jika prestasi ujian agak stabil, maka terdapat lebih banyak sebab untuk mempercayai bahawa prestasi dalam taliannya juga baik.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan data dengan lebih baik dalam inferens sebab-akibat?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!