Rumah >Peranti teknologi >AI >Cui Peng, Universiti Tsinghua: Rangka kerja dan amalan membuat keputusan pintar yang boleh dipercayai
Pertama sekali, saya ingin berkongsi dengan anda rangka kerja membuat keputusan pintar yang dipercayai.
Dalam banyak senario sebenar, keputusan adalah lebih penting daripada ramalan . Kerana tujuan ramalan itu sendiri bukan hanya untuk meramalkan rupa masa depan, tetapi untuk mempengaruhi beberapa tingkah laku dan keputusan utama pada masa kini melalui ramalan.
Dalam banyak bidang termasuk bidang sosiologi perniagaan, pembuatan keputusan adalah sangat penting seperti pertumbuhan perniagaan berterusan (Continual business growth), penemuan baru. peluang perniagaan (Peluang perniagaan baru), dan lain-lain, bagaimana untuk menyokong keputusan akhir dengan lebih baik melalui pemacu data adalah sebahagian daripada kerja dalam bidang kecerdasan buatan yang tidak boleh diabaikan.
Senario membuat keputusan ada di mana-mana. Sistem pengesyoran yang terkenal, yang mengesyorkan produk kepada pengguna, sebenarnya membuat keputusan pemilihan antara semua produk. Algoritma penentuan harga dalam e-dagang, seperti penentuan harga perkhidmatan logistik, dsb., cara menetapkan harga yang berpatutan untuk perkhidmatan dalam senario perubatan, ubat atau rawatan mana yang patut disyorkan mengikut simptom pesakit, ini semua adalah Pembuatan Keputusan intervensi; senario.
3 Kaedah membuat keputusan biasa 1: Gunakan simulator untuk membuat keputusan
Kedua-dua ahli akademik dan industri tidak biasa dengan membuat keputusan Terdapat beberapa kaedah yang biasa digunakan untuk menyelesaikan atau membincangkan isu membuat keputusan Secara ringkasnya, terdapat dua pendekatan biasa.
Pendekatan biasa pertama ialah menggunakan simulator untuk membuat keputusan, iaitu pembelajaran pengukuhan. Pembelajaran pengukuhan adalah sistem kaedah yang sangat berkuasa untuk membuat keputusan Ia adalah setara dengan mempunyai adegan sebenar (persekitaran) atau simulasi adegan sebenar, dan kemudian agen pintar boleh terus menjalankan pembelajaran percubaan dan kesilapan dengan adegan sebenar tingkah laku utama (tindakan), dan akhirnya mencari tindakan utama yang memberikan ganjaran terbesar (ganjaran) dalam senario sebenar ini.
Seluruh sistem membuat keputusan pembelajaran pengukuhan akan menjadi perkara pertama yang semua orang fikirkan dalam banyak masalah aplikasi praktikal. Tetapi dalam senario aplikasi sebenar, cabaran terbesar dalam menggunakan pembelajaran pengukuhan ialah sama ada terdapat simulator yang baik untuk senario sebenar. Pembinaan simulator itu sendiri adalah tugas yang sangat mencabar. Sudah tentu, untuk senario permainan seperti catur Alphago, peraturan secara amnya agak tertutup, dan agak mudah untuk membina simulator. Walau bagaimanapun, dalam perniagaan dan kehidupan sebenar, kebanyakannya adalah senario terbuka, seperti pemanduan tanpa pemandu, dan sukar untuk menyediakan simulator yang sangat lengkap. Membina simulator memerlukan pemahaman yang sangat mendalam tentang senario. Oleh itu, membina simulator itu sendiri mungkin menjadi masalah yang lebih sukar daripada membuat keputusan dan membuat ramalan Ini sebenarnya adalah batasan pembelajaran pengukuhan. 4. Pendekatan biasa untuk membuat keputusan 2: Gunakan ramalan untuk membuat keputusan Satu lagi pendekatan biasa ialah menggunakan ramalan untuk membuat keputusan. Ini bermakna walaupun kita tidak tahu jenis keputusan yang baik sekarang, jika ada peramal, ia boleh "menembak di mana untuk menunjuk" dalam ruang ramalan, seperti yang ditunjukkan di sebelah kiri rajah di bawah orang yang menembak anak panah, anda boleh menembak beberapa anak panah dahulu Apabila menembak pada sasaran, jika anda mengetahui anak panah yang menembak lebih baik, anda boleh menggunakan gelagat utama anak panah ini untuk membuat keputusan yang berkaitan. Sekiranya terdapat ruang ramalan sedemikian, ramalan boleh digunakan untuk membuat keputusan.Tetapi kesan daripada membuat keputusan bergantung kepada ketepatan ruang ramalan, sama ada ramalan itu tepat atau tidak. Walaupun dalam ruang ramalan, sasaran dipukul 10 kali, apabila digunakan pada kehidupan atau produk sebenar, bilangan pukulan ialah 0, yang bermaksud ruang ramalan adalah tidak tepat. Setakat ini, senario yang paling yakin dalam tugas ramalan adalah membuat ramalan di bawah andaian pengedaran bebas dan sama, iaitu pengedaran ujian dan pengedaran latihan adalah pengedaran yang sama Terdapat banyak ramalan yang kuat pada masa ini ) dapat menyelesaikan masalah praktikal dengan baik. Ini memberitahu kita: Sama ada ketepatan ramalan adalah baik atau tidak bergantung sedikit sebanyak pada sama ada pengedaran data ujian dan data latihan dalam senario sebenar memenuhi pengedaran bebas dan sama.
Mari kita terus berfikir secara mendalam tentang ketepatan ramalan. Andaikan bahawa model ramalan dibina berdasarkan data sejarah P(X,Y), dan kemudian kami meneroka faedah yang dibawa oleh beberapa gelagat utama yang berbeza, iaitu, menembak berbilang anak panah seperti yang dinyatakan di atas untuk melihat mana yang mempunyai bilangan sasaran terbesar. . Memecahkannya, ia boleh dibahagikan kepada dua situasi berbeza.
Kategori pertama adalah untuk mengoptimumkan nilai pembolehubah keputusan yang diberikan. Jika anda mengetahui terlebih dahulu, pembolehubah input X yang manakah pembolehubah keputusan yang lebih baik, contohnya, jika harga ialah pembolehubah keputusan dalam Apa yang berlaku selepas nilai diperoleh.
Jenis lain ialah mencari pembolehubah keputusan yang optimum dan mengoptimumkan nilainya. Tidak diketahui terlebih dahulu yang mana satu Nilai yang diramalkan oleh model ramalan adalah baik.
Berdasarkan andaian premis ini, apabila menukar nilai pembolehubah keputusan, P(X) sebenarnya berubah, iaitu jika P(X) berubah, P(X,Y) pasti akan berubah, maka andaian pengagihan bebas dan serupa itu sendiri adalah tidak sah, yang bermaksud bahawa ramalan itu sebenarnya berkemungkinan besar gagal. Oleh itu, jika masalah membuat keputusan diselesaikan secara ramalan, ia akan mencetuskan masalah generalisasi luar pengedaran, kerana perubahan nilai pembolehubah keputusan pasti akan menyebabkan anjakan pengedaran. Dalam kes sisihan pengedaran, cara membuat ramalan tergolong dalam masalah ramalan pengitlak luar pengedaran dan bukan topik artikel hari ini. Jika masalah ramalan generalisasi luar pengedaran boleh diselesaikan dalam medan ramalan , menggunakan ramalan untuk membuat keputusan juga merupakan salah satu laluan yang boleh dilaksanakan. Walau bagaimanapun, penggunaan kaedah ID (In-Distribution) atau ramalan langsung (ramalan langsung) semasa untuk membuat keputusan secara teorinya tidak sah dan bermasalah.
Apabila bercakap tentang isu membuat keputusan, kita biasanya mengaitkan secara langsung isu membuat keputusan dengan sebab dan akibat Apa yang dipanggil membuat keputusan bermaksud jenis keputusan yang perlu dibuat . Jelas sekali terdapat rantaian sebab dan akibat dalam dunia akademik Konsensus ialah untuk menyelesaikan masalah membuat keputusan, sebab-sebab tidak boleh dielakkan, iaitu, kita mesti mendapatkan maklumat sebab-akibat yang mencukupi daripada data yang boleh diperhatikan. memahami mekanisme penyebab yang berkaitan ), dan kemudian reka beberapa strategi untuk membuat keputusan akhir berdasarkan mekanisme penyebab. Jika kita dapat memahami keseluruhan proses dengan teliti, kita dapat memulihkan keseluruhan mekanisme penyebab dengan sempurna, jadi membuat keputusan tidak menjadi masalah, kerana ia sebenarnya bersamaan dengan mempunyai perspektif Tuhan, dan tidak ada cabaran dalam membuat keputusan.
Seawal 2015, Jon Kleinberg Diterbitkan dalam kertas kerja : Masalah membuat keputusan tidak boleh hanya diselesaikan dengan mekanisme sebab, iaitu tidak semua masalah membuat keputusan memerlukan mekanisme sebab untuk diselesaikan. Jon Kleinberg ialah seorang profesor terkenal di Cornell University Algoritma hits yang terkenal, teori gaya enam darjah, dll. semuanya adalah hasil penyelidikan Jon Kleinberg. Jon Kleinberg menerbitkan kertas kerja mengenai masalah membuat keputusan pada 2015, "Masalah Dasar Ramalan"[1]. Beliau percaya bahawa beberapa masalah membuat keputusan adalah masalah strategi ramalan, dan untuk membuktikan hujah ini, beliau memberikan penerangan rangka kerja tentang membuat keputusan, seperti yang ditunjukkan dalam rajah di bawah.
Π ialah fungsi bayaran, x0 ialah pembolehubah keputusan (Pembolehubah Keputusan), Y ialah hasil pembolehubah keputusan ( Outcome) , Π sebenarnya ialah fungsi x0 dan Y. Kemudian bagaimanakah x0 berubah, Π ialah yang terbesar, anda boleh mencari derivatif sedemikian: dan kemudian menukarnya Dikembangkan sebagai: Selepas pengembangan, bergantung pada sama ada Y dan x0 adalah tidak relevan, dua jenis persamaan digambarkan pada sebelah kanan senario keputusan. Senario membuat keputusan pertama ialah apabila Y dan x0 tidak relevan, iaitu, tetapi berkaitan dengan Y, In ini kes ini, jika anda boleh meramalkan Y dengan baik, anda boleh menggunakan ramalan Y untuk membuat keputusan dengan lebih khusus Ini ialah masalah membuat keputusan ramalan . Satu lagi senario membuat keputusan ialah x0 membuat keputusan sedemikian, yang akan menjejaskan Y, dan Y akan menjejaskan pendapatan Ini adalah masalah membuat keputusan yang bersebab. Jadi dalam keadaan apakah senario membuat keputusan bersebab dan dalam keadaan apa yang bersifat ramalan Akan ada penjelasan kes kemudian; Pada ketika ini, huraian rangka kerja awal tentang apa itu masalah membuat keputusan.
Dua senario membuat keputusan yang ditunjukkan dalam rajah di atas, di mana x0 ialah pembolehubah keputusan, dan takrifan dalam dua senario ialah masing-masing berbeza.
Lihat kes tempat kejadian di sebelah kiri dahulu. Tiada kaitan antara perlu membawa payung atau tidak dan sama ada hujan, iaitu x0 tidak berkaitan dengan Y, jadi bawa ia menjadi , iaitu: ialah 0, kemudian: Maka pendapatan akhir adalah berbeza jika ia meramalkan sama ada ia akan hujan. Jadi contoh ini jelas merupakan keputusan ramalan.
Kes di sebelah kanan ialah jika anda seorang ketua, sama ada anda ingin membayar seseorang untuk menari kepada Tuhan untuk berdoa memohon hujan sebenarnya bergantung kepada "Menari kepada Tuhan" "Sama ada boleh berdoa untuk hujan atau tidak, dan sama ada ia mempunyai kesan kausal. di sebelah kanan persamaan, jika ia boleh meramalkan sama ada hujan akan turun, maka: ialah 0, iaitu sebenarnya tiada hubungan antara pendapatan (sama ada hujan atau tidak) dan pembolehubah keputusan (sama ada melompat atau tidak). Maka ini bukan keputusan ramalan, tetapi keputusan bersebab semata-mata.
Melalui dua senario kes membuat keputusan sebenar di atas, masalah membuat keputusan boleh dibahagikan kepada dua kategori: membuat keputusan ramalan dan membuat keputusan bersebab, dan rangka kerja keputusan- membuat masalah yang diberikan oleh Jon Kleinberg, Juga ilustrasi yang baik tentang pembahagian keputusan.
Dalam kertas kerja Jon Kleinberg Satu pandangan yang diberikan ialah untuk masalah membuat keputusan ramalan, ia hanya penting sama ada ramalan itu baik atau tidak Mekanisme penyebab tidak semestinya diperlukan dalam senario membuat keputusan dan mempunyai keupayaan ekspresif yang baik untuk membuat keputusan -membuat masalah. Mereka boleh meletakkan banyak situasi. Tetapi kerumitan sebenar membuat keputusan adalah di luar pemahaman sebelumnya tentang senario ramalan. Dalam kebanyakan kes, apabila menyelesaikan masalah ramalan, kami hanya mencuba yang terbaik (usaha terbaik), cuba menggunakan model yang lebih kompleks dan lebih banyak data, dengan harapan dapat meningkatkan ketepatan akhir, iaitu model usaha terbaik (model usaha terbaik) .
Tetapi terdapat lebih banyak kekangan dalam senario membuat keputusan berbanding ramalan. Pembuatan keputusan sebenarnya adalah batu terakhir Keputusan akhir sememangnya akan menjejaskan semua aspek, mempengaruhi banyak pihak berkepentingan, dan melibatkan faktor sosial dan ekonomi yang sangat kompleks. Sebagai contoh, dalam pinjaman yang sama, sama ada terdapat diskriminasi terhadap orang berlainan jantina dan wilayah berbeza adalah isu tipikal keadilan algoritma. Data besar sudah biasa, dan produk yang sama mempunyai harga yang berbeza untuk orang yang berbeza, yang juga menjadi masalah. Dalam beberapa tahun kebelakangan ini, setiap orang mempunyai pemahaman yang mendalam tentang bilik kepompong maklumat, iaitu mengesyorkan pengguna secara berterusan berdasarkan minat atau minat pengguna dalam spektrum yang agak sempit, yang akan membentuk bilik kepompong maklumat. Jika perkara ini berterusan, beberapa fenomena budaya dan sosial yang buruk akan muncul. Oleh itu, semasa membuat keputusan, lebih banyak faktor perlu dipertimbangkan untuk membuat keputusan yang boleh dipercayai.
<.>Teruskan mentafsir rangka kerja masalah membuat keputusan yang diberikan oleh Jon Kleinberg dari perspektif kredibiliti membuat keputusan. Walaupun Jon Kleinberg sendiri mencadangkan rangka kerja masalah membuat keputusan ini untuk menyokong keberkesanan model ramalan untuk masalah membuat keputusan, sebenarnya konotasi rangka kerja masalah membuat keputusan adalah sangat kaya berikut adalah penjelasan setiap item rangka kerja masalah membuat keputusan.
Pertama sekali, ialah item paling kanan: Sebagai respons kepada beberapa bantahan Fenomena fakta ialah beberapa
sebenarnya bersamaan dengan hubungan antara fungsi hasil dan hasil model. Terdapat senario yang lebih mudah untuk hubungan antara Y dan Π. Contohnya, apabila mengesyorkan produk, apakah jenis produk yang disyorkan kepada pengguna dan pengguna mengkliknya. Fungsi hasil akhir yang dioptimumkan sebenarnya ialah kadar klik lalu keseluruhan. Ini adalah senario di mana hubungan antara kedua-duanya agak mudah. Walau bagaimanapun, dalam perniagaan sebenar, sama ada dari perspektif platform atau kawal selia, hubungan antara Y dan Π adalah sangat rumit dalam kebanyakan kes. Sebagai contoh, dalam kes yang akan dibincangkan kemudian, apabila mengoptimumkan hasil platform, anda tidak boleh hanya melihat pada kadar klik lalu semasa, tetapi juga hasil jangka panjang Apabila melihat hasil jangka panjang hubungan antara Y dan Π akan menjadi agak rumit, iaitu hasil yang kompleks. Item ketiga ialah Y. Tugas teras adalah untuk membuat ramalan, tetapi jika ramalan digunakan untuk membuat keputusan, dan senario membuat keputusan adalah bersifat sosial, seperti menjejaskan kredit peribadi, sama ada seseorang itu dimasukkan ke dalam peperiksaan kemasukan kolej, sama ada banduan akan dibebaskan, dsb. Kemudian semua tugas yang dipanggil ramalan ini memerlukan ramalan itu mestilah adil. Anda tidak boleh menggunakan sesuatu yang sensitif pembolehubah dimensi, seperti jantina, bangsa, identiti, dsb., untuk ramalan. Item keempat ialah: , yang merujuk kepada pendapatan dan hubungan antara keputusan. Secara umumnya, keputusan harus dibuat atas dasar untuk memaksimumkan pulangan. Tetapi pada hakikatnya, di dalam dan di luar negara, penyeliaan algoritma platform telah meningkat secara beransur-ansur, iaitu, faktor kawal selia telah ditambahkan pada reka bentuk fungsi hasil, yang meletakkan sekatan tertentu pada pembuatan keputusan. Sebagai contoh, harga tidak boleh ditetapkan sewenang-wenangnya oleh platform Sebaliknya, beberapa faktor kawal selia harus ditambahkan pada fungsi hasil. Rangka kerja masalah membuat keputusan ini mengandungi senario pada tahap yang berbeza, dan ia juga boleh dianggap mempunyai empat sub-arah berbeza di atas. Tetapi secara umumnya, empat sub-arah di atas sangat berkaitan dengan pembuatan keputusan yang boleh dipercayai, iaitu jika anda ingin memastikan watak itu boleh dipercayai, semua aspek faktor mesti dipertimbangkan. Tetapi secara amnya, ia boleh dinyatakan secara seragam menggunakan rangka kerja yang diberikan oleh Jon Kleinberg. Yang berikut akan memperkenalkan empat sub-arah di bawah rangka kerja membuat keputusan pintar yang dipercayai: penaakulan berlawanan fakta, faedah kompleks, keadilan ramalan dan pembuatan keputusan kawal selia. Pertama sekali, kami akan memperkenalkan tentang rangka kerja dipercayai bijak membuat keputusan Beberapa pemikiran dan amalan tentang penaakulan kontrafaktual. 2. Penaakulan kontrafaktual dalam pembuatan keputusan bijak dipercayai
Terdapat tiga senario untuk alasan yang bertentangan.
Pertama ialah penilaian kesan dasar purata (Off-Policy Evaluation). Untuk dasar tertentu, kami tidak mahu menjalankan ujian AB kerana kos ujian AB adalah terlalu tinggi Oleh itu, menilai kesan dasar ke atas data luar talian adalah bersamaan dengan menguji keseluruhan populasi atau menilai semua sampel, seperti penilaian kesan keseluruhan untuk semua kumpulan pengguna. Yang kedua ialah penilaian kesan individu terhadap strategi (Ramalan Balasan), iaitu meramalkan kesan strategi pada peringkat individu Ia bukan strategi platform keseluruhan, tetapi selepas intervensi tertentu dijalankan keluar untuk individu, akan ada Apakah jenis kesan. Yang ketiga ialah Pengoptimuman Dasar, iaitu cara
memilih intervensi dengan kesan terbaik untuk seseorang individu. Berbeza dengan ramalan kesan individu, ramalan kesan individu adalah terlebih dahulu mengetahui bagaimana untuk campur tangan, dan kemudian meramalkan kesan selepas campur tangan pengoptimuman strategi adalah untuk tidak mengetahui terlebih dahulu bagaimana untuk campur tangan, tetapi untuk mengetahui bagaimana untuk mencapai kesan terbaik selepas campur tangan;
2. Penilaian kesan purata strategi
(1) Gambaran keseluruhan rangka kerja masalah untuk penilaian kesan purata strategiPenilaian kesan purata strategi adalah berdasarkan dasar tingkah laku Π
0(Dasar tingkah laku ) menjana data luar talian D untuk menilai nilai utiliti (Utiliti) dasar Π (Dasar sasaran). Π0 ialah strategi sedia ada, seperti strategi pengesyoran yang telah digunakan dalam sistem pengesyoran sedia ada. Data luar talian D yang dijana di bawah strategi sedia ada mengandungi sekurang-kurangnya tiga dimensi, seperti yang ditunjukkan dalam rajah di atas, x i ialah maklumat latar belakang (Konteks), seperti atribut pengguna dan produk dalam sistem pengesyoran; adalah tingkah laku, Contohnya, sama ada produk dalam sistem pengesyoran telah didedahkan kepada pengguna; sama ada pengguna akhirnya mengklik atau membeli dalam komoditi sistem pengesyoran. Nilai nilai utiliti (Utiliti) bagi dasar baharu Π (Dasar sasaran) berdasarkan data sejarah. Jadi kerangka keseluruhannya ialah dalam konteks tertentu, strategi (dasar) tertentu akan mempunyai tingkah laku atau pembolehubah intervensi (rawatan) yang sepadan Apabila pembolehubah intervensi (rawatan) ini dicetuskan, ia akan menghasilkan keputusan yang sepadan. Antaranya, nilai utiliti (Utiliti) ialah hasil yang dinyatakan di atas Di bawah premis pemudahan, nilai utiliti ialah jumlah hasil yang dijana oleh semua pengguna, atau kesan purata. (2) Kaedah sedia ada untuk penilaian kesan purata strategi The kaedah penilaian kesan purata strategi tradisional adalah berdasarkan kaedah ramalan keputusan (Kaedah Langsung Memandangkan xi di bawah dasar baru (dasar), untuk subjek, adalah disyorkan untuk mendedahkan atau tidak mendedahkan, iaitu, tingkah laku yang sepadan mesti diramalkan). jika ia dilakukan, sama ada pengguna akhir akan membeli atau mengklik, adalah hasil akhir (ganjaran). Tetapi sila ambil perhatian bahawa ganjaran sebenarnya adalah fungsi ramalan, yang diperoleh melalui data sejarah. Taburan bersama (taburan bersama) bagi x, a dan r dalam data sejarah sebenarnya dijana di bawah Π0 Sekarang taburan data yang dijana oleh Π diubah, dan kemudian model ramalan pengedaran bersama yang dijana di bawah Π0 digunakan ramalan, adalah jelas bahawa ini adalah masalah OOD (Out-of-Distribution) Jika model ramalan OOD digunakan kemudian, masalah pengimbangan data boleh dikurangkan Jika model ramalan ID (In-Distribution) digunakan. pada dasarnya pasti akan ada masalah. Ini adalah kaedah tradisional untuk menilai keberkesanan purata strategi.
(3) Kaedah baharu untuk penilaian kesan purata strategi: Penganggar FCB
Data sejarah dijana di bawah keadaan yang diberikan Π0 Untuk mengalih keluar sebab Π0 adalah seperti yang ditunjukkan dalam rajah di atas Taburan data asal P(X), di bawah tindakan Π0, adalah bersamaan dengan menukar P(. X) dibahagikan kepada beberapa sub-taburan P(X|a=1), P(X|a=2), P(X|a=3),..., P(X|a=K), bahawa ialah, berbeza Subset tingkah laku yang sepadan dengan P(X) ialah taburan tidak berat sebelah Setiap kumpulan tingkah laku mempunyai berat sebelah yang disebabkan oleh Π0 Untuk membuang berat sebelah, anda boleh Dengan menimbang semula data sejarah yang dijana oleh Π0, semua sub-taburan selepas pemberatan adalah hampir dengan taburan asal P(X), iaitu sampel ditimbang secara langsung.
Meramalkan kesan akhir strategi baharu berdasarkan data sejarah memerlukan dua langkah. Langkah pertama ialah membuang berat sebelah yang disebabkan oleh strategi asal Π0 dengan menimbang secara langsung sampel seperti yang dinyatakan di atas. Langkah kedua ialah meramalkan kesan strategi baru Π, iaitu menganggarkan kesan akhir berdasarkan sisihan yang disebabkan oleh strategi baru Π, jadi perlu menambah sisihan yang disebabkan oleh strategi baru Π
Oleh itu:
Antaranya,
wi adalah bersamaan dengan langkah pertama untuk mengalih keluar Π0 untuk membawa Sisihan bagi:adalah bersamaan dengan menambah sisihan bagi strategi baharu, supaya keputusan akhir strategi baharu boleh diramalkan Kesan. Kaedah khusus tidak akan diterangkan secara terperinci, tetapi anda boleh merujuk kepada kertas [2].
Kesan penambahbaikan akhir kaedah baharu Penganggar FCB adalah seperti yang ditunjukkan dalam gambar di atas sangat jelas kesannya, sama ada dari segi bias atau RMSE, peningkatan relatifnya adalah lebih kurang 15%-20%. Penganggar FCB adalah jauh lebih baik daripada garis dasar dalam senario berbeza dengan saiz sampel dan dimensi konteks yang berbeza-beza. Kertas kerja berkaitan diterbitkan dalam KDD 2019 [2].
Ramalan kesan individu yang strategik adalah untuk mempertimbangkan sepenuhnya kepelbagaian individu dan secara langsung melaksanakan intervensi berbeza untuk individu, iaitu, menghormati kehendak individu dan melaksanakan intervensi yang berbeza untuk individu yang berbeza.
Kaedah biasa untuk meramalkan kesan individu bagi strategi adalah dengan melakukan pemodelan ramalan secara langsung ke atas individu, iaitu berdasarkan data pemerhatian sejarah: Kemudian model ramalan kontrafaktual dilatih:
Jika anda melakukan analisis regresi atau model serupa secara langsung di bawah pengedaran data sejarah, ya Ada masalah. Kerana ti dan xi dalam data pemerhatian sejarah tidak bebas, pembelajaran langsung (X, T) berkait secara langsung dengan Y Fungsi pemetaan mesti dipengaruhi oleh hubungan antara i, contohnya, ti hendaklah sama dengan 0. Apabila campur tangan dengan T, contohnya, ti Jika ditukar kepada 1, ia sebenarnya tidak lagi mematuhi pengedaran sejarah asal, yang bermaksud model ramalan ID (Dalam Pengedaran) yang dibina di bawah pengedaran data sejarah adalah tidak sah dan mencetuskan OOD (Di luar Pengedaran). Oleh itu, apabila membina apa yang dipanggil model ramalan, adalah perlu untuk menghapuskan korelasi antara X dan T, dan menganggarkan kesan X ke atas Y dan kesan T pada Pengaruh Y, dalam kes ini, jika T campur tangan atau diubah, ia tidak ada kena mengena dengan masalah Distribution).
Pendekatan tradisional
ialah menggunakan pemberat semula sampel ( Sampel Semula pemberat) kaedah untuk menghapuskan perkaitan antara X dan T, terdapat dua kaedah: (1) pemberatan skor kecenderungan songsang, (2) pengimbangan pembolehubah. Walau bagaimanapun, kaedah ini mempunyai had: ia hanya sesuai untuk jenis mudah senario pembolehubah intervensi (rawatan), nilai binari atau diskret. Dalam senario aplikasi sebenar, seperti sistem pengesyoran, pemboleh ubah campur (rawatan) mempunyai dimensi tinggi Produk disyorkan kepada pengguna, dan apa yang disyorkan ialah himpunan, iaitu pengesyoran dibuat daripada banyak produk. Apabila dimensi pembolehubah pencelah (rawatan) adalah sangat tinggi, menggunakan kaedah tradisional untuk menghubungkaitkan pembolehubah pencelah awal (rawatan mentah) dan pembolehubah pencecah (pengganggu) X adalah sangat kompleks, malah ruang sampel tidak mencukupi untuk menyokong dimensi tinggi Pembolehubah campur (rawatan).(3) Kaedah baharu untuk meramal kesan individu strategi: VSR
Jika terdapat pembolehubah terpendam z di bawah pembolehubah campur tangan berdimensi tinggi (rawatan), masalah itu sebenarnya boleh diubah menjadi hubungan antara x dan z De -korelasi, iaitu penyahkaitan dengan faktor terpendam. Dengan cara ini, rawatan bundle boleh dicapai dengan ruang sampel yang terhad. Oleh itu kaedah baru VSR dicadangkan. Dalam kaedah VSR , yang pertama ialah pembelajaran pembolehubah pendam z (pembolehubah pendam z) bagi pembolehubah intervensi berdimensi tinggi (rawatan), iaitu menggunakan autoenkoder variasi (VAE) untuk pembelajaran; kemudian fungsi pemberat w ( x, z), hiaskan x dan z melalui pemberatan semula sampel, akhirnya, secara langsung menggunakan model regresi (model regresi) di bawah taburan korelasi wajaran semula untuk mendapatkan model ramalan A yang lebih ideal untuk kesan individu strategi.
Gambar di atas adalah percubaan kaedah baharu Pengesahan VSR adalah untuk menjana beberapa data melalui simulator Recsim dan beberapa data simulasi buatan dalam beberapa senario untuk pengesahan. Dapat dilihat bahawa di bawah nilai p yang berbeza, prestasi VSR agak stabil, yang sangat bertambah baik berbanding kaedah lain. Kertas kerja berkaitan diterbitkan dalam NeurIPS 2020 [3].
Strategi Pengoptimuman pada asasnya berbeza daripada dua penilaian ramalan sebelumnya. Penilaian ramalan adalah untuk memberikan strategi (dasar) atau intervensi peribadi (rawatan individu) terlebih dahulu untuk meramalkan keputusan akhir. Pengoptimuman strategi, juga dipanggil pembelajaran strategi, hanya mempunyai satu matlamat: menjadi lebih besar. Sebagai contoh, jika pendapatan ingin meningkat, apakah jenis intervensi yang perlu dilaksanakan.
Sekiranya kini terdapat model ramalan peringkat individu lawan fakta f, iaitu a model ramalan Kesan individu strategik f, iaitu, diberi xi dan ti, hasil yang sepadan boleh dianggarkan, kemudian Traverse T dan tentukan nilai t yang diambil apabila f mempunyai nilai terbesar. Ia bersamaan dengan membina ruang ramalan yang lebih baik dan "mensasarkan tempat untuk memukul" dalam ruang ramalan.
Walau bagaimanapun, terdapat masalah dalam mengurangkan masalah pengoptimuman dasar kepada pembinaan model ramalan untuk kesan individu polisi tersebut. Matlamat strategi ramalan kesan individu, seperti yang dinyatakan di atas, sebenarnya bersamaan dengan intervensi yang diberikan, dengan harapan bahawa ralat antara situasi ramalan kontrafaktual dan situasi sebenar adalah sekecil mungkin, dan untuk semua intervensi yang diberikan, kami berharap dapat membandingkan tepat. Matlamat pengoptimuman strategi adalah untuk mencari pf titik jauh dari situasi sebenar Dari perspektif Tuhan, semakin kecil jarak antara keputusan keputusan yang optimum, lebih baik Ia bukan persoalan meramalkan kesan individu strategi di seluruh ruang, tetapi sama ada ia mungkin untuk mencari wilayah yang dekat dengan. titik optimum, dan sama ada ia boleh diramalkan dengan tepat. Pengoptimuman strategi dan ramalan kesan individu strategi mempunyai matlamat yang berbeza, dan terdapat perbezaan yang jelas.
Seperti yang ditunjukkan dalam rajah kes di atas, paksi mendatar ialah campur tangan yang berbeza (rawatan ) , garis hijau adalah fungsi sebenar dari perspektif Tuhan, mencerminkan hasil sebenar di bawah campur tangan tertentu, garis merah dan garis biru mencerminkan keputusan di bawah dua model ramalan. Dari perspektif menilai ramalan kesan individu strategi, adalah jelas bahawa garis biru adalah lebih baik daripada garis merah Sisihan keseluruhan garis biru dari garis hijau adalah jauh lebih kecil daripada sisihan keseluruhan garis merah garisan hijau. Tetapi dari perspektif membuat keputusan yang optimum, hasil optimum garis merah adalah lebih dekat dengan hasil optimum garis hijau dari perspektif Tuhan, dan campur tangan yang sepadan juga lebih dekat, manakala garis biru jelas lebih jauh. Oleh itu, model ramalan kesan individu strategi yang lebih baik mungkin tidak semestinya membawa kepada keputusan yang optimum dan dalam senario sebenar, jumlah data biasanya tidak mencukupi Untuk mengoptimumkan dalam keseluruhan ruang, adalah lebih baik untuk hanya melakukan pengoptimuman dari perspektif hasil . Apabila mengoptimumkan dalam sub-kawasan, kesan dan keamatan pengoptimuman adalah berbeza.
Oleh itu, kaedah baharu pengoptimuman strategik OOSR dicadangkan, dengan tujuan mengukuhkan kawasan intervensi dengan ramalan dan pengoptimuman keputusan yang lebih baik usaha, bukannya mengoptimumkan di seluruh ruang. Oleh itu, apabila melakukan pengoptimuman, apabila melakukan pemberatan berorientasikan hasil, semakin hampir intervensi semasa dengan penyelesaian optimum yang diberikan yang telah dilatih, semakin besar usaha pengoptimuman .
Gambar di atas adalah pengesahan percubaan OOSR dapat dilihat bahawa peningkatan daripada semua sudut Mereka semua sangat jelas, dengan beberapa kali peningkatan, dan selepas menukar intensiti berat sebelah pemilihan, kesannya masih sangat baik. Kertas kerja berkaitan diterbitkan dalam ICML 2022 [4].
5 Ringkasan penaakulan kontrafaktualSama ada penilaian strategi, pengoptimuman strategi atau ramalan kesan individu strategi, kami sebenarnya menggunakan kausaliti untuk mengetahui lebih lanjut tentang keputusan, membuat keputusan berprestasi lebih baik atau membuat keputusan lebih diperibadikan. Sudah tentu, terdapat banyak soalan terbuka untuk senario yang berbeza.
3 Faedah kompleks dalam membuat keputusan pintar yang dipercayai sedang mengkaji pulangan kompleks, iaitu: Apabila mempertimbangkan senario, seperti sistem pengesyoran, pengguna berharap produk atau maklumat yang disyorkan akan dibeli atau diklik Pada masa yang sama, beberapa insentif akan dilaksanakan, seperti pengurangan harga atau maklum balas sampul merah, dsb. adalah banyak strategi operasi perniagaan yang serupa Walaupun jualan telah meningkat dalam jangka pendek dan kesan penambahbaikan adalah ketara, dalam jangka panjang tidak ada perubahan yang sangat ketara Maksudnya, banyak rangsangan komersial tidak mengubah keadaan anda bukan nak beli ke orang yang nak beli, tapi jumlah permintaan asal dalam sebulan kuantiti 4 helai, jadi saya beli semua 4 helai sekali gus disebabkan pengurangan harga ini. Oleh itu, apabila mengoptimumkan model, kita bukan sahaja harus mempertimbangkan faedah jangka pendek, tetapi juga mempertimbangkan manfaat jangka pendek dan jangka panjang untuk mengoptimumkan strategi bersama-sama.
Ingin Terdapat dua aspek yang sangat penting untuk mengambil kira manfaat jangka pendek dan jangka panjang serta mengoptimumkan strategi bersama. Pertama, kita perlu mempunyai pemahaman yang lebih mendalam tentang model pilihan pengguna. Apabila pengguna diberikan, tidak ada cara untuk mendapatkan model pilihan pengguna yang sebenar. Ia perlu diterokai secara berterusan melalui penyelidikan dan perlombongan Satu adalah untuk meneroka model pilihan pengguna, dan yang lain adalah untuk meneroka apa yang berlaku di bawah pilihan pengguna memaksimumkan keuntungan jangka panjang, keuntungan jangka pendek, dan keseimbangan antara keduanya. Kerja di kawasan ini ditunjukkan dalam dua rajah di atas dan tidak akan dibincangkan lebih lanjut.
Berdasarkan kesan akhir, seperti yang ditunjukkan dalam gambar di atas, terdapat peningkatan ketara dalam hasil dalam banyak senario kehidupan sebenar. Kertas kerja berkaitan diterbitkan dalam NeurIPS 2022 [5].
4 Kesaksamaan ramalan dalam membuat keputusan bijak yang dipercayai
<.>Jika ramalan ingin terlibat dalam membuat keputusan, terutamanya keputusan berorientasikan sosial, kewajaran ramalan mesti diambil kira.
Mengenai keadilan, kaedah tradisional ialah DP dan EO, yang memerlukan kebarangkalian penerimaan lelaki dan wanita adalah sama, atau mempunyai kuasa ramalan yang sama untuk lelaki dan wanita, ini adalah penunjuk yang agak klasik. Tetapi DP dan EO pada dasarnya tidak dapat menyelesaikan isu keadilan.
Sebagai contoh, dalam kes kemasukan universiti, secara teorinya kadar kemasukan lelaki dan perempuan di setiap jabatan hendaklah sama, tetapi sebenarnya, secara keseluruhan, ia akan didapati bahawa kadar kemasukan kanak-kanak perempuan Kadar kemasukan adalah rendah, yang sebenarnya adalah sejenis paradoks Simpson. Kemasukan universiti pada asasnya adalah kes yang adil, tetapi apabila dikesan oleh penunjuk DP, ia akan dianggap tidak adil. Sebenarnya, DP bukanlah penunjuk keadilan yang sangat sempurna. Model EO Pada dasarnya, jantina memang mengambil bahagian dalam membuat keputusan, tetapi dalam senario yang tidak adil, jika terdapat peramal yang sempurna untuk lelaki dan wanita, ia dianggap adil. Ini menunjukkan bahawa kadar diskriminasi EO tidak mencukupi.
Konsep keadilan bersyarat telah dicadangkan pada tahun 2020. Keadilan bersyarat tidak secara mutlak memastikan bahawa keputusan akhir adalah bebas daripada atribut sensitif, tetapi berdasarkan pembolehubah keadilan tertentu, keputusan akhir dianggap adil jika ia bebas daripada atribut sensitif. Sebagai contoh, pemilihan utama adalah adil dan pembolehubah yang adil, kerana ia boleh diputuskan oleh inisiatif subjektif pelajar, dan tidak ada isu keadilan.Berbuat demikian membawa banyak faedah. Dari perspektif ramalan, sebenarnya terdapat pertukaran antara kesaksamaan dan ramalan Iaitu, semakin kukuh keperluan kesaksamaan, semakin sedikit pembolehubah ramalan akan tersedia. Contohnya, di bawah rangka kerja EO, selagi pembolehubah berada pada pautan daripada jantina kepada keputusan membuat keputusan, ia tidak boleh digunakan, jika digunakan, banyak pembolehubah sebenarnya akan mempunyai kecekapan ramalan yang sangat tinggi, tetapi tidak boleh membuat ramalan. Walau bagaimanapun, di bawah kesaksamaan bersyarat, berdasarkan pembolehubah kesaksamaan, kecekapan ramalan boleh dijamin tersedia tanpa mengira sama ada pada pautan atau tidak.
Di bawah rangka kerja ini, model algoritma DCFR direka dan dicadangkan, seperti yang ditunjukkan dalam tiga rajah berikut.
Rajah berikut menunjukkan pengesahan percubaan algoritma DCFR. Pada keseluruhannya, algoritma DCFR boleh mencapai kompromi yang lebih baik antara ramalan dan keadilan Dari perspektif keoptimuman Pareto, lengkung kiri atas sebenarnya lebih baik. Kertas kerja berkaitan diterbitkan dalam KDD 2020 [6].
Kini platform mempunyai banyak mekanisme harga yang diperibadikan. Pada dasarnya, penetapan harga yang diperibadikan boleh memaksimumkan jumlah kecekapan dan jumlah lebihan masyarakat. Tetapi dalam beberapa kes yang melampau, pedagang akan mengambil semua lebihan tanpa meninggalkan apa-apa lebihan untuk pengguna Ini adalah sesuatu yang kami tidak mahu lihat.
Keseluruhannya nampaknya tujuannya adalah untuk merangka strategi yang membolehkan perniagaan memindahkan sebahagian daripada lebihan yang boleh dianggap sebagai kekayaan kepada pengguna tanpa jumlah lebihan sosial terjejas dengan banyak.
Reka bentuk akhir Kaedah kawalan telah dibangunkan untuk menyelesaikan masalah ini, seperti yang ditunjukkan dalam rajah di bawah. Iaitu, sebagai contoh, untuk produk yang sama, harga maksimum dan harga minimum tidak boleh melebihi satu, atau tidak boleh melebihi nisbah tertentu. Secara teorinya boleh dibuktikan bahawa peraturan yang direka bentuk dengan cara ini boleh mencapai matlamat pengoptimuman yang dinyatakan di atas.
Di sini senario ini, pada asasnya dengan menambah beberapa kekangan kepada fungsi pendapatan, satu lagi tahap pertimbangan mesti dipertimbangkan semasa membuat keputusan. Oleh itu, di bawah sistem ini, beberapa strategi atau alat yang berkaitan dengan penyeliaan boleh ditambah.
6. Ringkasan pembuatan keputusan pintar yang dipercayai
PS: Untuk banyak butiran teknikal yang terlibat dalam artikel ini, anda boleh merujuk kepada kertas kerja baru-baru ini yang diterbitkan oleh pasukan Cui Peng ke arah cerdik pandai yang dipercayai membuat keputusan. [1] Jon Kleinberg, Jens Ludwig, Sendhil Mullainathan, Ziad Obermeyer Masalah. AER, 2015. [2] Hao Zou, Kun Kuang, Boqi Chen, Peng Cui, Peixuan Chen Pengimbangan Konteks Berfokus untuk Penilaian Dasar Luar Talian, 2019. [3] Hao Zou, Peng Cui, Bo Li, Zheyan Shen, Jianxin Ma, Hongxia Yang, Yue He untuk Rawatan Bundle. 2020. [4] Hao Zou, Bo Li, Jiangang Han, Shuiping Chen, Xuetao Ding, Peng Cui untuk Rawatan Berorientasikan Hasil, 2022 . [5] Renzhe Xu, Xingxuan Zhang, Bo Li, Yafeng Zhang, Xiaolong Chen, Peng Cui Kedudukan Produk untuk Memaksimumkan Hasil dengan Berbilang Pembelian. 2022. [6] Renzhe Xu, Peng Cui, Kun Kuang, Bo Li, Linjun Zhou, Zheyan Shen dan Wei Cui Pembuatan Keputusan Algoritma dengan KDD Bersyarat , 2020. [7] Renzhe Xu, Xingxuan Zhang, Peng Cui, Bo Li, Zheyan Shen, Jiazheng Xu Instrumen Kawal Selia untuk Harga Peribadi Adil, 2022. 7. Rujukan
Atas ialah kandungan terperinci Cui Peng, Universiti Tsinghua: Rangka kerja dan amalan membuat keputusan pintar yang boleh dipercayai. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!