Rumah > Artikel > Peranti teknologi > Untuk menyelamatkan AI yang telah melakukan kesilapan, anda tidak boleh hanya bergantung pada pukulan dan cacian.
Banyak kajian mendapati bahawa AI sangat tidak tahu malu sehingga ia telah belajar untuk mendiskriminasi antara jantina.
Bagaimana ini boleh dilakukan?
Baru-baru ini, kajian oleh Tsinghua & Fudan memberikan cadangan untuk ini:
Jika anda ingin menyeret AI kembali dari jalan seksisme, teguran tidak akan berkesan .
Cara terbaik ialah fahami kenapa anak jadi begini, kemudian beri ubat dan alasan yang betul.
Sebab jika anda hanya mengajar tanpa munasabah dan betul dengan ganas, AI akan takut dan bodoh (prestasi akan menurun)!
Ya tuhan, sukar untuk membesarkan binatang pemakan emas berkaki empat Adakah begitu sukar untuk membesarkan anak siber (xun).
Mari kita lihat cadangan kumpulan "jururawat dan bapa" AI ini untuk latihan kanak-kanak.
Sebelum ini, bukan tiada siapa yang menangkap telinga AI yang telah ketinggalan, cuba membuang tabiat buruk itu. mengutamakan lelaki daripada perempuan.
Walau bagaimanapun, kebanyakan kaedah debias semasa akan merendahkan prestasi model pada tugasan lain.
Sebagai contoh, jika anda membiarkan AI melemahkan diskriminasi jantina, ia akan menghasilkan keputusan yang menjengkelkan berikut:
Ia sama ada tidak akan dapat mengetahui sama ada jantina "ayah" adalah lelaki atau perempuan , atau ia akan membuat kesilapan tatabahasa, terlupa memberi +s kepada kata kerja yang mengikuti orang ketiga.
Apa yang lebih menjengkelkan ialah mekanisme degradasi ini belum lagi difahami.
Jika tidak, semua orang hanya perlu meninggalkan model dengan berat sebelah jantina yang jelas——
Pada 2018, Amazon mendapati model yang digunakan untuk menyaring resume secara automatik didiskriminasi terhadap pencari kerja wanita, jadi sistem ini Tersembunyi di dalam salji .
Jika tidak, anda perlu menanggung kemerosotan prestasi.
Adakah ini bermakna jika anda mahu AI tidak lagi menjadi kesilapan AI atau masalah AI, maka AI pasti akan hilang akal?
Penyelidikan Tsinghua & Fudan mengatakan tidak terhadap perkara ini.
Bidang penyelidikan mereka ialah model bahasa pra-latihan.
Ini kerana ia menunjukkan kuasa ajaib dalam pelbagai tugas NLP dan mempunyai banyak senario praktikal.
Ia bukan idea yang baik apabila ia digunakan dalam kerja sosial seperti pengiklanan dalam talian, sistem saringan resume automatik dan pendidikan dengan berat sebelah jantina.
Penyelidikan mencadangkan rangka kerja teori untuk asal bias jantina AI, rangka kerja kausal, yang digunakan untuk menerangkan bagaimana ketidakseimbangan data membawa kepada berat sebelah jantina dalam model semasa proses pra-latihan.
Mereka mentakrifkan bias jantina model pra-latihan apabila melaksanakan tugas ramalan tertentu seperti berikut:
Di mana, M ialah model, Y ialah untuk menggunakan M Untuk perkataan yang diramalkan, B ialah darjah bias jantina bagi M.
Y0|W ialah kebenaran asas, kebarangkalian untuk menjadi perkataan berkaitan lelaki atau perkataan berkaitan perempuan adalah separuh, Y|W ialah ramalan M.
Jika ramalan Y M tidak seimbang dan diagihkan antara jantina, maka model M mempunyai berat sebelah jantina dalam meramalkan Y0 berdasarkan w.
Semasa proses pra-latihan, algoritma pengoptimuman menentukan parameter dalam bahagian benam dan K berdasarkan data pra-latihan D.
Oleh itu, ketidakseimbangan data D mengelirukan model untuk mendapatkan parameter yang salah.
Sebagai contoh, jika perkataan "doktor" dalam data latihan lebih kerap dikaitkan dengan kosa kata lelaki, model akan menganggap bahawa "doktor" dikaitkan dengan "jantina lelaki".
Pernahkah anda melihat segi tiga ini. Mari gunakannya untuk menjelaskan mengapa kaedah semasa membetulkan AI akan menjadikannya bodoh.
Apabila menggunakan model pra-latihan untuk meramalkan Y berdasarkan W, model mula-mula menukar W kepada X yang diekstrak, dan kemudian menentukan min bagi Y berdasarkan X dan K .
Disebabkan parameter yang mengelirukan dalam bahagian selam, W telah ditukar kepada X yang salah dan K juga salah.
Selepas satu operasi, X yang salah dan K yang salah bersama-sama membawa kepada ralat Y.
Kesilapan ini, dan interaksinya, membawa kepada berat sebelah jantina melalui tiga mekanisme yang berpotensi.
Dalam erti kata lain, pada ketika ini, berat sebelah jantina telah timbul.
Bagaimanakah kaedah debiasing semasa untuk AI pendidikan berfungsi?
Semua kaedah debias semasa campur tangan dalam satu atau dua daripada tiga mekanisme.
Butirannya adalah seperti berikut:
Selepas menjelaskan dilema prestasi berat sebelah yang wujud dalam kaedah debiasing semasa, pasukan cuba mencadangkan kaedah penalaan halus.
Mereka mendapati bahawa antara tiga mekanisme, D→X→Y adalah satu-satunya yang membawa kepada berat sebelah jantina dan tiada kaitan dengan pengubah.
Jika kaedah penalaan halus hanya membetulkan bias melalui D→X→Y, ia boleh mengurangkan berat sebelah jantina sambil mengekalkan prestasi model.
Berdasarkan teorem penguraian, pasukan menjalankan eksperimen berangka.
Ternyata pendekatan ini boleh membayar dividen berganda:
Kurangkan sedikit berat sebelah jantina sambil mengelakkan kemerosotan prestasi.
Selepas percubaan, ahli pasukan menemui sumber bias jantina AI dalam dua seni bina model pra-latihan: pembenaman perkataan dan penukaran.
Menurut ini, pasukan penyelidik mencadangkan kaedah C4D, yang mengurangkan berat sebelah jantina dengan melaraskan pembenaman penanda.
Idea teras kaedah ini adalah untuk mengurangkan fungsi TDE dengan membetulkan X yang sesat, dengan itu mengurangkan jumlah sisihan.
Walaupun pasukan tidak tahu apakah pembenaman penanda yang betul, mereka membangunkan kaedah berasaskan kecerunan untuk membuat kesimpulan kebenaran asas.
Semuanya sudah sedia, pasukan menggunakan kaedah C4D pada keputusan debiasing ujian GPT-2.
Keputusan menunjukkan bahawa antara semua kaedah ujian, kaedah C4D mempunyai kekeliruan paling rendah pada GPT-2 kecil, sederhana dan sangat besar.
Dalam GPT-2 berskala besar, kebingungan C4D menduduki tempat kedua, hanya 0.4% lebih teruk daripada skor tertinggi.
Selain itu, kaedah dengan skor tertinggi mempunyai kesan debiasing yang lebih rendah terhadap diskriminasi jantina berbanding C4D.
Pada set data GLUE, kaedah C4D mencapai skor purata tertinggi.
Ini menunjukkan bahawa C4D boleh mengurangkan berat sebelah jantina dengan ketara dan mengekalkan prestasi model.
Selepas mendengar begitu banyak pengenalan teori, mari lihat ilustrasi untuk mendapatkan rasa intuitif.
Dalam tiga gambar di bawah, titik biru mewakili berat sebelah lelaki tersembunyi, dan titik merah mewakili berat sebelah wanita.
Gambar (a) ialah pemahaman asal AI; Gambar (b) ialah pemahaman AI selepas manusia memarahi mereka tanpa tujuan faham.
Dalam rajah (b) dan (c), pembenaman bias lelaki dan berat sebelah perempuan adalah lebih tertumpu, yang bermaksud tahap berat sebelah adalah lebih rendah.
Pada masa yang sama, dapat diperhatikan bahawa benam dalam rajah (c) masih mengekalkan topologi dalam rajah (a), itulah sebabnya kaedah C4D dapat mengekalkan prestasi model.
Penyelidik: Ia juga mungkin dapat mengurangkan berat sebelah lain dalam AI
“Walaupun kaedah ini berkesan dapat mengurangkan kecenderungan jantina AI dalam model bahasa, ia masih tidak mencukupi untuk menghapuskannya sepenuhnya.”
——Penyelidik menunjukkan isu ini dengan jujur.
Jika anda ingin membetulkan lagi kecenderungan AI tanpa mengurangkan prestasi AI, anda perlu memahami dengan lebih baik mekanisme model bahasa.
Bagaimanakah kita boleh memahaminya dengan lebih baik?
Di satu pihak, kami menggunakan "kaedah C4D" yang dicadangkan dalam kajian ini untuk menguji bias lain dalam AI.
Objek kajian utama eksperimen ini ialah: berat sebelah jantina di tempat kerja.
Malah, kerana AI sentiasa mempelajari segala jenis maklumat sebelum ini, ia adalah jenis yang menerima semua pendatang Akibatnya, jika tidak berhati-hati, ia juga mendapat diskriminasi agama, anti-hitam dan masalah sosial putih dan lain-lain yang wujud... …
Jadi, anda juga boleh pergi ke GPT-2 dan menguji kesan akhir untuk menghapuskan berat sebelah lain.
Sebaliknya, anda boleh mencuba "kaedah C4D" pada pelbagai model besar.
Selain GPT-2 yang digunakan dalam kajian ini, model pra-latihan NLP klasik BERT yang dibangunkan oleh Google juga merupakan senario ujian yang baik.
Walau bagaimanapun, jika anda ingin memindahkannya ke model lain, anda perlu menjana semula templat pembetulan dan anda mungkin perlu menggunakan fungsi TDE (Template Driven Extraction) berbilang pembolehubah.
Dengan menggunakan fungsi TDE, anda boleh terus memasukkan kandungan ke dalam indeks tanpa mengubah suai struktur dokumen.
Sesetengah netizen datang dengan kepala anjing:
Secara umumnya, tidak dapat dielakkan untuk menjadi "AI yang tersandung" apabila memasuki masyarakat.
Tetapi jika anda ingin membalikkan anak yang hilang dari "AI yang tersilap", cari kaedah dan alasan yang betul dengannya, ia akan tetap mendapat hasil yang baik~
Selain itu, salah satu daripada ahli pasukan penyelidik, Yu Yang dari Universiti Tsinghua Di Weibo peribadinya, beliau menyatakan bahawa tapak web untuk menyoal diskriminasi jantina dalam model AI akan dilancarkan dalam masa dua hari akan datang.
Anda boleh menantikannya!
Alamat kertas: https://arxiv.org/abs/2211.07350 Pautan rujukan: https://weibo.com/1645372340/Mi4E43PUY#comment
Atas ialah kandungan terperinci Untuk menyelamatkan AI yang telah melakukan kesilapan, anda tidak boleh hanya bergantung pada pukulan dan cacian.. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!