Rumah >Peranti teknologi >AI >Rakan-rakan anda juga menonton! Algoritma Google STUDY menyokong sistem pengesyoran senarai buku untuk membuatkan pelajar jatuh cinta dengan membaca
Membuka buku bermanfaat, inilah yang selalu kita fahami. Membaca boleh membantu orang ramai meningkatkan kemahiran bahasa mereka dan mempelajari kemahiran baru....
Membaca juga boleh meningkatkan mood dan meningkatkan kesihatan mental. Orang yang kerap membaca mempunyai pengetahuan am yang lebih besar dan pemahaman yang lebih mendalam tentang budaya lain.
Selain itu, kajian telah membuktikan bahawa keseronokan membaca adalah berkaitan dengan kejayaan akademik.
Tetapi dalam era ledakan maklumat, terdapat banyak sumber bacaan dalam talian dan luar talian. Apa yang perlu dibaca menjadi cabaran yang sukar.
Secara khususnya, kandungan bacaan mestilah sepadan dengan kumpulan umur yang berbeza dan menarik.
Dan sistem pengesyoran adalah penyelesaian kepada cabaran ini. Ia memberikan pembaca bahan bacaan yang relevan dan membantu mereka terus berminat.
Inti sistem pengesyoran ialah pembelajaran mesin (ML), yang digunakan secara meluas dalam membina pelbagai jenis sistem pengesyoran: daripada video kepada buku kepada platform e-dagang.
Model ML terlatih boleh membuat pengesyoran kepada setiap pengguna secara individu berdasarkan pilihan pengguna, penglibatan pengguna dan item yang disyorkan, dengan itu meningkatkan pengalaman pengguna.
Penyelidikan terbaharu Google mencadangkan sistem pengesyoran kandungan buku audio yang mengambil kira sifat sosial pembacaan (seperti persekitaran pendidikan): algoritma KAJIAN.
Memandangkan perkara yang sedang dibaca oleh rakan sebaya seseorang boleh memberi kesan yang ketara pada perkara yang mereka minati untuk membaca, Google telah bekerjasama dengan Learning Ally.
Learning Ally ialah organisasi bukan untung pendidikan dengan perpustakaan digital besar buku audio susun atur untuk pelajar, sesuai untuk membina model pengesyoran sosial.
Ini membolehkan model mendapat manfaat daripada maklumat masa nyata tentang kumpulan sosial setempat pelajar (seperti bilik darjah).
Algoritma KAJIAN menggunakan kaedah memodelkan masalah kandungan yang disyorkan sebagai masalah ramalan kadar klik lalu.
di mana kebarangkalian interaksi pengguna simulasi dengan setiap item tertentu bergantung pada:
1) Ciri pengguna dan item
2) Urutan sejarah interaksi item pengguna.
Kerja sebelum ini telah menunjukkan bahawa model Transformer sangat sesuai untuk memodelkan masalah ini.
Apabila merawat setiap pengguna secara individu, simulasi interaksi menjadi masalah pemodelan jujukan autoregresif.
Algoritma KAJIAN ialah produk akhir pemodelan data melalui rangka kerja konsep ini dan kemudian melanjutkan rangka kerja ini.
Masalah ramalan kadar klik lalu boleh memodelkan kebergantungan antara pilihan item masa lalu dan masa hadapan pengguna individu, dan mempelajari corak persamaan antara pengguna pada masa latihan.
Tetapi satu masalah ialah kaedah ramalan kadar klik lalu tidak boleh memodelkan kebergantungan antara pengguna yang berbeza.
Untuk tujuan ini, Google membangunkan model KAJIAN, yang boleh menyelesaikan kelemahan pemodelan jujukan autoregresif yang tidak dapat memodelkan sifat sosial membaca.
KAJIAN boleh menyambungkan jujukan buku yang dibaca oleh berbilang pelajar dalam satu kelas kepada satu urutan, dengan itu mengumpul data daripada berbilang pelajar dalam satu model.
Walau bagaimanapun, perwakilan data ini perlu dikaji dengan teliti semasa memodelkannya dengan Transformer.
Dalam Transformer, topeng perhatian ialah matriks yang mengawal input yang boleh digunakan untuk meramalkan output yang mana.
Corak penggunaan semua token sebelumnya dalam jujukan untuk memaklumkan ramalan output menghasilkan matriks perhatian segi tiga atas, yang biasanya ditemui dalam penyahkod sebab.
Walau bagaimanapun, oleh kerana input jujukan ke dalam model KAJIAN tidak dalam susunan kronologi, walaupun setiap jujukan komponennya dalam susunan kronologi, penyahkod sebab-musabab tradisional tidak lagi sesuai untuk jujukan ini.
Dalam cuba meramalkan setiap token, model tidak membenarkan perhatian beralih kepada setiap token yang muncul di hadapannya dalam urutan; beberapa token ini mungkin mempunyai cap masa kemudian dan mengandungi maklumat yang tidak tersedia pada masa penggunaan .
Gambar
Topeng perhatian yang biasa digunakan dalam penyahkod kausal. Setiap lajur mewakili output, dan setiap lajur mewakili output. Entri matriks dengan nilai 1 (ditunjukkan dalam warna biru) pada kedudukan tertentu menunjukkan bahawa model boleh memerhati input untuk baris tersebut apabila meramalkan output lajur yang sepadan, manakala nilai 0 (ditunjukkan dalam warna putih) menunjukkan sebaliknya . Model
STUDY adalah berdasarkan pengubah penyebab yang menggantikan topeng perhatian matriks segi tiga dengan topeng perhatian berasaskan cap masa yang fleksibel, membenarkan perhatian merentas urutan yang berbeza.
Berbanding dengan penukar biasa, model KAJIAN mengekalkan matriks perhatian segi tiga sebab dalam urutan dan mempunyai nilai fleksibel dalam jujukan berbeza yang bergantung pada cap waktu.
Oleh itu, ramalan untuk mana-mana titik keluaran dalam jujukan akan merujuk kepada semua titik input yang berlaku pada masa lalu berbanding dengan titik masa semasa, tidak kira sama ada ia berlaku sebelum atau selepas titik input semasa dalam jujukan.
Kekangan penyebab ini penting kerana jika kekangan ini tidak dikuatkuasakan semasa latihan, model mungkin belajar menggunakan maklumat masa depan untuk membuat ramalan, yang tidak mungkin berlaku dalam penggunaan dunia sebenar.
Gambar
(a) Transformer autoregresif berjujukan dengan perhatian sebab, yang boleh mengendalikan setiap pengguna secara individu; Dengan memperkenalkan nilai bukan sifar baharu dalam topeng perhatian (ditunjukkan dalam warna ungu), maklumat dibenarkan mengalir antara pengguna. Untuk melakukan ini, kami membenarkan ramalan bersyarat pada semua interaksi dengan cap masa yang lebih awal, tidak kira sama ada interaksi itu daripada pengguna yang sama
Google menggunakan set data Learning Ally untuk melatih model KAJIAN, menggunakan berbilang garis dasar Buat perbandingan.
Pasukan menggunakan penyahkod CTR autoregresif (dipanggil "individu"), garis dasar jiran terdekat (KNN) dan garis dasar sosial yang setanding - Rangkaian Memori Perhatian Sosial (SAMN).
Mereka menggunakan data dari tahun akademik pertama untuk latihan dan data dari tahun akademik kedua untuk pengesahan dan ujian.
Pasukan menilai model ini dengan mengukur peratusan masa item seterusnya yang sebenarnya berinteraksi dengan pengguna berada dalam cadangan n teratas model.
Selain menilai model pada keseluruhan set ujian, pasukan juga melaporkan skor model pada dua subset set ujian yang lebih mencabar daripada keseluruhan set data.
Dapat diperhatikan bahawa pelajar biasanya berinteraksi dengan buku audio beberapa kali, jadi hanya mengesyorkan buku terakhir yang dibaca oleh pengguna adalah remeh.
Oleh itu, penyelidik memanggil subset ujian pertama "bukan sambungan". Dalam subset ini, kami hanya meneliti prestasi pengesyoran setiap model apabila pelajar berinteraksi dengan buku yang berbeza daripada interaksi sebelumnya.
Selain itu, pasukan juga memerhatikan bahawa pelajar akan menyemak buku yang telah mereka baca pada masa lalu, jadi buku yang disyorkan untuk setiap pelajar adalah terhad kepada buku yang telah mereka baca pada masa lalu, yang boleh dilakukan pada ujian set Mencapai prestasi yang hebat.
Walaupun mungkin terdapat beberapa nilai dalam mengesyorkan pelajar buku kegemaran mereka dari masa lalu, banyak nilai sistem pengesyoran datang daripada mengesyorkan kandungan baharu yang tidak diketahui kepada pengguna.
Untuk mengukur ini, pasukan menilai model pada subset set ujian di mana pelajar berinteraksi dengan bibliografi buat kali pertama. Kami menamakan subset penilaian ini "subset baharu".
Boleh didapati bahawa "KAJIAN" adalah lebih baik daripada model lain dalam hampir semua penilaian. .
Para penyelidik mengkaji kepentingan pengumpulan praktikal mengenai prestasi model melalui kajian ablasi.
Kami kemudiannya bereksperimen dengan kumpulan yang ditakrifkan oleh semua pelajar dalam gred dan daerah yang sama, serta mengumpulkan semua pelajar ke dalam satu kumpulan dan menggunakan subset rawak pada setiap hantaran hadapan.
Para penyelidik juga membandingkan model ini dengan model "peribadi" untuk rujukan.
Kajian mendapati bahawa menggunakan lebih banyak kumpulan setempat adalah lebih berkesan, iaitu kumpulan sekolah dan gred adalah lebih baik daripada kumpulan daerah dan gred sekolah.
Ini menyokong hipotesis bahawa model penyelidikan berjaya kerana aktiviti seperti membaca adalah sosial: pilihan membaca orang mungkin berkait rapat dengan pilihan membaca orang di sekeliling mereka.
Kedua-dua mod mengatasi dua mod lain (mod kumpulan tunggal dan mod individu) tanpa menggunakan tahap gred untuk mengumpulkan pelajar.
Ini menunjukkan bahawa data daripada pengguna yang mempunyai tahap bacaan dan minat yang sama bermanfaat untuk meningkatkan prestasi model.
Akhirnya, kajian Google ini terhad kepada pemodelan kumpulan pengguna dengan mengandaikan bahawa hubungan sosial adalah homogen.
Rujukan:
https://www.php.cn/link/0b32f1a9efe5edf3dd2f38b0c0052bfe
Atas ialah kandungan terperinci Rakan-rakan anda juga menonton! Algoritma Google STUDY menyokong sistem pengesyoran senarai buku untuk membuatkan pelajar jatuh cinta dengan membaca. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!