Rumah >Peranti teknologi >AI >Untuk menggunakan niat pengguna berbilang peringkat dengan berkesan, Universiti Sains dan Teknologi Hong Kong, Universiti Peking, dll. mencadangkan model cadangan sesi baharu Atten-Mixer
Sebagai teknologi penapisan maklumat pintar, sistem pengesyoran telah digunakan secara meluas dalam senario sebenar. Walau bagaimanapun, kejayaan sistem pengesyoran selalunya berdasarkan sejumlah besar data pengguna, yang mungkin melibatkan maklumat peribadi dan sensitif pengguna. Dalam senario di mana maklumat pengguna dihadkan oleh perlindungan privasi atau tidak boleh diperolehi, sistem pengesyoran tradisional sering gagal berfungsi dengan baik. Oleh itu, bagaimana untuk membina sistem pengesyoran yang boleh dipercayai sambil memastikan privasi dan keselamatan adalah masalah yang mendesak untuk diselesaikan.
Dalam beberapa tahun kebelakangan ini, apabila pengguna memberi lebih perhatian kepada privasi mereka sendiri, semakin ramai pengguna cenderung menggunakan platform dalam talian tanpa Melakukan operasi log masuk , yang turut menjadikan pengesyoran berasaskan sesi tanpa nama sebagai hala tuju penyelidikan yang penting. Baru-baru ini, penyelidik dari Universiti Sains dan Teknologi Hong Kong, Universiti Peking, Microsoft Asia Research dan institusi lain telah mencadangkan model baharu Atten-Mixer yang menggunakan niat pengguna pelbagai peringkat dengan cekap. Kertas penyelidikan itu mendapat penghormatan untuk Kertas Terbaik di WSDM2023.
Pautan kertas : https://dl.acm.org/doi/abs/10.1145/3539597.3570445
Latar belakang penyelidikan
Pengesyoran berasaskan sesi (SBR) ialah kaedah membuat pengesyoran berdasarkan sesi pendek dan dinamik pengguna (iaitu, jujukan tingkah laku pengguna).
Berbanding dengan sistem pengesyoran berasaskan pengguna atau item tradisional, SBR lebih memfokuskan pada menangkap keperluan segera pengguna dalam sesi semasa dan boleh dengan lebih tepat Cabaran untuk menyesuaikan diri secara berkesan dengan evolusi pesat minat pengguna dan kesan ekor panjang.
Dalam evolusi model SBR, daripada model berdasarkan Recurrent Neural Network (RNN) kepada model berdasarkan rangkaian neural convolutional (Convolutional Model Rangkaian Neural, CNN), dan dalam penyelidikan SBR baru-baru ini, model berdasarkan Rangkaian Neural Graf (GNN) digunakan secara meluas untuk melombong perhubungan pemindahan kompleks antara item dengan lebih baik.
Walau bagaimanapun, prestasi model ini penambahbaikan pada set data penanda aras adalah terhad berbanding dengan peningkatan eksponen dalam kerumitan model. Menghadapi fenomena ini, kertas kerja ini menimbulkan persoalan berikut: Adakah model berasaskan GNN ini terlalu mudah atau terlalu kompleks untuk SBR?
Analisis awal
Untuk menjawab soalan ini , penulis Cuba menyahbina model SBR berasaskan GNN sedia ada dan menganalisis peranannya dalam tugasan SBR.
Secara umumnya, model SBR berasaskan GNN biasa boleh diuraikan kepada dua bahagian:
(1) Modul GNN. Parameter boleh dibahagikan kepada pemberat perambatan untuk lilitan graf dan pemberat GRU untuk menggabungkan pembenaman asal dan output lilitan graf.
(2) Modul Bacaan. Parameter termasuk pemberat pengumpulan perhatian untuk menjana perwakilan jangka panjang dan pemberat transformasi untuk menjana perwakilan sesi untuk ramalan.
Seterusnya, penulis membincangkan dua bahagian ini masing-masing Variational Dropout (SparseVD) digunakan, teknologi sparsifikasi rangkaian saraf yang biasa digunakan, dan nisbah ketumpatan parameter dikira semasa melatih model.
Nisbah ketumpatan parameter merujuk kepada nisbah bilangan elemen yang lebih besar daripada ambang tertentu kepada jumlah bilangan elemen dalam berat parameter parameter.
Modul GNN.
Memandangkan GNN mempunyai banyak parameter, dengan permulaan rawak, akan ada banyak pada permulaan Ilmu untuk dikemaskini. Oleh itu, kita dapat melihat bahawa nisbah ketumpatan berat perambatan lilitan graf akan turun naik dalam beberapa kelompok pertama data. Apabila latihan menjadi stabil, nisbah ketumpatan akan cenderung kepada 0. Modul bacaan.
Kita dapati bahawa semasa latihan berlangsung,
nisbah ketumpatan berat pengumpulan perhatian boleh dikekalkan pada tahap yang lebih tinggi.
Kami juga boleh melihat aliran yang sama pada set data lain dan model SBR berasaskan GNN yang lain.
Oleh itu, penulis mendapati bahawa banyak parameter modul GNN adalah berlebihan semasa proses latihan. Berdasarkan ini, penulis mencadangkan garis panduan reka bentuk model yang lebih mudah dan berkesan berikut untuk SBR:
(1) Jangan mengejar kerumitan yang berlebihan Dalam GNN reka bentuk, pengarang cenderung untuk memadamkan bahagian perambatan GNN dan hanya mengekalkan lapisan benam awal
;
(2) Pereka model hendaklah lagi
Fokus pada modul Bacaan berasaskan perhatian
.
Memandangkan parameter berat pengumpulan perhatian mengekalkan nisbah ketumpatan tinggi, penulis membuat spekulasi bahawa kaedah pembacaan berasaskan perhatian yang lebih maju Reka bentuk seni bina akan lebih bermanfaat .
Memandangkan artikel ini meninggalkan pergantungan pada bahagian penyebaran GNN, modul Readout harus memikul lebih tanggungjawab untuk penaakulan model.
Memandangkan modul Bacaan sedia ada berdasarkan paparan contoh mempunyai keupayaan penaakulan terhad, artikel ini perlu mereka bentuk Keupayaan penaakulan yang lebih kukuh bagi modul Bacaan .
Cara mereka bentuk modul Readout dengan keupayaan penaakulan yang lebih kukuh
Menurut penyelidikan psikopatologi, penaakulan manusia pada asasnya adalah proses pemprosesan maklumat pelbagai peringkat.
Sebagai contoh, dengan mempertimbangkan secara menyeluruh produk asas yang berinteraksi dengan Alice, manusia boleh memperoleh beberapa konsep peringkat lebih tinggi, seperti sama ada Alice merancang untuk merancang perkahwinan atau menghias Rumah baru. Selepas menentukan bahawa Alice berkemungkinan merancang perkahwinan, manusia kemudiannya mempertimbangkan barangan perkahwinan yang berkaitan dengan sejambak, seperti belon perkahwinan, dan bukannya barangan hiasan yang berkaitan dengan sejambak, seperti mural dinding.
Mengguna pakai strategi penaakulan pelbagai peringkat ini dalam sistem pengesyor boleh membantu memangkas sejumlah besar ruang carian dan mengelakkan penyelesaian optimum setempat, dengan mempertimbangkan pengguna Aliran tingkah laku keseluruhan menumpu kepada penyelesaian yang lebih memuaskan.
Oleh itu, artikel ini berharap dapat memperkenalkan mekanisme penaakulan pelbagai lapisan ini ke dalam reka bentuk modul Readout
.
Walau bagaimanapun, mendapatkan konsep peringkat tinggi ini bukanlah satu tugas yang mudah, kerana hanya menyenaraikan konsep peringkat tinggi ini adalah tidak realistik dan berkemungkinan memperkenalkan konsep yang tidak relevan dan mengganggu prestasi model.
Untuk menangani cabaran ini, artikel ini menggunakan dua bias induktif berkaitan SBR: invarian tempatan dan keutamaan yang wujud (keutamaan sedia ada), untuk mengurangkan ruang carian .
Model yang dicadangkan Oleh itu, artikel ini mencadangkan model yang dipanggil Atten-Mixer. Model ini boleh disepadukan dengan pelbagai pengekod. Untuk sesi input, model memperoleh pembenaman setiap item daripada lapisan pembenaman. Model kemudian menggunakan transformasi linear pada perwakilan kumpulan yang terhasil untuk menjana pertanyaan niat pengguna berbilang peringkat.
di mana Q1 ialah pertanyaan perhatian paparan contoh, manakala yang lain ialah pertanyaan perhatian peringkat tinggi dengan medan penerimaan yang berbeza dan maklumat invarian tempatan. Seterusnya, model menggunakan pertanyaan perhatian yang dijana untuk menghadiri keadaan tersembunyi setiap item dalam sesi dan mendapatkan perwakilan sesi terakhir.
Percubaan dan keputusan
Dalam percubaan luar talian, artikel ini menggunakan data daripada tiga medan berbeza Set : Diginetica ialah set data untuk transaksi e-dagang, Gowalla ialah set data untuk rangkaian sosial dan Last.fm ialah set data untuk cadangan muzik.
Keputusan percubaan luar talian
(1) Perbandingan keseluruhan
Pengarang membandingkan Atten-Mixer dengan empat kaedah asas berdasarkan CNN, berasaskan RNN, berasaskan GNN dan berasaskan bacaan.
Hasil eksperimen menunjukkan bahawa Atten-Mixer mengatasi kaedah garis dasar dari segi ketepatan dan kecekapan pada tiga set data.
(2) Analisis peningkatan prestasi
Selain itu, penulis juga membenamkan Atten-Mixer modul ke dalam SR-GNN dan SGNN-HN untuk mengesahkan kesan peningkatan prestasi kaedah ini pada model asal.
Hasil percubaan luar talian menunjukkan bahawa Atten-Mixer meningkatkan prestasi model dengan ketara pada semua set data, terutamanya apabila nilai K dalam indeks penilaian adalah kecil, menunjukkan bahawa Atten-Mixer boleh membantu The original model menjana pengesyoran yang lebih tepat dan mesra pengguna.
Hasil percubaan dalam talian
Pengarang juga menggunakan Atten-Mixer ke dalam perkhidmatan dalam talian e-dagang berskala besar pada April 2021. Percubaan dalam talian menunjukkan bahawa rangkaian pencampuran perhatian berbilang peringkat (Atten-Mixer) berprestasi baik pada pelbagai penunjuk perniagaan dalam talian Semua telah mencapai peningkatan yang ketara.
Kesimpulan eksperimen
Untuk meringkaskan, Atten-Mixer mempunyai keupayaan inferens berbilang peringkat dan menunjukkan prestasi dalam talian dan luar talian yang sangat baik dari segi ketepatan dan kecekapan. Berikut ialah beberapa sumbangan utama:
Akhir sekali, adalah wajar dinyatakan bahawa terdapat proses pembangunan yang berliku-liku di sebalik pencalonan kehormat artikel ini untuk kertas terbaik dalam Pengalaman WSDM2023, sebagai salah seorang penulis artikel, Haohan Wang dari UIUC, memperkenalkan, artikel ini sebenarnya ditolak berkali-kali semasa proses penyerahan kerana ia terlalu mudah, penulis artikel tidak pergi untuk artikel Cina citarasa pengulas, saya sebaliknya berpegang kepada pendekatan mudah saya sendiri dan akhirnya mendapat penghormatan artikel ini.
Atas ialah kandungan terperinci Untuk menggunakan niat pengguna berbilang peringkat dengan berkesan, Universiti Sains dan Teknologi Hong Kong, Universiti Peking, dll. mencadangkan model cadangan sesi baharu Atten-Mixer. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!