Rumah  >  Artikel  >  Peranti teknologi  >  Menyemak 170 algoritma pengesyoran "pembelajaran kendiri", HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Menyemak 170 algoritma pengesyoran "pembelajaran kendiri", HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

王林
王林ke hadapan
2024-05-09 16:58:02947semak imbas

Sistem pengesyoran adalah penting untuk menangani cabaran lebihan maklumat, kerana mereka menyediakan pengesyoran tersuai berdasarkan pilihan peribadi pengguna. Dalam beberapa tahun kebelakangan ini, teknologi pembelajaran mendalam telah banyak menggalakkan pembangunan sistem pengesyoran dan menambah baik cerapan tentang tingkah laku dan pilihan pengguna.

Walau bagaimanapun, kaedah pembelajaran tradisional yang diselia menghadapi cabaran dalam aplikasi praktikal disebabkan masalah keterlanjuran data, yang mengehadkan keupayaan mereka untuk mempelajari prestasi pengguna dengan berkesan.

Untuk melindungi dan mengatasi masalah ini, teknologi pembelajaran penyeliaan kendiri (SSL) digunakan kepada pelajar, yang menggunakan struktur data yang wujud untuk menjana isyarat penyeliaan dan tidak bergantung sepenuhnya pada data berlabel.

Kaedah ini menggunakan sistem pengesyoran yang boleh mengekstrak maklumat bermakna daripada data yang tidak berlabel dan membuat ramalan dan pengesyoran yang tepat walaupun data adalah terhad.

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Alamat artikel: https://arxiv.org/abs/2404.03354

Pangkalan data sumber terbuka: https://github.com/HKUDS/Awesome-SSLRec🜎sumber Pustaka kod: https://github.com/HKUDS/SSLRec

Artikel ini menyemak rangka kerja pembelajaran penyeliaan sendiri yang direka untuk sistem pengesyor dan menjalankan analisis mendalam terhadap lebih daripada 170 kertas kerja berkaitan. Kami meneroka sembilan senario aplikasi yang berbeza untuk mendapatkan pemahaman yang komprehensif tentang cara SSL boleh meningkatkan sistem pengesyoran dalam senario yang berbeza.

Untuk setiap domain, kami membincangkan paradigma pembelajaran penyeliaan sendiri yang berbeza secara terperinci, termasuk pembelajaran kontrastif, pembelajaran generatif dan pembelajaran menentang, menunjukkan cara SSL boleh meningkatkan prestasi sistem pengesyoran dalam situasi yang berbeza.

1 Sistem yang disyorkan


Penyelidikan mengenai sistem pengesyor merangkumi pelbagai tugas dalam senario berbeza, seperti penapisan kolaboratif, pengesyoran jujukan, pengesyoran berbilang tingkah laku, dsb. Tugasan ini mempunyai paradigma dan matlamat data yang berbeza. Di sini, kami mula-mula memberikan definisi umum tanpa pergi ke variasi khusus untuk tugas pengesyoran yang berbeza. Dalam sistem pengesyoran, terdapat dua set utama: set pengguna, dilambangkan sebagai

dan set item, dilambangkan sebagai Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!. Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!Kemudian, gunakan matriks interaksi

untuk mewakili interaksi yang direkodkan antara pengguna dan item. Dalam matriks ini, entri Ai,j matriks diberikan nilai 1 jika pengguna ui telah berinteraksi dengan item vj, jika tidak ia adalah 0. Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!Takrifan interaksi boleh disesuaikan dengan konteks dan set data yang berbeza (cth., menonton filem, mengklik tapak e-dagang atau membuat pembelian).

Selain itu, dalam tugas pengesyoran yang berbeza, terdapat data pemerhatian tambahan yang berbeza, direkodkan sebagai dan perhubungan yang sepadan.

Dan dalam pengesyoran sosial, X termasuk perhubungan peringkat pengguna, seperti persahabatan. Berdasarkan definisi di atas, model pengesyoran mengoptimumkan fungsi ramalan f(⋅), bertujuan untuk menganggarkan skor keutamaan dengan tepat antara mana-mana pengguna u dan item v:

Skor keutamaan yu,v mewakili pengguna u dan perkara v Kemungkinan interaksi. Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Berdasarkan skor ini, sistem pengesyor boleh mengesyorkan item tidak berinteraksi kepada setiap pengguna dengan menyediakan senarai kedudukan item berdasarkan anggaran skor keutamaan. Dalam semakan, kami meneroka lebih lanjut bentuk data (A,X) dalam senario pengesyoran yang berbeza dan peranan pembelajaran penyeliaan kendiri di dalamnya.

2 Pembelajaran penyeliaan sendiri dalam sistem pengesyor

Dalam beberapa tahun kebelakangan ini, rangkaian saraf dalam telah menunjukkan prestasi yang baik dalam pembelajaran terselia, yang telah ditunjukkan dalam pelbagai bidang termasuk penglihatan komputer, pemprosesan bahasa semula jadi dan sistem pengesyoran. Walau bagaimanapun, disebabkan pergantungan yang tinggi pada data berlabel, pembelajaran yang diselia menghadapi cabaran dalam menangani keterbatasan label, yang juga merupakan masalah biasa dalam sistem pengesyor.

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Untuk menangani batasan ini, pembelajaran penyeliaan sendiri muncul sebagai kaedah yang menjanjikan, yang menggunakan data itu sendiri sebagai label yang dipelajari. Pembelajaran penyeliaan kendiri dalam sistem pengesyor termasuk tiga paradigma berbeza: pembelajaran kontrastif, pembelajaran generatif dan pembelajaran menentang.

2.1 Pembelajaran Kontrastif

Sebagai kaedah pembelajaran penyeliaan kendiri yang menonjol, matlamat utama pembelajaran kontrastif adalah untuk memaksimumkan ketekalan antara pandangan berbeza yang dipertingkatkan daripada data yang berbeza. Dalam pembelajaran kontrastif sistem pengesyoran, matlamatnya adalah untuk meminimumkan fungsi kehilangan berikut:

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!


E∗

ω∗ mewakili operasi penciptaan pandangan kontrastif berdasarkan operasi pembelajaran kontrastif dan berbeza mempunyai proses penciptaan yang berbeza. Pembinaan setiap paparan terdiri daripada proses penambahan data ω∗ (yang mungkin melibatkan nod/tepi dalam graf ditambah) dan proses pengekodan pembenaman E∗. Matlamat Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!meminimumkan

adalah untuk mendapatkan fungsi pengekodan yang mantap yang memaksimumkan konsistensi antara pandangan. Konsistensi merentas pandangan ini boleh dicapai melalui kaedah seperti memaksimumkan maklumat bersama atau diskriminasi contoh. 2.2 Pembelajaran Generatif

Matlamat pembelajaran generatif adalah untuk memahami struktur dan corak data untuk mempelajari perwakilan yang bermakna. Ia mengoptimumkan model penyahkod pengekod dalam yang membina semula data input yang hilang atau rosak. Pengekod Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya! Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya! mencipta perwakilan terpendam daripada input, manakala penyahkod

membina semula data asal daripada output pengekod. Matlamatnya adalah untuk meminimumkan perbezaan antara data yang dibina semula dan asal seperti berikut: Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!


Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!Di sini, ω mewakili operasi seperti penyamaran atau gangguan. D∘E mewakili proses pengekodan dan penyahkodan untuk membina semula output. Penyelidikan terkini juga telah memperkenalkan seni bina penyahkod sahaja yang membina semula data dengan cekap tanpa persediaan penyahkod pengekod. Pendekatan ini menggunakan model tunggal (cth. Transformer) untuk pembinaan semula dan biasanya digunakan pada pengesyoran bersiri berdasarkan pembelajaran generatif. Format fungsi kehilangan

bergantung pada jenis data, seperti ralat min kuasa dua untuk data berterusan dan kehilangan entropi silang untuk data kategori.

2.3 Adversarial Learning

Adversarial Learning ialah kaedah latihan yang menggunakan penjana G(⋅) untuk menjana output berkualiti tinggi dan mengandungi diskriminator Ω(⋅), yang mana sampel yang diberikan menentukan sama ada adalah nyata atau dihasilkan. Tidak seperti pembelajaran generatif, pembelajaran lawan berbeza dengan memasukkan diskriminasi yang menggunakan interaksi kompetitif untuk meningkatkan keupayaan penjana menghasilkan output berkualiti tinggi untuk memperdayakan diskriminator.

🎜Oleh itu, matlamat pembelajaran pembelajaran adversarial boleh ditakrifkan seperti berikut: 🎜🎜

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Di sini, pembolehubah x mewakili sampel sebenar yang diperoleh daripada pengedaran data asas, manakala Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya! mewakili sampel sintetik yang dijana oleh penjana G(⋅). Semasa latihan, kedua-dua penjana dan diskriminator meningkatkan keupayaan mereka melalui interaksi kompetitif. Akhirnya, penjana berusaha untuk menghasilkan output berkualiti tinggi yang bermanfaat untuk tugas hiliran.

3 Taksonomi

Dalam bahagian ini, kami mencadangkan sistem pengelasan komprehensif untuk aplikasi pembelajaran penyeliaan kendiri dalam sistem pengesyoran. Seperti yang dinyatakan sebelum ini, paradigma pembelajaran penyeliaan kendiri boleh dibahagikan kepada tiga kategori: pembelajaran kontrastif, pembelajaran generatif, dan pembelajaran menentang. Oleh itu, sistem klasifikasi kami dibina berdasarkan tiga kategori ini, memberikan pandangan yang lebih mendalam ke dalam setiap kategori.

3.1 Pembelajaran Kontrastif dalam Sistem Pengesyoran

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Prinsip asas pembelajaran kontrastif (CL) adalah untuk memaksimumkan pandangan yang berbeza. Oleh itu, kami mencadangkan taksonomi tertumpu pandangan yang terdiri daripada tiga komponen utama untuk dipertimbangkan apabila menggunakan pembelajaran kontrastif: mencipta pandangan, memasangkan pandangan untuk memaksimumkan konsistensi dan mengoptimumkan konsistensi.

Lihat Ciptaan. Buat pandangan yang menekankan pelbagai aspek data yang difokuskan oleh model. Ia boleh menggabungkan maklumat kerjasama global untuk meningkatkan keupayaan sistem pengesyoran untuk mengendalikan perhubungan global, atau memperkenalkan hingar rawak untuk meningkatkan keteguhan model.

Kami menganggap peningkatan data input (cth., graf, jujukan, ciri input) sebagai penciptaan paparan peringkat data, manakala peningkatan ciri terpendam semasa inferens dianggap sebagai penciptaan paparan peringkat ciri. Kami mencadangkan sistem klasifikasi hierarki yang merangkumi teknik penciptaan paparan daripada peringkat data asas kepada tahap model saraf.


  • Tahap data Berasaskan data: Dalam sistem pengesyoran berdasarkan pembelajaran kontrastif, pandangan yang pelbagai dicipta dengan meningkatkan data input. Titik data yang dipertingkatkan ini kemudiannya diproses melalui model. Pembenaman output yang diperoleh daripada pandangan yang berbeza akhirnya dipasangkan dan digunakan untuk pembelajaran perbandingan. Kaedah peningkatan berbeza-beza bergantung pada senario pengesyoran. Sebagai contoh, data graf boleh dipertingkatkan menggunakan nod/tepi menjatuhkan, manakala jujukan boleh dipertingkatkan menggunakan pelekat, pemangkasan dan penggantian.
  • Berasaskan ciri: Selain menjana pandangan terus daripada data, beberapa kaedah juga mempertimbangkan untuk meningkatkan ciri tersembunyi yang dikodkan dalam proses ke hadapan model. Ciri tersembunyi ini boleh termasuk pembenaman nod lapisan rangkaian saraf graf atau vektor token dalam Transformers. Dengan menggunakan pelbagai teknik peningkatan beberapa kali atau memperkenalkan gangguan rawak, output akhir model boleh dilihat sebagai pandangan yang berbeza.
  • Berasaskan model: Penambahbaikan peringkat data dan peringkat ciri adalah tidak mudah suai kerana ia bukan parametrik. Oleh itu, terdapat juga cara untuk menggunakan model untuk menjana pandangan yang berbeza. Pandangan ini mengandungi maklumat khusus berdasarkan reka bentuk model. Contohnya, modul saraf yang dipisahkan dengan niat boleh menangkap niat pengguna, manakala modul hipergraf boleh menangkap hubungan global.

Pensampelan Berpasangan. Proses penciptaan paparan menjana sekurang-kurangnya dua paparan berbeza untuk setiap sampel dalam data. Teras pembelajaran kontrastif adalah untuk memaksimumkan penjajaran pandangan tertentu (iaitu, mendekatkannya) sambil menolak pandangan lain.

Untuk melakukan ini, kuncinya adalah untuk mengenal pasti pasangan sampel positif yang harus dibawa lebih dekat, dan mengenal pasti pandangan lain yang membentuk pasangan sampel negatif. Strategi ini dipanggil persampelan berpasangan, dan ia terutamanya terdiri daripada dua kaedah persampelan berpasangan:

  • Persampelan Asli: Kaedah biasa persampelan berpasangan adalah secara langsung dan bukannya heuristik, yang kami panggil pensampelan semula jadi. Pasangan sampel positif terbentuk daripada pandangan berbeza yang dijana oleh sampel data yang sama, manakala pasangan sampel negatif terbentuk daripada pandangan sampel data yang berbeza. Dengan adanya pandangan pusat, seperti pandangan global yang diperoleh daripada keseluruhan graf, hubungan tempatan-global juga secara semula jadi boleh membentuk pasangan sampel positif. Kaedah ini digunakan secara meluas dalam kebanyakan sistem pengesyoran pembelajaran kontrastif.
  • Pensampelan berasaskan skor: Satu lagi kaedah persampelan berpasangan ialah pensampelan berasaskan skor. Dalam pendekatan ini, modul mengira markah pasangan sampel untuk menentukan pasangan sampel positif atau negatif. Sebagai contoh, jarak antara dua pandangan boleh digunakan untuk menentukan pasangan sampel positif dan negatif. Sebagai alternatif, pengelompokan boleh digunakan pada paparan, di mana pasangan positif berada dalam kelompok yang sama dan pasangan negatif berada dalam kelompok yang berbeza. Untuk paparan sauh, sebaik sahaja pasangan sampel positif ditentukan, paparan yang selebihnya secara semula jadi dianggap sebagai pandangan negatif dan boleh digandingkan dengan pandangan yang diberikan untuk mencipta pasangan sampel negatif, membenarkan tolak pergi.

Objektif Kontrastif. Matlamat pembelajaran dalam pembelajaran kontrastif adalah untuk memaksimumkan maklumat bersama antara pasangan sampel positif, yang seterusnya dapat meningkatkan prestasi model pengesyoran pembelajaran. Memandangkan tidak dapat dilaksanakan untuk mengira maklumat bersama secara langsung, sempadan bawah yang boleh dilaksanakan biasanya digunakan sebagai sasaran pembelajaran dalam pembelajaran kontrastif. Walau bagaimanapun, terdapat juga matlamat yang jelas untuk merapatkan pasangan positif.

  • Berasaskan InfoNCE: InfoNCE ialah varian anggaran kontrastif hingar. Proses pengoptimumannya bertujuan untuk mendekatkan pasangan sampel positif dan menolak pasangan sampel negatif.
  • Berasaskan JS: Selain menggunakan InfoNCE untuk menganggarkan maklumat bersama, anda juga boleh menggunakan perbezaan Jensen-Shannon untuk menganggarkan sempadan bawah. Objektif pembelajaran yang diperoleh adalah serupa dengan menggabungkan InfoNCE dengan kehilangan entropi silang binari standard, digunakan pada pasangan sampel positif dan negatif.
  • Objektif Eksplisit: Kedua-dua objektif berasaskan InfoNCE dan berasaskan JS bertujuan untuk memaksimumkan anggaran sempadan bawah maklumat bersama untuk memaksimumkan maklumat bersama itu sendiri, yang secara teorinya dijamin. Selain itu, terdapat objektif eksplisit, seperti meminimumkan ralat min kuasa dua atau memaksimumkan persamaan kosinus dalam pasangan sampel, untuk menjajarkan pasangan sampel positif secara langsung. Matlamat ini dipanggil matlamat eksplisit.

3.2 Pembelajaran Generatif dalam Sistem Pengesyoran

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Dalam memaksimumkan pembelajaran penyeliaan kendiri secara generatif, matlamat utama adalah untuk memaksimumkan data seliaan kendiri. Ini membolehkan perwakilan yang dipelajari dan bermakna untuk menangkap struktur dan corak asas dalam data, yang kemudiannya boleh digunakan dalam tugas hiliran. Dalam sistem pengelasan kami, kami mempertimbangkan dua aspek untuk membezakan kaedah cadangan berasaskan pembelajaran generatif yang berbeza: paradigma pembelajaran generatif dan matlamat generatif.


Paradigma Pembelajaran Generatif. Dalam konteks pengesyoran, kaedah penyeliaan kendiri menggunakan pembelajaran generatif boleh dikelaskan kepada tiga paradigma:


  • Pengekodan Auto bertopeng: Dalam pengekod auto bertopeng, pembelajaran Prosedur mengikut pendekatan pembinaan semula topeng, model membina semula data lengkap daripada pemerhatian separa.
  • Pengekodan Autovariasi: Autopengekod Variasi ialah kaedah penjanaan lain yang memaksimumkan anggaran kemungkinan dan mempunyai jaminan teori. Lazimnya ia melibatkan pemetaan data input ke faktor terpendam yang mengikuti taburan Gaussian biasa. Model kemudian membina semula data input berdasarkan faktor terpendam sampel.
  • Denoised Diffusion: Denoised Diffusion ialah model generatif yang menjana sampel data baharu dengan menyongsangkan proses hingar. Dalam proses ke hadapan, hingar Gaussian ditambahkan pada data asal dan, melalui beberapa langkah, satu siri versi bising dicipta. Semasa proses terbalik, model belajar untuk mengeluarkan bunyi daripada versi bising, memulihkan data asal secara beransur-ansur.

Sasaran Generasi. Dalam pembelajaran generatif, corak data yang dianggap sebagai label yang dijana merupakan satu lagi isu yang perlu dipertimbangkan untuk membawa isyarat penyeliaan kendiri bantu yang bermakna. Secara umum, matlamat penjanaan berbeza untuk kaedah yang berbeza dan dalam senario pengesyoran yang berbeza. Sebagai contoh, dalam pengesyoran jujukan, sasaran penjanaan boleh menjadi item dalam jujukan, dengan tujuan mensimulasikan hubungan antara item dalam jujukan. Dalam pengesyoran graf interaktif, sasaran penjanaan boleh menjadi nod/tepi dalam graf, bertujuan untuk menangkap korelasi topologi peringkat tinggi dalam graf.

3.3 Pembelajaran Adversarial dalam Sistem Disyorkan

Menyemak 170 algoritma pengesyoran pembelajaran kendiri, HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!

Dalam pembelajaran lawan sistem pengesyor, diskriminasi memainkan peranan penting dalam menjana sampel sebenar. Sama seperti pembelajaran generatif, sistem klasifikasi yang kami cadangkan meliputi kaedah pembelajaran bermusuhan dalam sistem pengesyor daripada dua perspektif: paradigma pembelajaran dan matlamat diskriminasi:

Paradigma Pembelajaran Bermusuhan. Dalam sistem pengesyor, pembelajaran bermusuhan terdiri daripada dua paradigma berbeza, bergantung pada sama ada kehilangan diskriminasi diskriminasi boleh disebarkan kembali kepada penjana dengan cara yang boleh dibezakan.

  • Pembelajaran Adversarial Boleh Dibezakan (AL Boleh Dibezakan): Kaedah pertama melibatkan objek yang diwakili dalam ruang berterusan, dan kecerunan diskriminator boleh disebarkan semula secara semula jadi kepada penjana untuk pengoptimuman. Pendekatan ini dipanggil pembelajaran lawan yang boleh dibezakan.
  • Non-Differentiable Adversarial Learning (Non-Differentiable AL): Kaedah lain melibatkan mengenal pasti output sistem pengesyoran, terutamanya produk yang disyorkan. Walau bagaimanapun, memandangkan keputusan pengesyoran adalah diskret, perambatan belakang menjadi mencabar, membentuk kes tidak boleh dibezakan di mana kecerunan diskriminator tidak boleh disebarkan terus kepada penjana. Untuk menyelesaikan masalah ini, pembelajaran pengukuhan dan kecerunan dasar diperkenalkan. Dalam kes ini, penjana bertindak sebagai agen yang berinteraksi dengan persekitaran dengan meramalkan barangan berdasarkan interaksi sebelumnya. Diskriminator bertindak sebagai fungsi ganjaran dan menyediakan isyarat ganjaran untuk membimbing pembelajaran penjana. Ganjaran diskriminasi ditakrifkan untuk menekankan faktor berbeza yang mempengaruhi kualiti pengesyoran, dan dioptimumkan untuk memberikan ganjaran yang lebih tinggi kepada sampel sebenar dan bukannya sampel yang dijana, membimbing penjana menghasilkan pengesyoran berkualiti tinggi.

Sasaran Diskriminasi. Algoritma pengesyoran yang berbeza menyebabkan penjana menghasilkan input yang berbeza, yang kemudiannya disalurkan kepada diskriminasi untuk diskriminasi. Proses ini bertujuan untuk meningkatkan keupayaan penjana untuk menghasilkan kandungan berkualiti tinggi yang lebih dekat dengan realiti. Matlamat diskriminasi khusus direka bentuk berdasarkan tugas pengesyoran khusus.

3.4 Pelbagai senario cadangan

Dalam ulasan ini, kami membincangkan secara mendalam reka bentuk kaedah pembelajaran penyeliaan kendiri yang berbeza daripada sembilan cadangan berikut baca artikel untuk butiran):

  • Penapisan Kolaboratif Umum (Penapisan Kolaboratif Umum) - Ini adalah bentuk paling asas sistem pengesyoran, yang bergantung terutamanya pada data interaksi antara pengguna dan item untuk menjana cadangan personaliti.
  • Syor Berurutan (Syor Berurutan) - Pertimbangkan siri masa interaksi pengguna dengan item, dengan tujuan untuk meramalkan kemungkinan item interaktif pengguna yang seterusnya.
  • Syor Sosial - Menggabungkan maklumat perhubungan pengguna dalam rangkaian sosial untuk memberikan syor yang lebih diperibadikan.
  • Syor Berpengetahuan - Gunakan pengetahuan berstruktur seperti graf pengetahuan untuk meningkatkan prestasi sistem pengesyoran.
  • Pengesyoran merentas domain - Gunakan keutamaan pengguna yang dipelajari dari satu domain ke domain lain untuk meningkatkan hasil pengesyoran.
  • Pengesyoran Kumpulan - Sediakan pengesyoran untuk kumpulan yang mempunyai ciri atau minat yang sama, bukannya untuk pengguna individu.
  • Syor Himpunan - Syorkan sekumpulan item secara keseluruhan, biasanya untuk promosi atau perkhidmatan pakej.
  • Syor Berbilang Tingkah Laku (Syor Berbilang Tingkah Laku) - Pertimbangkan pelbagai gelagat interaktif pengguna pada item, seperti menyemak imbas, membeli, menilai, dsb.
  • Pengesyoran Berbilang Modal - Menggabungkan berbilang maklumat mod item, seperti teks, imej, bunyi, dsb., untuk memberikan pengesyoran yang lebih kaya.

4 Kesimpulan

Artikel ini menyediakan ulasan menyeluruh tentang aplikasi pembelajaran penyeliaan kendiri (SSL) dalam sistem pengesyoran, dengan analisis mendalam lebih daripada 170 kertas kerja. Kami mencadangkan sistem klasifikasi yang diselia sendiri yang meliputi sembilan senario pengesyoran, membincangkan tiga paradigma SSL pembelajaran kontrastif, pembelajaran generatif dan pembelajaran menentang secara terperinci, dan membincangkan hala tuju penyelidikan masa depan dalam artikel.

Kami menekankan kepentingan SSL dalam mengendalikan kesederhanaan data dan meningkatkan prestasi sistem pengesyoran, dan menunjukkan potensi untuk menyepadukan model bahasa besar ke dalam sistem pengesyoran, persekitaran pengesyoran dinamik adaptif dan mewujudkan asas teori untuk paradigma SSL . Kami berharap semakan ini dapat menyediakan sumber yang berharga untuk penyelidik, memberi inspirasi kepada idea penyelidikan baharu dan menggalakkan pembangunan selanjutnya sistem pengesyoran.


Atas ialah kandungan terperinci Menyemak 170 algoritma pengesyoran "pembelajaran kendiri", HKU mengeluarkan SSL4Rec: kod dan pangkalan data adalah sumber terbuka sepenuhnya!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam