Rumah  >  Artikel  >  Peranti teknologi  >  Tajuk yang ditulis semula: Meneroka bidang aplikasi pembelajaran separa penyeliaan dan senario berkaitannya

Tajuk yang ditulis semula: Meneroka bidang aplikasi pembelajaran separa penyeliaan dan senario berkaitannya

王林
王林ke hadapan
2023-11-18 22:21:121185semak imbas

Tajuk yang ditulis semula: Meneroka bidang aplikasi pembelajaran separa penyeliaan dan senario berkaitannya

Pengenalan Makmal

Dengan perkembangan Internet dan, lagi Banyak data. Data ini membantu syarikat memahami pengguna dengan lebih baik, dikenali sebagai profil pelanggan dan boleh meningkatkan pengalaman pengguna. Walau bagaimanapun, mungkin terdapat sejumlah besar data tidak berlabel dalam data ini. Jika semua data dilabel secara manual, akan ada dua masalah. Pertama sekali, pelabelan manual memakan masa dan tidak cekap. Apabila jumlah data meningkat, lebih ramai orang perlu diambil bekerja dan ia akan mengambil masa yang lebih lama, dan kosnya akan lebih tinggi. Kedua, apabila saiz pengguna meningkat, sukar untuk mengikuti pertumbuhan data melalui pelabelan manual

Pembelajaran separuh penyeliaan merujuk kepada. melatih model menggunakan data berlabel dan tidak berlabel. Pembelajaran separa penyeliaan biasanya membina ruang atribut berdasarkan data berlabel, dan kemudian mengekstrak maklumat berkesan daripada data tidak berlabel untuk mengisi (atau membina semula) ruang atribut. Oleh itu, set latihan awal pembelajaran separuh penyeliaan biasanya dibahagikan kepada set data berlabel D1 dan set data tidak berlabel D2, dan kemudian model pembelajaran separuh penyeliaan dilatih melalui langkah asas seperti prapemprosesan dan pengekstrakan ciri, dan kemudian model terlatih. digunakan untuk persekitaran Pengeluaran untuk menyediakan perkhidmatan kepada pengguna.

Bahagian 02. Andaian pembelajaran separa penyeliaan

Tajuk yang ditulis semula: Meneroka bidang aplikasi pembelajaran separa penyeliaan dan senario berkaitannya

#🎜 🎜 🎜#Untuk menambah data label secara berkesan dengan maklumat "berguna" dalam data label, beberapa andaian dibuat tentang pembahagian data dan aspek lain. Andaian asas pembelajaran separa penyeliaan ialah p(x) mengandungi maklumat p(y|x), iaitu data tidak berlabel harus mengandungi maklumat yang berguna untuk ramalan label dan berbeza daripada data berlabel atau sukar. untuk mendapatkan daripada data berlabel yang diekstrak daripada data. Di samping itu, terdapat beberapa andaian yang melayani algoritma. Sebagai contoh, hipotesis persamaan (hipotesis kelancaran) bermaksud bahawa dalam ruang atribut yang dibina oleh sampel data, sampel rapat atau serupa mempunyai label yang sama, hipotesis pemisahan berketumpatan rendah bermakna terdapat sempadan keputusan yang boleh membezakan label yang berbeza di mana terdapat; adalah beberapa sampel data.

Tujuan utama andaian di atas adalah untuk menunjukkan bahawa data berlabel dan data tidak berlabel datang daripada pengedaran data yang sama.

Part 03, Klasifikasi algoritma pembelajaran separa penyeliaan

#🎜🎜🎜##🎜🎜🎜##🎜🎜🎜 -diawasi Terdapat banyak algoritma pembelajaran, yang boleh dibahagikan secara kasar kepada transductive learning

dan #🎜🎜 🎜🎜# Pembelajaran induktif (Model induktif) , perbezaan antara keduanya ialah Pemilihan set data ujian untuk penilaian model# 🎜 🎜#. Pembelajaran separa seliaan tolakan terus bermaksud set data yang perlu meramal label adalah set data tidak berlabel yang digunakan untuk latihan Tujuan pembelajaran adalah untuk meningkatkan lagi ketepatan keputusan ramalan. Pembelajaran induktif meramalkan label untuk set data yang tidak diketahui sepenuhnya. Selain itu, langkah-langkah algoritma pembelajaran separa penyeliaan biasa ialah: Langkah pertama adalah pada data berlabel Latih model, kemudian gunakan model ini untuk melabel pseudo data tidak berlabel, kemudian gabungkan pseudo-label dan data berlabel ke dalam set latihan baharu, latih model baharu pada set latihan ini dan akhirnya gunakan model ini untuk meramalkan Set data dilabelkan. Bahagian 04. Ringkasan

Tajuk yang ditulis semula: Meneroka bidang aplikasi pembelajaran separa penyeliaan dan senario berkaitannya

Masalah terbesar dengan kes separa penyeliaan, adalah dalam kebanyakan kes model Prestasi bergantung pada set data berlabel, dan keperluan kualiti untuk set data berlabel adalah tinggi Malah ketepatan ramalan model pembelajaran separa penyeliaan tidak jauh berbeza dengan keputusan model diselia berdasarkan data berlabel. Sebaliknya, model separa penyeliaan Untuk mengekstrak maklumat yang berkesan daripada data tidak berlabel, lebih banyak sumber akan digunakan. Oleh itu, hala tuju pembangunan pembelajaran separa penyeliaan adalah untuk meningkatkan keteguhan algoritma dan keberkesanan pengekstrakan data.

Pada masa ini dalam bidang pembelajaran separa penyeliaan, PU-Learning (pembelajaran sampel positif dan negatif) adalah algoritma yang popular. Jenis algoritma ini digunakan terutamanya pada set data dengan hanya sampel positif dan data tidak berlabel. Kelebihannya ialah dalam sesetengah senario, kita boleh mendapatkan set data sampel positif yang boleh dipercayai dengan agak mudah, dan jumlah data adalah agak besar. Contohnya, dalam pengesanan spam, kami boleh mendapatkan sejumlah besar data e-mel biasa dengan mudah

Atas ialah kandungan terperinci Tajuk yang ditulis semula: Meneroka bidang aplikasi pembelajaran separa penyeliaan dan senario berkaitannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam