Rumah > Artikel > Peranti teknologi > Pengenalan kepada 12 algoritma terpenting bagi pembelajaran tanpa pengawasan dan ringkasan kes penggunaannya
Pembelajaran tanpa seliaan ialah satu lagi kaedah pembelajaran mesin arus perdana yang bertentangan dengan pembelajaran tanpa seliaan tidak mempunyai sebarang anotasi data, hanya data itu sendiri.
Terdapat beberapa jenis algoritma pembelajaran tanpa pengawasan, berikut adalah 12 algoritma yang paling penting:
k-means clustering ialah algoritma pengelompokan popular yang membahagikan data kepada kumpulan k.
Analisis komponen utama (PCA) ialah algoritma pengurangan dimensi yang menayangkan data ke dalam ruang dimensi rendah, PCA boleh digunakan untuk mengurangkan dimensi data kepada ciri yang paling penting.
Mesin vektor sokongan boleh digunakan untuk pengesanan anomali (contoh). Algoritma pengesanan anomali digunakan untuk mengesan titik abnormal dalam set data Terdapat banyak kaedah pengesanan anomali, tetapi kebanyakannya boleh dibahagikan kepada diselia dan tidak diselia. Kaedah yang diselia memerlukan set data berlabel, manakala kaedah yang tidak diselia tidak.
Algoritma pengesanan anomali tanpa pengawasan biasanya berdasarkan anggaran ketumpatan, cuba mencari titik di luar kawasan padat dalam ruang data.
Kaedah mudah ialah mengira jarak purata setiap titik ke k jiran terdekatnya. Mata yang sangat jauh dari mata jiran berkemungkinan menjadi outlier.
Terdapat juga banyak algoritma pengesanan anomali berasaskan kepadatan, termasuk Faktor Outlier Setempat (LOF) dan Penerangan Domain Vektor Sokongan (SVDD). Algoritma ini lebih kompleks daripada kaedah jiran k-terdekat yang mudah dan selalunya boleh mengesan anomali yang lebih halus. Kebanyakan algoritma pengesanan anomali memerlukan penalaan, seperti menentukan parameter untuk mengawal kepekaan algoritma terhadap anomali. Jika parameter terlalu rendah, algoritma mungkin terlepas beberapa anomali. Jika ditetapkan terlalu tinggi, algoritma mungkin menghasilkan positif palsu (mengenal pasti titik normal sebagai titik tidak normal).
Algoritma segmentasi boleh membahagikan imej kepada latar depan dan latar belakang.
Algoritma ini boleh membahagikan set data secara automatik kepada kumpulan yang bermakna tanpa memerlukan pengawasan manusia. Salah satu algoritma yang lebih terkenal dalam bidang ini ialah algoritma k-means. Algoritma ini membahagikan titik data kepada kumpulan k dengan meminimumkan jumlah jarak kuasa dua dalam kumpulan.
Satu lagi algoritma segmentasi popular ialah algoritma anjakan min. Algoritma berfungsi dengan menggerakkan setiap titik data secara berulang ke arah pusat kejiranan setempatnya. Peralihan min adalah sangat teguh kepada outlier dan boleh mengendalikan set data dengan ketumpatan yang tidak sekata. Tetapi menjalankannya pada set data yang besar boleh menjadi mahal dari segi pengiraan.
Model Campuran Gaussian (GMM) ialah model probabilistik yang boleh digunakan untuk pembahagian. Sebelum ini gmm memerlukan banyak pengiraan untuk melatih, tetapi kemajuan penyelidikan terkini telah menjadikannya lebih pantas. gmm sangat fleksibel dan boleh digunakan dengan sebarang jenis data. Tetapi mereka kadang-kadang tidak selalu menghasilkan hasil yang terbaik. Untuk set data mudah, k-means ialah pilihan yang baik, manakala gmm lebih sesuai untuk set data yang kompleks. Peralihan min boleh digunakan dalam mana-mana kes, tetapi boleh menjadi mahal dari segi pengiraan pada set data yang besar.
Transformasi gelombang boleh digunakan untuk denoising imej. Tetapi bunyi bising boleh timbul daripada pelbagai sumber, termasuk rasuah data, nilai yang hilang dan outlier. Algoritma denoising meningkatkan ketepatan model pembelajaran tanpa pengawasan dengan mengurangkan jumlah hingar dalam data.
Terdapat banyak algoritma denoising sedia ada, termasuk analisis komponen utama (PCA), analisis komponen bebas (ICA) dan pemfaktoran matriks bukan negatif (NMF).
Ramalan pautan boleh digunakan untuk meramalkan siapa yang akan menjadi ahli sosial rakan rangkaian masuk. Salah satu algoritma ramalan pautan yang lebih biasa digunakan ialah algoritma gabungan keutamaan, yang meramalkan bahawa dua nod lebih berkemungkinan disambungkan jika ia mempunyai banyak sambungan sedia ada.
Satu lagi algoritma ramalan pautan yang popular ialah algoritma laluan setempat, yang meramalkan bahawa dua nod lebih berkemungkinan dikaitkan jika mereka berkongsi jiran yang sama. Algoritma ini boleh menangkap konsep "kesetaraan struktur" dan oleh itu kerap digunakan dalam rangkaian biologi.
Akhir sekali, jalan rawak dengan algoritma mulakan semula juga merupakan algoritma ramalan pautan, yang mensimulasikan walker rawak pada rangkaian dan memulakan semula walker pada nod rawak [17]. Kebarangkalian pejalan kaki tiba di nod tertentu kemudiannya digunakan untuk mengukur kebarangkalian bahawa sambungan wujud antara dua nod.
Pembelajaran Q ialah contoh algoritma pembelajaran berasaskan nilai yang mudah dilaksanakan dan serba boleh. Tetapi pembelajaran Q kadangkala menumpu kepada penyelesaian suboptimum. Contoh lain ialah pembelajaran TD, yang lebih menuntut dari segi pengiraan daripada pembelajaran Q, tetapi selalunya membawa kepada penyelesaian yang lebih baik.
Pengekod auto ialah model penjanaan yang boleh digunakan untuk mencipta imej unik daripada set data imej. Dalam pembelajaran mesin, model generatif ialah model yang menangkap sifat statistik bagi satu set data. Model ini boleh digunakan untuk menjana data baharu, sama seperti data yang dilatih untuk digunakan.
Model generatif digunakan untuk pelbagai tugas seperti pembelajaran tanpa pengawasan, pemampatan data dan denoising. Terdapat banyak jenis model generatif, seperti model Markov tersembunyi dan mesin Boltzmann. Setiap model mempunyai kebaikan dan keburukan dan sesuai untuk tugas yang berbeza.
Model Markov Tersembunyi pandai memodelkan data berjujukan, manakala mesin Boltzmann lebih baik dalam memodelkan data berdimensi tinggi. Model generatif boleh digunakan untuk pembelajaran tanpa pengawasan dengan melatih mereka pada data tidak berlabel. Setelah model dilatih, ia boleh digunakan untuk menjana data baharu. Data yang dijana ini kemudiannya boleh dilabelkan oleh manusia atau algoritma pembelajaran mesin yang lain. Proses ini boleh diulang sehingga model generatif belajar menghasilkan data yang menyerupai output yang dikehendaki.
Untuk pembelajaran tanpa seliaan, hutan rawak boleh mencari set entri yang serupa, mengenal pasti outlier dan Compress. data.
Hutan rawak telah terbukti mengungguli algoritma pembelajaran mesin popular yang lain (seperti mesin vektor sokongan) untuk tugasan diselia dan tidak diselia. Hutan rawak ialah alat yang berkuasa untuk pembelajaran tanpa pengawasan kerana ia boleh mengendalikan data berdimensi tinggi dengan banyak ciri. Mereka juga menentang overfitting, bermakna mereka membuat generalisasi dengan baik kepada data baharu.
Ia berdasarkan kepadatan, iaitu bilangan mata dalam setiap rantau. DBSCAN menunjukkan mata dalam kumpulan jika ia berdekatan, dan mengabaikan mata jika ia berjauhan. DBSCAN mempunyai beberapa kelebihan berbanding algoritma pengelompokan yang lain. Ia boleh mencari gugusan saiz dan bentuk yang berbeza dan tidak memerlukan pengguna untuk menentukan bilangan gugusan terlebih dahulu. Tambahan pula, DBSCAN tidak sensitif kepada outlier, yang bermaksud ia boleh digunakan untuk mencari data yang tidak diwakili dengan baik oleh set data lain. Tetapi DBSCAN juga mempunyai beberapa kekurangan. Sebagai contoh, ia mungkin mengalami kesukaran mencari kelompok yang baik dalam set data yang sangat bising. Perkara lain ialah DBSCAN memerlukan ambang ketumpatan, yang mungkin tidak boleh digunakan untuk semua set data.
Algoritma Apriori ialah algoritma perlombongan peraturan perkaitan yang pertama dan algoritma paling klasik. Ia berfungsi dengan mula-mula mencari semua set item kerap dalam data dan kemudian menggunakan set item ini untuk menjana peraturan.
Terdapat banyak cara untuk melaksanakan algoritma Apriori, yang boleh disesuaikan untuk keperluan yang berbeza. Contohnya, ambang sokongan dan keyakinan boleh dikawal untuk mencari jenis peraturan yang berbeza.
Algoritma Eclat ialah algoritma yang mengutamakan kedalaman perwakilan data menegak, berdasarkan teori kekisi konsep, ruang carian (kekisi konsep) dibahagikan kepada subruang yang lebih kecil (kekisi subkonsep) menggunakan hubungan kesetaraan berdasarkan awalan.
Atas ialah kandungan terperinci Pengenalan kepada 12 algoritma terpenting bagi pembelajaran tanpa pengawasan dan ringkasan kes penggunaannya. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!