Rumah >Peranti teknologi >AI >Kajian semula algoritma klasifikasi yang diselia dan cara ia berfungsi
Algoritma yang digunakan untuk pengelasan diselia boleh mengelas dan meramal data dan merupakan salah satu algoritma yang paling biasa digunakan dalam bidang pembelajaran mesin. Algoritma ini boleh mengklasifikasikan data dalam bidang yang berbeza, seperti pengecaman imej, pengecaman pertuturan, penilaian kredit, analisis risiko, dsb. Algoritma klasifikasi yang diselia boleh membantu syarikat, institusi dan individu menjalankan analisis data dan membuat keputusan, seperti meramalkan gelagat pembelian pengguna melalui klasifikasi, menilai status kesihatan pesakit, mengenal pasti spam, dsb. Selain itu, algoritma ini juga boleh digunakan dalam pemprosesan bahasa semula jadi, terjemahan mesin, kawalan robot dan bidang lain. Ringkasnya, algoritma untuk klasifikasi yang diselia digunakan secara meluas dalam pelbagai bidang dan sangat penting untuk meningkatkan kecekapan kerja dan kualiti membuat keputusan.
Berikut ialah beberapa algoritma biasa yang digunakan untuk pengelasan diawasi dan pengenalan kepada prinsipnya:
Pokok keputusan: Mengikut ciri data yang berbeza, ia dibahagikan kepada berbilang kawasan dan sepadan dengan klasifikasi yang berbeza.
Pengelas Naive Bayes menggunakan teorem Bayes, kebarangkalian terdahulu dan kebarangkalian bersyarat untuk mengelaskan data, dengan mengandaikan bahawa setiap ciri adalah bebas antara satu sama lain.
Mesin vektor sokongan ialah algoritma yang memisahkan kategori data yang berbeza dengan membina hyperplane. Ia meningkatkan ketepatan pengelasan dengan memaksimumkan jarak hyperplane ke titik data terdekat. Dalam dua dimensi, hyperplane boleh dilihat sebagai garis lurus.
Regresi logistik: Algoritma ini menggunakan fungsi logistik untuk membina model klasifikasi Input fungsi logistik ialah jumlah wajaran nilai ciri, dan output adalah kebarangkalian untuk tergolong dalam kelas tertentu ialah mata data dengan kebarangkalian lebih besar daripada ambang tergolong dalam jenis itu.
Random Forest: Algoritma ini menggabungkan berbilang pepohon keputusan untuk membentuk hutan Setiap pepohon keputusan secara bebas mengklasifikasikan data, dan akhirnya menentukan keputusan pengelasan akhir melalui undian.
Algoritma jiran terdekat: Algoritma ini membandingkan data baharu dengan data yang diketahui dan mencari titik data terdekat Pengelasan titik ini ialah klasifikasi data baharu.
Rangkaian Neural: Algoritma ini mengklasifikasikan data dengan membina berbilang lapisan neuron (nod) Setiap neuron menentukan beratnya sendiri dengan mempelajari hubungan antara data input dan data output.
Algoritma AdaBoost: Algoritma ini melatih berbilang pengelas lemah secara berulang (ketepatan pengelasan lebih tinggi sedikit daripada meneka rawak), dan kemudian menggabungkan pengelas lemah ini menjadi pengelas kuat Setiap lelaran melaraskan berat set data, Ini membolehkan data tersalah klasifikasi mata untuk menerima pemberat yang lebih tinggi.
Algoritma peningkatan kecerunan: Algoritma ini juga melatih pengelas lemah secara berulang dan menggabungkannya menjadi pengelas yang kuat. Perbezaannya ialah ia melaraskan parameter pengelas melalui keturunan kecerunan.
Analisis diskriminasi linear: Algoritma ini menayangkan data ke dalam ruang berdimensi rendah untuk memisahkan kategori data yang berbeza sebanyak mungkin, dan kemudian menayangkan data baharu ke dalam ruang ini untuk pengelasan.
Algoritma pembelajaran ensemble: Algoritma ini meningkatkan ketepatan pengelasan dengan menggabungkan berbilang pengelas, seperti Bagging dan Boosting.
Algoritma pengelasan berbilang kategori: Algoritma ini digunakan untuk menangani masalah pengelasan berbilang kategori, seperti kaedah pengelasan satu-ke-banyak dan satu-ke-satu.
Algoritma pembelajaran mendalam: Algoritma ini mengklasifikasikan data dengan membina rangkaian saraf berbilang lapisan, termasuk rangkaian saraf konvolusi dan rangkaian saraf berulang.
Algoritma Peraturan Keputusan: Algoritma ini mengklasifikasikan data dengan menjana satu set peraturan, seperti algoritma C4.5 dan CN2.
Algoritma Analisis Diskriminasi Fisher: Algoritma ini melakukan pengelasan dengan memaksimumkan jarak antara kategori dan meminimumkan varians dalam kategori.
Algoritma regresi linear: Algoritma ini mengklasifikasikan data dengan mewujudkan model linear, yang merupakan fungsi jumlah wajaran nilai ciri.
Algoritma Hutan Keputusan: Algoritma ini ialah varian hutan rawak, yang menggunakan idea subruang rawak dan menggunakan subset ciri yang berbeza untuk setiap pokok keputusan semasa proses latihan.
Algoritma Perceptron: Algoritma ini menentukan hyperplane dengan mempelajari hubungan antara data input dan data output, membahagikan data kepada dua kategori.
Algoritma Model Gaussian Campuran: Algoritma ini menggunakan berbilang taburan Gaussian untuk memodelkan data, setiap taburan Gaussian sepadan dengan kategori.
Algoritma KNN yang dipertingkatkan: Algoritma ini menggunakan algoritma KNN untuk pengelasan, tetapi untuk nilai ciri yang hilang, ia menggunakan algoritma KNNImpute untuk mengisi dan menggunakan algoritma KNN+ untuk mengurangkan kesan hingar.
Atas ialah kandungan terperinci Kajian semula algoritma klasifikasi yang diselia dan cara ia berfungsi. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!