Rumah >Peranti teknologi >AI >Gunakan pengelas pokok keputusan untuk menentukan kaedah pemilihan ciri utama dalam set data
Pengelas pokok keputusan ialah algoritma pembelajaran diselia berdasarkan struktur pokok. Ia membahagikan set data kepada berbilang unit membuat keputusan, setiap unit sepadan dengan set keadaan ciri dan nilai output yang diramalkan. Dalam tugas pengelasan, pengelas pepohon keputusan membina model pepohon keputusan dengan mempelajari perhubungan antara ciri dan label dalam set data latihan, dan mengelaskan sampel baharu kepada nilai output ramalan yang sepadan. Dalam proses ini, memilih ciri penting adalah penting. Artikel ini menerangkan cara menggunakan pengelas pokok keputusan untuk memilih ciri penting daripada set data.
Pemilihan ciri adalah untuk memilih ciri yang paling mewakili daripada set data asal untuk meramalkan pembolehubah sasaran dengan lebih tepat. Dalam aplikasi praktikal, mungkin terdapat banyak ciri berlebihan atau tidak relevan, yang akan mengganggu proses pembelajaran model dan membawa kepada penurunan dalam keupayaan generalisasi model. Oleh itu, memilih satu set ciri yang paling mewakili boleh meningkatkan prestasi model dengan berkesan dan mengurangkan risiko overfitting.
Pengkelas pokok keputusan ialah pengelas berdasarkan struktur pokok. Ia menggunakan perolehan maklumat untuk menilai kepentingan ciri. Lebih besar perolehan maklumat, lebih besar kesan ciri pada hasil pengelasan. Oleh itu, dalam pengelas pokok keputusan, ciri dengan perolehan maklumat yang lebih besar dipilih untuk pengelasan. Langkah-langkah untuk pemilihan ciri adalah seperti berikut:
1 Kira perolehan maklumat setiap ciri
Perolehan maklumat merujuk kepada tahap pengaruh ciri pada hasil pengelasan, yang boleh diukur dengan entropi. Lebih kecil entropi, lebih tinggi ketulenan set data, yang bermaksud lebih besar kesan ciri pada pengelasan. Dalam pengelas pokok keputusan, formula boleh digunakan untuk mengira keuntungan maklumat bagi setiap ciri:
nama pengendali{Gain}(F)=nama pengendali{Ent}(S)-sum_{vinoperatorname{Values}(F)} frac{ kiri|S_{v}kanan|}{|S|}nama pengendali{Ent}kiri(S_{v}kanan)
di mana, nama operator{Ent}(S) mewakili entropi set data S, kiri |S_{ v}kanan|. mewakili set sampel yang nilainya ialah v untuk ciri F, dan nama operator{Ent}kiri(S_{v}kanan) mewakili entropi set sampel yang nilainya ialah v. Lebih besar perolehan maklumat, lebih besar kesan ciri ini pada keputusan pengelasan.
2 Pilih ciri dengan keuntungan maklumat terbesar
Selepas mengira keuntungan maklumat bagi setiap ciri, pilih ciri dengan keuntungan maklumat terbesar sebagai ciri pembahagian pengelas. Set data kemudiannya dibahagikan kepada berbilang subset berdasarkan ciri ini, dan langkah di atas dilakukan secara rekursif pada setiap subset sehingga syarat berhenti dipenuhi.
3. satu kategori sampel, iaitu Pengumpulan sampel dibahagikan kepada nod daun.
Perolehan maklumat semua ciri adalah kurang daripada ambang tertentu, dan set sampel dibahagikan kepada nod daun.
Atas ialah kandungan terperinci Gunakan pengelas pokok keputusan untuk menentukan kaedah pemilihan ciri utama dalam set data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!