Rumah  >  Artikel  >  Peranti teknologi  >  Gunakan pengelas pokok keputusan untuk menentukan kaedah pemilihan ciri utama dalam set data

Gunakan pengelas pokok keputusan untuk menentukan kaedah pemilihan ciri utama dalam set data

王林
王林ke hadapan
2024-01-22 20:21:181253semak imbas

Gunakan pengelas pokok keputusan untuk menentukan kaedah pemilihan ciri utama dalam set data

Pengelas pokok keputusan ialah algoritma pembelajaran diselia berdasarkan struktur pokok. Ia membahagikan set data kepada berbilang unit membuat keputusan, setiap unit sepadan dengan set keadaan ciri dan nilai output yang diramalkan. Dalam tugas pengelasan, pengelas pepohon keputusan membina model pepohon keputusan dengan mempelajari perhubungan antara ciri dan label dalam set data latihan, dan mengelaskan sampel baharu kepada nilai output ramalan yang sepadan. Dalam proses ini, memilih ciri penting adalah penting. Artikel ini menerangkan cara menggunakan pengelas pokok keputusan untuk memilih ciri penting daripada set data.

1. Kepentingan pemilihan ciri

Pemilihan ciri adalah untuk memilih ciri yang paling mewakili daripada set data asal untuk meramalkan pembolehubah sasaran dengan lebih tepat. Dalam aplikasi praktikal, mungkin terdapat banyak ciri berlebihan atau tidak relevan, yang akan mengganggu proses pembelajaran model dan membawa kepada penurunan dalam keupayaan generalisasi model. Oleh itu, memilih satu set ciri yang paling mewakili boleh meningkatkan prestasi model dengan berkesan dan mengurangkan risiko overfitting.

2. Gunakan pengelas pokok keputusan untuk pemilihan ciri

Pengkelas pokok keputusan ialah pengelas berdasarkan struktur pokok. Ia menggunakan perolehan maklumat untuk menilai kepentingan ciri. Lebih besar perolehan maklumat, lebih besar kesan ciri pada hasil pengelasan. Oleh itu, dalam pengelas pokok keputusan, ciri dengan perolehan maklumat yang lebih besar dipilih untuk pengelasan. Langkah-langkah untuk pemilihan ciri adalah seperti berikut:

1 Kira perolehan maklumat setiap ciri

Perolehan maklumat merujuk kepada tahap pengaruh ciri pada hasil pengelasan, yang boleh diukur dengan entropi. Lebih kecil entropi, lebih tinggi ketulenan set data, yang bermaksud lebih besar kesan ciri pada pengelasan. Dalam pengelas pokok keputusan, formula boleh digunakan untuk mengira keuntungan maklumat bagi setiap ciri:

nama pengendali{Gain}(F)=nama pengendali{Ent}(S)-sum_{vinoperatorname{Values}(F)} frac{ kiri|S_{v}kanan|}{|S|}nama pengendali{Ent}kiri(S_{v}kanan)

di mana, nama operator{Ent}(S) mewakili entropi set data S, kiri |S_{ v}kanan|. mewakili set sampel yang nilainya ialah v untuk ciri F, dan nama operator{Ent}kiri(S_{v}kanan) mewakili entropi set sampel yang nilainya ialah v. Lebih besar perolehan maklumat, lebih besar kesan ciri ini pada keputusan pengelasan.

2 Pilih ciri dengan keuntungan maklumat terbesar

Selepas mengira keuntungan maklumat bagi setiap ciri, pilih ciri dengan keuntungan maklumat terbesar sebagai ciri pembahagian pengelas. Set data kemudiannya dibahagikan kepada berbilang subset berdasarkan ciri ini, dan langkah di atas dilakukan secara rekursif pada setiap subset sehingga syarat berhenti dipenuhi.

3. satu kategori sampel, iaitu Pengumpulan sampel dibahagikan kepada nod daun.

Perolehan maklumat semua ciri adalah kurang daripada ambang tertentu, dan set sampel dibahagikan kepada nod daun.

    Apabila kedalaman pokok mencapai nilai maksimum pratetap, set sampel dibahagikan kepada nod daun.
  • 4. Elakkan overfitting
Semasa membina pokok keputusan, untuk mengelakkan overfitting, teknologi pemangkasan boleh digunakan. Pemangkasan merujuk kepada pemangkasan pokok keputusan yang dijana dan mengeluarkan beberapa cawangan yang tidak diperlukan untuk mengurangkan kerumitan model dan meningkatkan keupayaan generalisasi. Kaedah pemangkasan yang biasa digunakan termasuk pra-pemangkasan dan selepas pemangkasan.

Pra-pemangkasan bermaksud menilai setiap nod semasa proses penjanaan pokok keputusan Jika pemisahan nod semasa tidak dapat meningkatkan prestasi model, pemisahan akan dihentikan dan nod akan ditetapkan sebagai nod daun. Kelebihan pra-pemangkasan ialah ia mudah dikira, tetapi kelemahannya ialah ia mudah dikurangkan.

Pemangkasan selepas merujuk kepada pemangkasan pokok keputusan yang dijana selepas pokok keputusan dijana. Kaedah khusus adalah untuk menggantikan beberapa nod pokok keputusan dengan nod daun dan mengira prestasi model selepas pemangkasan. Jika prestasi model tidak menurun tetapi bertambah baik selepas pemangkasan, model pangkas akan dikekalkan. Kelebihan pemangkasan selepas pemangkasan ialah ia boleh mengurangkan pemasangan berlebihan, tetapi kelemahannya ialah kerumitan pengiraan yang tinggi.

Atas ialah kandungan terperinci Gunakan pengelas pokok keputusan untuk menentukan kaedah pemilihan ciri utama dalam set data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:163.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam