Rumah > Artikel > Peranti teknologi > Algoritma C4.5 untuk membina semula pepohon keputusan
Algoritma pepohon keputusan C4.5 ialah versi algoritma ID3 yang dipertingkat, yang membina pepohon keputusan berdasarkan entropi maklumat dan perolehan maklumat. Ia digunakan secara meluas dalam masalah klasifikasi dan regresi dan merupakan salah satu algoritma yang paling biasa digunakan dalam bidang pembelajaran mesin dan perlombongan data.
Idea teras algoritma C4.5 adalah untuk memaksimumkan perolehan maklumat dengan memisahkan set data. Algoritma ini menggunakan kaedah pemisahan rekursif atas ke bawah, bermula dari nod akar dan memilih ciri optimum untuk pemisahan berdasarkan set data sedia ada. Dengan mengira keuntungan maklumat bagi setiap ciri, ciri dengan keuntungan maklumat terbesar dipilih sebagai ciri pemisahan dan set data dibahagikan kepada berbilang subset berdasarkan nilai ciri. Setiap subset sepadan dengan subpohon, dan kemudian operasi membelah yang sama dilakukan pada setiap subset secara rekursif sehingga semua nod daun tergolong dalam kategori yang sama atau keadaan berhenti yang telah ditetapkan dicapai. Pohon keputusan akhir boleh digunakan untuk mengklasifikasikan sampel baharu atau meramal regresi. Nod pokok keputusan mewakili ciri, tepi mewakili nilai ciri, dan nod daun mewakili kategori sampel atau nilai ramalan. Dengan mengikuti laluan dari nod akar ke nod daun pokok keputusan, kategori kepunyaan sampel atau nilai ramalan boleh ditentukan berdasarkan nilai ciri sampel. Kelebihan algoritma C4.5 ialah ia boleh mengendalikan ciri diskret dan berterusan, serta mempunyai kebolehtafsiran dan kefahaman yang baik. Walau bagaimanapun, algoritma C4.5 akan menyebabkan pepohon keputusan menjadi terlalu kompleks apabila terdapat banyak nilai ciri, dan ia terdedah kepada masalah pemasangan yang berlebihan. Untuk menyelesaikan masalah ini, pembuatan keputusan boleh dioptimumkan melalui kaedah seperti pemangkasan
Algoritma C4.5 memperkenalkan nisbah perolehan maklumat semasa pemilihan ciri Berbanding dengan perolehan maklumat algoritma ID3, ia menganggap entropi daripada ciri itu sendiri. Dengan membahagikan perolehan maklumat dengan entropi ciri, nisbah perolehan maklumat boleh menghapuskan pengaruh ciri itu sendiri dan dengan lebih tepat mengukur sumbangan ciri tersebut kepada pengelasan. Selain itu, algoritma C4.5 juga menggunakan strategi pemangkasan untuk mengelakkan masalah pemasangan berlebihan daripada berlaku.
Langkah khusus algoritma C4.5 adalah seperti berikut:
Dalam algoritma C4.5, untuk memilih ciri optimum untuk pemisahan, nisbah perolehan maklumat digunakan untuk menilai kepentingan ciri. Nisbah perolehan maklumat ditakrifkan sebagai perolehan maklumat dibahagikan dengan entropi ciri, dan formula pengiraannya ialah GainNisbah(D,A)=Gain(D,A)/SplitInformation(D,A). Dengan mengira nisbah perolehan maklumat bagi setiap ciri, ciri dengan nilai terbesar boleh dipilih sebagai ciri pemisahan yang optimum. Tujuannya adalah untuk mengambil kira pengaruh entropi ciri untuk mengatasi berat sebelah perolehan maklumat dan dengan itu memilih ciri yang lebih baik untuk pemisahan.
di mana Gain(D,A) mewakili keuntungan maklumat yang diperoleh dengan menggunakan ciri A untuk memisahkan set data D, dan SplitInformation(D,A) mewakili maklumat yang diperlukan untuk menggunakan ciri A untuk memisahkan set data D, iaitu, ciri Entropi A. Algoritma C4.5 memilih ciri dengan nisbah perolehan maklumat terbesar sebagai ciri pecahan nod semasa.
2. Bahagikan set data kepada beberapa subset berdasarkan nilai ciri yang dipilih. Untuk ciri diskret, setiap nilai sepadan dengan subset untuk ciri berterusan, kaedah dikotomi atau berbilang bahagian boleh digunakan untuk memisahkan untuk mendapatkan berbilang subset.
3 Lakukan operasi pemisahan yang sama secara rekursif pada setiap subset sehingga syarat berhenti dipenuhi. Keadaan berhenti boleh mencapai kedalaman pokok yang telah ditetapkan, bilangan nod daun, atau ketepatan pengelasan, dsb.
4. Lakukan operasi pemangkasan. Algoritma C4.5 menggunakan kaedah pasca pemangkasan untuk memangkas pokok keputusan yang lengkap selepas memperolehnya untuk mengalih keluar beberapa nod belah yang tidak berguna, dengan itu meningkatkan keupayaan generalisasi model.
Dan algoritma C4.5 juga boleh menangani masalah kehilangan nilai Ia menggunakan kaedah undian majoriti untuk menyelesaikan pemprosesan nilai yang hilang, iaitu nilai yang hilang diklasifikasikan ke dalam kategori yang paling banyak kejadian. .
Algoritma C4.5 mempunyai kelebihan berikut:
Algoritma C4.5 juga mempunyai beberapa kelemahan:
Ringkasnya, algoritma C4.5 ialah algoritma pepohon keputusan yang biasa digunakan Ia menggunakan entropi maklumat dan perolehan maklumat untuk memilih atribut partition terbaik Ia boleh menangani masalah berbilang kategori dan nilai yang hilang serta mempunyai ketepatan pengelasan yang tinggi . kecekapan dan kebolehtafsiran, dan digunakan secara meluas dalam bidang pembelajaran mesin dan perlombongan data.
Atas ialah kandungan terperinci Algoritma C4.5 untuk membina semula pepohon keputusan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!