Gambaran keseluruhan kaedah ensemble dalam pembelajaran mesin
Bayangkan anda membeli-belah dalam talian dan anda mendapati dua kedai menjual produk yang sama dengan rating yang sama. Walau bagaimanapun, yang pertama dinilai oleh hanya seorang dan yang kedua dinilai oleh 100 orang. Penilaian yang manakah lebih anda percayai? Produk manakah yang akan anda pilih untuk dibeli pada akhirnya? Jawapan bagi kebanyakan orang adalah mudah. Pendapat 100 orang sudah tentu lebih dipercayai daripada pendapat hanya satu. Ini dipanggil "kebijaksanaan orang ramai" dan itulah sebabnya pendekatan ensemble berfungsi.
Kaedah ensemble
Biasanya, kami hanya mencipta pelajar (pembelajar = model latihan) daripada data latihan (iaitu, kita hanya mencipta pelajar (pembelajar) = model latihan) daripada data latihan) untuk melatih model pembelajaran mesin). Kaedah ensemble adalah untuk membiarkan beberapa pelajar menyelesaikan masalah yang sama dan kemudian menggabungkannya bersama-sama. Pelajar ini dipanggil pelajar asas dan boleh mempunyai sebarang algoritma asas, seperti rangkaian saraf, mesin vektor sokongan, pepohon keputusan, dsb. Jika semua pelajar asas ini terdiri daripada algoritma yang sama maka mereka dipanggil pelajar asas homogen, manakala jika mereka terdiri daripada algoritma yang berbeza maka mereka dipanggil pelajar asas heterogen. Berbanding dengan pelajar asas tunggal, ensemble mempunyai keupayaan generalisasi yang lebih baik, menghasilkan keputusan yang lebih baik.
Apabila kaedah ensemble terdiri daripada pelajar lemah. Oleh itu, pelajar asas kadang-kadang dipanggil pelajar lemah. Manakala model ensemble atau pelajar kuat (yang merupakan gabungan pelajar lemah ini) mempunyai bias/variance yang lebih rendah dan mencapai prestasi yang lebih baik. Keupayaan pendekatan bersepadu ini untuk mengubah pelajar yang lemah kepada pelajar yang kuat telah menjadi popular kerana pelajar yang lemah lebih mudah didapati dalam amalan.
Dalam beberapa tahun kebelakangan ini, kaedah bersepadu telah memenangi pelbagai pertandingan dalam talian secara berterusan. Selain pertandingan dalam talian, kaedah ensemble juga digunakan dalam aplikasi kehidupan sebenar seperti teknologi penglihatan komputer seperti pengesanan objek, pengecaman dan pengesanan.
Jenis utama kaedah ensembel
Bagaimanakah pelajar lemah dijana?
Mengikut kaedah penjanaan pelajar asas, kaedah pengamiran boleh dibahagikan kepada dua kategori besar iaitu kaedah pengamiran berurutan dan kaedah pengamiran selari. Seperti namanya, dalam kaedah ensemble Sequential, pelajar asas dijana secara berurutan dan kemudian digabungkan untuk membuat ramalan, seperti algoritma Boosting seperti AdaBoost. Dalam kaedah ensemble Selari, pelajar asas dijana secara selari dan kemudian digabungkan untuk ramalan, seperti algoritma pembungkusan seperti hutan rawak dan susun. Rajah berikut menunjukkan seni bina ringkas yang menerangkan pendekatan selari dan berurutan.
Mengikut kaedah penjanaan pelajar asas yang berbeza, kaedah integrasi boleh dibahagikan kepada dua kategori utama: kaedah integrasi berjujukan dan kaedah integrasi selari. Seperti namanya, dalam kaedah ensemble berjujukan, pelajar asas dijana mengikut tertib dan kemudian digabungkan untuk membuat ramalan, seperti algoritma Boosting seperti AdaBoost. Dalam kaedah ensembel selari, pelajar asas dijana secara selari dan kemudian digabungkan bersama untuk ramalan, seperti algoritma beg seperti Random Forest dan Stacking. Rajah di bawah menunjukkan seni bina ringkas yang menerangkan kedua-dua pendekatan selari dan berurutan.
Kaedah Penyepaduan Selari dan Berurutan
Kaedah pembelajaran berurutan menggunakan kebergantungan antara pelajar lemah untuk meningkatkan prestasi keseluruhan dalam cara yang semakin berkurangan, supaya pelajar Kemudian memberi lebih perhatian kepada kesilapan bekas pelajar. Secara kasarnya (untuk masalah regresi), pengurangan dalam ralat model ensemble yang diperoleh dengan kaedah penggalak dicapai terutamanya dengan mengurangkan berat sebelah tinggi pelajar lemah, walaupun pengurangan dalam varians kadangkala diperhatikan. Sebaliknya, kaedah ensemble selari mengurangkan kesilapan dengan menggabungkan pelajar lemah bebas, iaitu, ia mengeksploitasi kebebasan antara pelajar lemah. Pengurangan ralat ini adalah disebabkan oleh pengurangan dalam varians model pembelajaran mesin. Oleh itu, kita boleh merumuskan bahawa rangsangan terutamanya mengurangkan ralat dengan mengurangkan berat sebelah model pembelajaran mesin, manakala beg mengurangkan ralat dengan mengurangkan varians model pembelajaran mesin. Ini penting kerana kaedah ensembel yang dipilih bergantung kepada sama ada pelajar yang lemah mempunyai varians yang tinggi atau bias yang tinggi.
Bagaimana untuk menggabungkan pelajar yang lemah?
Selepas menjana apa yang dipanggil pelajar asas ini, kami tidak memilih yang terbaik daripada pelajar ini, tetapi menggabungkan mereka bersama-sama untuk generalisasi yang lebih baik, cara kami melakukan ini adalah secara ensemble memainkan peranan penting dalam kaedah.
Purata: Apabila output ialah nombor, cara paling biasa untuk menggabungkan pelajar asas ialah purata. Purata boleh menjadi purata mudah atau purata wajaran. Untuk masalah regresi, purata mudah ialah jumlah ralat semua model asas dibahagikan dengan jumlah bilangan pelajar. Output gabungan purata berwajaran dicapai dengan memberikan pemberat yang berbeza kepada setiap pelajar asas. Untuk masalah regresi, kami mendarabkan ralat setiap pelajar asas dengan berat yang diberikan dan kemudian menjumlahkan.
Pengundian: Untuk keluaran nominal, pengundian ialah cara paling biasa untuk menggabungkan pelajar asas. Pengundian boleh terdiri daripada jenis yang berbeza seperti undian majoriti, undian majoriti, undian wajaran dan undian lembut. Untuk masalah klasifikasi, undian majoriti besar memberikan setiap pelajar satu undi, dan mereka mengundi untuk label kelas. Mana-mana label kelas yang mendapat lebih daripada 50% undian adalah hasil ramalan ensembel itu. Walau bagaimanapun, jika tiada label kelas mendapat lebih daripada 50% undian, pilihan penolakan diberikan, yang bermaksud bahawa ensembel gabungan tidak boleh membuat sebarang ramalan. Dalam undian majoriti relatif, label kelas dengan undian terbanyak ialah hasil ramalan dan lebih daripada 50% undian tidak diperlukan untuk label kelas. Bermakna, jika kita mempunyai tiga label keluaran, dan ketiga-tiganya mendapat hasil kurang daripada 50%, seperti 40% 30% 30%, maka mendapat 40% daripada label kelas adalah hasil ramalan model ensemble. . Pengundian wajaran, seperti purata wajaran, memberikan wajaran kepada pengelas berdasarkan kepentingannya dan kekuatan pelajar tertentu. Undian lembut digunakan untuk keluaran kelas dengan kebarangkalian (nilai antara 0 dan 1) dan bukannya label (perduaan atau lain-lain). Undian lembut dibahagikan lagi kepada undian lembut mudah (purata mudah kebarangkalian) dan undian lembut wajaran (wajaran diberikan kepada pelajar, dan kebarangkalian didarab dengan wajaran ini dan ditambah).
Pembelajaran: Kaedah gabungan lain ialah gabungan melalui pembelajaran, yang digunakan oleh kaedah ensembel susun. Dalam pendekatan ini, pelajar berasingan yang dipanggil meta-pembelajar dilatih pada set data baharu untuk menggabungkan pelajar asas/lemah lain yang dijana daripada set data pembelajaran mesin asal.
Sila ambil perhatian bahawa sama ada meningkatkan, membungkus atau menyusun, ketiga-tiga kaedah ensembel boleh dijana menggunakan pelajar lemah homogen atau heterogen. Pendekatan yang paling biasa ialah menggunakan pelajar lemah homogen untuk Membonceng dan Mendorong, dan pelajar lemah heterogen untuk Menyusun. Rajah di bawah memberikan klasifikasi yang baik bagi tiga kaedah ensemble utama.
Kelaskan jenis utama kaedah ensembel
Kepelbagaian ensemble
Kepelbagaian ensemble merujuk kepada perbezaan antara pelajar asas Seberapa besar ia , yang mempunyai implikasi penting untuk menjana model ensemble yang baik. Secara teorinya telah dibuktikan bahawa, melalui kaedah gabungan yang berbeza, pelajar asas yang bebas sepenuhnya (pelbagai) boleh meminimumkan kesilapan, manakala pelajar yang berkaitan sepenuhnya (sangat) tidak membawa sebarang peningkatan. Ini adalah masalah yang mencabar dalam kehidupan sebenar, kerana kami melatih semua pelajar yang lemah untuk menyelesaikan masalah yang sama dengan menggunakan set data yang sama, menghasilkan korelasi yang tinggi. Di samping itu, kita perlu memastikan bahawa pelajar yang lemah bukanlah model yang benar-benar buruk, kerana ini mungkin menyebabkan prestasi ensemble merosot. Sebaliknya, menggabungkan pelajar asas yang kuat dan tepat mungkin tidak berkesan seperti menggabungkan beberapa pelajar yang lemah dengan beberapa pelajar yang kuat. Oleh itu, keseimbangan perlu dicapai antara ketepatan pelajar asas dan perbezaan antara pelajar asas.
Bagaimana untuk mencapai kepelbagaian integrasi?
1. Pemprosesan Data
Kami boleh membahagikan set data kami kepada subset untuk pelajar asas. Jika set data pembelajaran mesin adalah besar, kami hanya boleh membahagi set data kepada bahagian yang sama dan memasukkannya ke dalam model pembelajaran mesin. Jika set data kecil, kami boleh menggunakan pensampelan rawak dengan penggantian untuk menjana set data baharu daripada set data asal. Kaedah bagging menggunakan teknik bootstrap untuk menjana set data baharu, yang pada asasnya adalah pensampelan rawak dengan penggantian. Dengan bootstrap kami dapat mencipta beberapa kerawak kerana semua set data yang dijana mesti mempunyai beberapa nilai yang berbeza. Walau bagaimanapun, ambil perhatian bahawa kebanyakan nilai (kira-kira 67% mengikut teori) masih akan diulang, jadi set data tidak akan bebas sepenuhnya.
2. Ciri input
Semua set data mengandungi ciri yang memberikan maklumat tentang data. Daripada menggunakan semua ciri dalam satu model, kami boleh membuat subset ciri dan menjana set data yang berbeza dan memasukkannya ke dalam model. Kaedah ini diguna pakai oleh teknik hutan rawak dan berkesan apabila terdapat sejumlah besar ciri berlebihan dalam data. Keberkesanan berkurangan apabila terdapat sedikit ciri dalam set data.
3. Parameter pembelajaran
Teknik ini menjana rawak dalam pelajar asas dengan menggunakan tetapan parameter yang berbeza pada algoritma pembelajaran asas, iaitu, penalaan hiperparameter. Sebagai contoh, dengan menukar istilah penyusunan semula, pemberat awal yang berbeza boleh diberikan kepada rangkaian saraf individu.
Pemangkasan Integrasi
Akhir sekali, teknologi pemangkasan penyepaduan boleh membantu mencapai prestasi penyepaduan yang lebih baik dalam beberapa kes. Pemangkasan Ensemble bermakna kami hanya menggabungkan subset pelajar dan bukannya menggabungkan semua pelajar lemah. Di samping itu, penyepaduan yang lebih kecil boleh menjimatkan sumber storan dan pengkomputeran, dengan itu meningkatkan kecekapan.
Akhir sekali
Artikel ini hanyalah gambaran keseluruhan kaedah ensembel pembelajaran mesin. Saya berharap semua orang dapat menjalankan penyelidikan yang lebih mendalam, dan yang lebih penting, dapat mengaplikasikan penyelidikan itu dalam kehidupan sebenar.
Atas ialah kandungan terperinci Gambaran keseluruhan kaedah ensemble dalam pembelajaran mesin. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Meneroka kerja -kerja dalam model bahasa dengan skop Gemma Memahami kerumitan model bahasa AI adalah satu cabaran penting. Pelepasan Google Gemma Skop, Toolkit Komprehensif, menawarkan penyelidik cara yang kuat untuk menyelidiki

Membuka Kejayaan Perniagaan: Panduan untuk Menjadi Penganalisis Perisikan Perniagaan Bayangkan mengubah data mentah ke dalam pandangan yang boleh dilakukan yang mendorong pertumbuhan organisasi. Ini adalah kuasa penganalisis Perniagaan Perniagaan (BI) - peranan penting dalam GU

Pernyataan Jadual Alter SQL: Menambah lajur secara dinamik ke pangkalan data anda Dalam pengurusan data, kebolehsuaian SQL adalah penting. Perlu menyesuaikan struktur pangkalan data anda dengan cepat? Pernyataan Jadual ALTER adalah penyelesaian anda. Butiran panduan ini menambah colu

Pengenalan Bayangkan pejabat yang sibuk di mana dua profesional bekerjasama dalam projek kritikal. Penganalisis perniagaan memberi tumpuan kepada objektif syarikat, mengenal pasti bidang penambahbaikan, dan memastikan penjajaran strategik dengan trend pasaran. Simu

Pengiraan dan Analisis Data Excel: Penjelasan terperinci mengenai fungsi Count dan Counta Pengiraan dan analisis data yang tepat adalah kritikal dalam Excel, terutamanya apabila bekerja dengan set data yang besar. Excel menyediakan pelbagai fungsi untuk mencapai matlamat ini, dengan fungsi Count dan CountA menjadi alat utama untuk mengira bilangan sel di bawah keadaan yang berbeza. Walaupun kedua -dua fungsi digunakan untuk mengira sel, sasaran reka bentuk mereka disasarkan pada jenis data yang berbeza. Mari menggali butiran khusus fungsi Count dan Counta, menyerlahkan ciri dan perbezaan unik mereka, dan belajar cara menerapkannya dalam analisis data. Gambaran keseluruhan perkara utama Memahami kiraan dan cou

Revolusi AI Google Chrome: Pengalaman melayari yang diperibadikan dan cekap Kecerdasan Buatan (AI) dengan cepat mengubah kehidupan seharian kita, dan Google Chrome mengetuai pertuduhan di arena pelayaran web. Artikel ini meneroka exciti

Impak Reimagining: garis bawah empat kali ganda Selama terlalu lama, perbualan telah dikuasai oleh pandangan sempit kesan AI, terutama memberi tumpuan kepada keuntungan bawah. Walau bagaimanapun, pendekatan yang lebih holistik mengiktiraf kesalinghubungan BU

Perkara bergerak terus ke arah itu. Pelaburan yang dicurahkan ke dalam penyedia perkhidmatan kuantum dan permulaan menunjukkan bahawa industri memahami kepentingannya. Dan semakin banyak kes penggunaan dunia nyata muncul untuk menunjukkan nilainya


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod

Versi Mac WebStorm
Alat pembangunan JavaScript yang berguna

Pelayar Peperiksaan Selamat
Pelayar Peperiksaan Selamat ialah persekitaran pelayar selamat untuk mengambil peperiksaan dalam talian dengan selamat. Perisian ini menukar mana-mana komputer menjadi stesen kerja yang selamat. Ia mengawal akses kepada mana-mana utiliti dan menghalang pelajar daripada menggunakan sumber yang tidak dibenarkan.

SublimeText3 versi Inggeris
Disyorkan: Versi Win, menyokong gesaan kod!

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa