Rumah >Peranti teknologi >AI >Teknik pemisahan data dan perangkap - cara menggunakan set latihan, set pengesahan dan set ujian

Teknik pemisahan data dan perangkap - cara menggunakan set latihan, set pengesahan dan set ujian

王林ke hadapan: 2024-01-22 14:45:28841semak imbas

Untuk membina model pembelajaran mesin yang boleh dipercayai, pemisahan set data adalah penting. Proses pemisahan melibatkan pembahagian set data kepada set latihan, pengesahan dan ujian. Artikel ini bertujuan untuk memperkenalkan secara terperinci konsep ketiga-tiga koleksi ini, teknik pemisahan data, dan perangkap yang boleh berlaku dengan mudah.

Set latihan, set pengesahan dan set ujian

Set latihan

Set latihan ialah set data yang digunakan untuk melatih dan membolehkan model mempelajari ciri/corak tersembunyi dalam data.

Dalam setiap zaman, data latihan yang sama berulang kali dimasukkan ke dalam seni bina rangkaian saraf, dan model terus mempelajari ciri-ciri data.

Set latihan harus mempunyai set input yang pelbagai supaya model dilatih dalam semua senario dan boleh meramalkan kemungkinan sampel data masa hadapan.

Set pengesahan

Set pengesahan ialah set data, berasingan daripada set latihan, digunakan untuk mengesahkan prestasi model semasa latihan.

Proses pengesahan ini menyediakan maklumat yang membantu menala hiperparameter dan konfigurasi model. Model dilatih pada set latihan, manakala model dinilai pada set pengesahan selepas setiap zaman. .

Set Ujian

Set ujian ialah set data berasingan yang digunakan untuk menguji model selepas menamatkan latihan. Ia menyediakan metrik prestasi model akhir yang tidak berat sebelah dari segi ketepatan, ketepatan, dsb. Ringkasnya, set ujian mencerminkan prestasi model.

Cara membahagikan set data

Mencipta sampel dan pecahan berbeza dalam set data membantu menilai prestasi model sebenar. Kadar pemisahan set data bergantung pada bilangan sampel dan model yang terdapat dalam set data.

Inferens biasa tentang pemisahan set data

Jika terdapat berbilang hiperparameter yang perlu ditala, model pembelajaran mesin memerlukan set pengesahan yang lebih besar untuk mengoptimumkan prestasi model. Begitu juga, jika model mempunyai sedikit atau tiada hiperparameter, ia boleh disahkan dengan mudah menggunakan set data yang kecil.

Jika kes penggunaan model membawa kepada ramalan yang salah yang akan menjejaskan prestasi model secara serius, adalah lebih baik untuk mengesahkan model selepas setiap zaman untuk membolehkan model mempelajari senario yang berbeza.

Apabila dimensi/ciri data meningkat, hiperparameter fungsi rangkaian saraf juga meningkat, menjadikan model lebih kompleks. Dalam kes ini, sejumlah besar data harus disimpan dalam set latihan bersama dengan set pengesahan.

Teknik Pemisahan Data

1. Persampelan Rawak

Pensampelan rawak ialah kaedah tertua dan paling popular untuk membahagikan set data. Seperti namanya, set data dikocok dan sampel dipilih secara rawak dan diletakkan ke dalam set latihan, pengesahan atau ujian berdasarkan peratusan yang diberikan oleh pengguna.

Walau bagaimanapun, kaedah ini mempunyai kelemahan yang jelas. Persampelan rawak berfungsi paling baik pada set data seimbang kelas, iaitu set data dengan bilangan sampel yang lebih kurang sama dalam setiap kelas set data. Dalam kes set data tidak seimbang kelas, kaedah pemisahan data ini mungkin menimbulkan berat sebelah.

2. Persampelan Berstrata

Persampelan berstrata mengurangkan masalah persampelan rawak dalam set data dengan pengagihan kelas yang tidak seimbang. Pengagihan kelas dalam setiap latihan, pengesahan dan set ujian boleh dikekalkan. Persampelan berstrata ialah cara yang lebih adil untuk memisahkan data.

3. Pengesahan silang

Pengesahan silang atau Pengesahan silang K-Fold ialah teknik pemisahan data yang lebih berkuasa di mana model dilatih dan dinilai masa "K" pada sampel yang berbeza.

Dedahkan model pembelajaran mesin kepada pengedaran data yang berbeza menggunakan pengesahan silang K-Fold. Pada tahap tertentu, bias yang mungkin berlaku semasa memilih data dalam set latihan dan pengesahan dikurangkan. Apabila menggunakan skim pengesahan silang K-Fold, adalah perkara biasa untuk melaporkan nilai min dan sisihan piawai.

Oleh itu, pengesahan silang K-Fold juga mempunyai masalah yang sama seperti pensampelan rawak, dan pengedaran data mungkin berat sebelah. Stratifikasi boleh digunakan untuk mengekalkan analogi data sambil menjana subset "K" atau bahagian data.

Perangkap biasa dalam pemisahan data

11 Menggunakan data latihan berkualiti rendah

Memandangkan algoritma pembelajaran mesin sensitif kepada data latihan, walaupun perubahan kecil/ralat dalam set latihan boleh menjejaskan prestasi model. ralat telah berlaku. Oleh itu kualiti data latihan adalah penting untuk meningkatkan prestasi model.

2. Overfitting

Overfitting berlaku apabila model pembelajaran mesin tidak dapat mengelaskan data yang tidak diketahui. Bunyi atau turun naik dalam data latihan dianggap sebagai ciri dan dipelajari oleh model. Ini menghasilkan model yang berprestasi baik dalam set latihan tetapi lemah dalam set pengesahan dan ujian.

3. Terlalu menekankan pada pengesahan dan metrik set ujian

Metrik set pengesahan ialah metrik yang menentukan laluan latihan model. Selepas setiap zaman, model pembelajaran mesin dinilai pada set pengesahan. Berdasarkan penunjuk set pengesahan, kira tempoh kerugian yang sepadan dan ubah suai hiperparameter. Metrik harus dipilih supaya ia mempunyai kesan positif pada keseluruhan trajektori prestasi model.

Atas ialah kandungan terperinci Teknik pemisahan data dan perangkap - cara menggunakan set latihan, set pengesahan dan set ujian. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

架构算法

Kenyataan：

Artikel ini dikembalikan pada:163.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel sebelumnya：Sifat autoregresif model bahasaArtikel seterusnya：Sifat autoregresif model bahasa

Artikel berkaitan

Lihat lagi