Rumah >pembangunan bahagian belakang >Tutorial Python >Pembelajaran Mesin dalam Python Menggunakan Scikit-Learn: Panduan Pemula
Adakah anda berminat untuk belajar tentang pembelajaran mesin menggunakan Python? Jangan lihat lebih jauh daripada perpustakaan Scikit-Learn! Pustaka ular sawa yang popular ini direka untuk perlombongan data, analisis dan pembinaan model yang cekap. Dalam panduan ini, kami akan memperkenalkan anda kepada asas Scikit-Learn dan cara anda boleh mula menggunakannya untuk projek pembelajaran mesin anda.
Apakah Scikit-Learn?
Scikit-Learn ialah alat yang berkuasa dan mudah digunakan untuk perlombongan dan analisis data. Ia dibina di atas perpustakaan popular lain seperti NumPy, SciPy dan Matplotlib. Ia adalah sumber terbuka dan mempunyai lesen BSD yang tersedia secara komersial, menjadikannya boleh diakses oleh sesiapa sahaja untuk digunakan.
Apa yang Boleh Anda Lakukan dengan Scikit-Learn?
Scikit-Learn digunakan secara meluas untuk tiga tugas utama dalam pembelajaran mesin:
1. Klasifikasi
Pengelasan melibatkan mengenal pasti kategori mana objek tergolong. Contohnya, meramalkan sama ada e-mel adalah spam atau tidak.
2. Regresi
Regresi ialah proses meramal pembolehubah berterusan berdasarkan pembolehubah bebas yang relevan. Contohnya, menggunakan harga saham lepas untuk meramalkan harga masa hadapan.
3. Mengelompokkan
Pengelompokan melibatkan pengelompokan objek yang serupa ke dalam kelompok yang berbeza secara automatik. Contohnya, membahagikan pelanggan berdasarkan corak pembelian.
Bagaimana untuk Memasang Scikit-Learn?
Jika anda menggunakan sistem pengendalian Windows, berikut ialah panduan langkah demi langkah untuk memasang Scikit-Learn:
Pasang Python dengan memuat turunnya daripada https://www.python.org/downloads/. Buka terminal dengan mencari ‘cmd’ dan masukkan python --version untuk menyemak versi yang dipasang.
Pasang NumPy dengan memuat turun pemasang daripada https://sourceforge.net/projects/numpy/files/NumPy/1.10.2/.
Muat turun pemasang SciPy dariSciPy: Perpustakaan Saintifik untuk Python - Semak imbas /scipy/0.16.1 di SourceForge.net.
Pasang Pip dengan menaip python get_pip.py dalam terminal baris arahan.
Akhir sekali, pasang scikit-learn dengan menaip pip install scikit-learn dalam baris arahan.
Apakah Set Data Scikit?
Set data Scikit ialah set data terbina dalam yang disediakan oleh pustaka untuk pengguna berlatih dan menguji model mereka. Anda boleh mencari nama set data ini di https://scikit-learn.org/stable/datasets/index.html. Untuk panduan ini, kami akan menggunakan set data kualiti wain merah, yang juga boleh dimuat turun daripada Kaggle.
Mengimport Set Data dan Modul
Untuk mula menggunakan Scikit-Learn, kami perlu mengimport modul dan set data yang diperlukan terlebih dahulu.
Import modul panda dan gunakan kaedah read_csv() untuk membaca fail .csv dan tukarkannya menjadi DataFrame panda.
Modul yang akan kami gunakan ialah:
Set Latihan dan Set Ujian
Membahagikan data kepada set latihan dan ujian adalah penting untuk menganggar prestasi model anda. Set latihan digunakan untuk membina dan menguji algoritma kami, manakala set ujian digunakan untuk menilai ketepatan ramalan kami.
Untuk memisahkan data kami, kami akan menggunakan fungsi train_test_split() yang disediakan oleh Scikit-Learn.
Data Prapemprosesan
Prapemprosesan data ialah langkah awal dan paling penting yang meningkatkan kualiti model. Ia melibatkan menjadikan data sesuai untuk digunakan dalam model pembelajaran mesin.
Satu teknik prapemprosesan biasa ialah penyeragaman, yang menyeragamkan julat ciri data input sebelum menggunakan model pembelajaran mesin. Untuk ini, kita boleh menggunakan API Transformer yang disediakan oleh Scikit-Learn.
Memahami Hiperparameter dan Pengesahan Silang
Hiperparameter ialah konsep peringkat lebih tinggi, seperti kerumitan dan kadar pembelajaran, yang tidak boleh dipelajari secara langsung daripada data dan perlu dipratakrifkan.
Untuk menilai prestasi generalisasi model dan mengelakkan pemasangan berlebihan, pengesahan silang ialah teknik penilaian yang penting. Ini melibatkan membahagikan set data kepada N bahagian rawak dengan isipadu yang sama.
Menilai Prestasi Model
Selepas melatih dan menguji model kami, tiba masanya untuk menilai prestasinya menggunakan pelbagai metrik. Untuk ini, kami akan mengimport metrik yang kami perlukan, seperti r2_score dan mean_squared_error.
Fungsi r2_score mengira varians pembolehubah bersandar untuk pembolehubah tidak bersandar, manakala mean_squared_error mengira purata kuasa dua ralat. Adalah penting untuk mengingati matlamat model untuk menentukan sama ada prestasi itu mencukupi.
Jangan lupa simpan model anda untuk kegunaan masa hadapan!
Kesimpulannya, kami telah merangkumi asas penggunaan Scikit-Learn untuk pembelajaran mesin dalam Python. Dengan mengikuti langkah-langkah yang digariskan dalam panduan ini, anda boleh mula meneroka dan menggunakan Scikit-Learn untuk projek perlombongan dan analisis data anda sendiri. Dengan antara muka mesra pengguna dan pelbagai ciri, Scikit-Learn ialah alat yang berkuasa untuk pemula dan saintis data yang berpengalaman.
Tingkatkan kebolehan pengekodan Python anda dengan menggunakan Ujian Amalan Pensijilan Python yang tersedia di MyExamCloud.
Atas ialah kandungan terperinci Pembelajaran Mesin dalam Python Menggunakan Scikit-Learn: Panduan Pemula. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!