


Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python
Ringkasan
Artikel ini mengajar anda cara membahagikan set data kepada data latihan dan ujian serta menyimpan bahagian ini dalam fail .pkl, penting untuk melatih dan menilai model Pembelajaran Mesin dengan cara yang teratur. Proses ini menggunakan perpustakaan sklearn dan pickle, membolehkan anda menggunakan semula data yang diproses dalam projek masa hadapan. Artikel ini ialah langkah seterusnya dalam satu siri tutorial tentang prapemprosesan data.
Topik Utama Dilindungi:
- Penyediaan buku nota di Google Colab
- Pembahagian set data kepada data latihan dan ujian
- Penjelasan terperinci kod Python untuk pembahagian
- Menyimpan pecahan ke fail .pkl menggunakan jeruk
- Kelebihan menyimpan data yang diproses untuk kegunaan masa hadapan
Penting: Untuk mengikuti artikel ini, mula-mula baca artikel di bawah dalam urutan yang dicadangkan. Setiap artikel menyediakan asas yang anda perlukan untuk memahami seterusnya, memastikan anda memahami keseluruhan aliran kerja sehingga ke tahap ini.
Perkara 1: Mengaplikasikan Pembelajaran Mesin: Panduan untuk Bermula sebagai Model dalam Pengelasan
Perkara 2: Meneroka Klasifikasi dalam Pembelajaran Mesin: Jenis Pembolehubah
Artikel 3: Meneroka Google Colab: Rakan Anda untuk Pengekodan Model Pembelajaran Mesin
Perkara 4: Meneroka Data dengan Python di Google Colab: Panduan Praktikal Menggunakan Set Data adult.csv
Perkara 5: Menyahmistikan Pembahagian Peramal dan Kelas dan Pengendalian Atribut Kategori dengan LabelEncoder dan OneHotEncoder
Perkara 6: Penskalaan Data: Asas untuk Model Cekap
pengenalan
Dalam artikel ini, anda akan belajar cara membahagikan set data kepada latihan dan ujian, serta menyimpan bahagian ini dalam fail .pkl. Proses ini penting untuk memastikan pemisahan yang bersih antara data yang akan digunakan untuk melatih model dan yang akan digunakan untuk menilai prestasinya.
Memulakan proses dalam Google Colab
Pertama sekali, akses pautan buku nota ini dan pilih Fail > Simpan salinan ke Drive. Ingat bahawa set data (adult.csv) perlu dimuatkan sekali lagi dengan setiap siaran baharu (maklumat lanjut dalam Artikel 4 di atas), kerana setiap tutorial mencipta buku nota baharu, hanya menambah kod yang diperlukan yang dibentangkan dalam artikel ini, tetapi buku nota disertakan dengan semua kod yang dihasilkan setakat ini. Salinan buku nota akan disimpan di Google Drive, dalam folder Buku Nota Colab, memastikan proses teratur dan berterusan.
Mengapa membahagikan set data kepada latihan dan ujian?
Membahagikan set data ialah langkah asas dalam mana-mana projek Pembelajaran Mesin, kerana ia membolehkan model "belajar" daripada sebahagian data (latihan) dan kemudian dinilai pada data baharu, yang tidak pernah dilihat sebelum ini (ujian). Amalan ini penting untuk mengukur generalisasi model. Untuk memudahkan pemantauan, kami akan menggunakan pembolehubah berikut:
- X_adult_treinamento: pembolehubah peramal latihan
- X_adult_teste: pembolehubah peramal ujian
- y_adult_treinamento: pembolehubah sasaran latihan
- y_adult_teste: pembolehubah sasaran ujian
Kod Python untuk memisahkan set data
Di bawah ialah kod Python untuk melakukan pemisahan antara data latihan dan ujian:
from sklearn.model_selection import train_test_split X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0) # Dados para o treinamento X_adult_treinamento.shape, y_adult_treinamento.shape # Dados para o teste X_adult_teste.shape, y_adult_teste.shape
Rajah di bawah menunjukkan kod sebelumnya dengan outputnya selepas pelaksanaan.
Penjelasan Kod:
train_test_split: Berfungsi daripada pustaka sklearn yang membahagikan set data.
test_size=0.2: Menunjukkan bahawa 20% daripada data akan dikhaskan untuk ujian, dan baki 80% untuk latihan.
random_state=0: Memastikan pembahagian sentiasa sama, menjana hasil yang konsisten untuk setiap larian.
bentuk: Semak bentuk data selepas pemisahan untuk mengesahkan bahawa pemisahan berlaku dengan betul.
Menyimpan pemisahan ke fail .pkl
Untuk memudahkan kerja dan memastikan konsistensi antara larian yang berbeza, kami akan menyimpan pembolehubah latihan dan ujian dalam fail .pkl. Ini membolehkan anda menggunakan semula data apabila perlu, tanpa perlu melakukan pembahagian lagi.
Kod untuk menyimpan pembolehubah menggunakan jeruk:
import pickle with open('adult.pkl', mode='wb') as fl: pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)
Untuk melihat fail adult.pkl pada buku nota, cuma klik pada ikon folder di sebelah kiri seperti yang ditunjukkan dalam rajah di bawah.
Penjelasan Kod:
acar: Pustaka Python digunakan untuk menyerikan objek, membolehkan anda menyimpan pembolehubah kompleks dalam fail.
buang: Menyimpan pembolehubah dalam fail yang dipanggil adult.pkl. Fail ini akan dibaca pada masa hadapan untuk memuatkan set data yang dibahagikan kepada latihan dan ujian, mengoptimumkan aliran kerja.
Kesimpulan
Dalam artikel ini, anda mempelajari cara membahagikan set data kepada data latihan dan ujian serta menyimpannya dalam fail .pkl. Proses ini adalah asas dalam projek Pembelajaran Mesin, memastikan struktur yang teratur dan cekap. Dalam artikel seterusnya, kami akan membincangkan penciptaan model, bermula dengan algoritma Naive Bayes, menggunakan fail adult.pkl untuk meneruskan pembangunan.
Buku yang saya cadangkan
1. Statistik Praktikal untuk Saintis Data
2. Pengenalan kepada Pengkomputeran Menggunakan Python
3. 2041: Bagaimana Kepintaran Buatan Akan Mengubah Kehidupan Anda Dalam Dekad Akan Datang
4. Kursus Sawa Intensif
5. Memahami Algoritma. Panduan Bergambar untuk Pengaturcara dan Orang Lain Yang Ingin Tahu
6. Kecerdasan Buatan - Kai-Fu Lee
7. Pengenalan kepada Kepintaran Buatan - Pendekatan Bukan Teknikal - Tom Taulli
Kindle Baharu
Saya melakukan analisis terperinci tentang Kindle baharu yang dilancarkan tahun ini, menyerlahkan inovasi dan faedah utama mereka untuk pembaca digital. Lihat teks penuh di pautan berikut: Dunia Pembacaan Digital yang Menarik: Kelebihan Mempunyai Kindle.
Amazon Prime
Menyertai Amazon Prime menawarkan satu siri kelebihan, termasuk akses tanpa had kepada beribu-ribu filem, siri dan muzik, serta penghantaran percuma untuk berjuta-juta produk dengan penghantaran pantas. Ahli juga menikmati tawaran eksklusif, akses awal kepada promosi dan faedah pada perkhidmatan seperti Prime Video, Prime Music dan Prime Reading, menjadikan pengalaman membeli-belah dan hiburan lebih mudah dan kaya.
Jika anda berminat, gunakan pautan berikut: AMAZON PRIME, yang membantu saya terus mempromosikan kecerdasan buatan dan pengaturcaraan komputer.
Atas ialah kandungan terperinci Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

Python sesuai untuk sains data, pembangunan web dan tugas automasi, manakala C sesuai untuk pengaturcaraan sistem, pembangunan permainan dan sistem tertanam. Python terkenal dengan kesederhanaan dan ekosistem yang kuat, manakala C dikenali dengan keupayaan kawalan dan keupayaan kawalan yang mendasari.

Anda boleh mempelajari konsep pengaturcaraan asas dan kemahiran Python dalam masa 2 jam. 1. Belajar Pembolehubah dan Jenis Data, 2.

Python digunakan secara meluas dalam bidang pembangunan web, sains data, pembelajaran mesin, automasi dan skrip. 1) Dalam pembangunan web, kerangka Django dan Flask memudahkan proses pembangunan. 2) Dalam bidang sains data dan pembelajaran mesin, numpy, panda, scikit-learn dan perpustakaan tensorflow memberikan sokongan yang kuat. 3) Dari segi automasi dan skrip, Python sesuai untuk tugas -tugas seperti ujian automatik dan pengurusan sistem.

Anda boleh mempelajari asas -asas Python dalam masa dua jam. 1. Belajar pembolehubah dan jenis data, 2. Struktur kawalan induk seperti jika pernyataan dan gelung, 3 memahami definisi dan penggunaan fungsi. Ini akan membantu anda mula menulis program python mudah.

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...


Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Penyesuai Pelayan SAP NetWeaver untuk Eclipse
Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Muat turun versi mac editor Atom
Editor sumber terbuka yang paling popular

Dreamweaver CS6
Alat pembangunan web visual

EditPlus versi Cina retak
Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod