cari
Rumahpembangunan bahagian belakangTutorial PythonBelajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Ringkasan

Artikel ini mengajar anda cara membahagikan set data kepada data latihan dan ujian serta menyimpan bahagian ini dalam fail .pkl, penting untuk melatih dan menilai model Pembelajaran Mesin dengan cara yang teratur. Proses ini menggunakan perpustakaan sklearn dan pickle, membolehkan anda menggunakan semula data yang diproses dalam projek masa hadapan. Artikel ini ialah langkah seterusnya dalam satu siri tutorial tentang prapemprosesan data.

Topik Utama Dilindungi:

  • Penyediaan buku nota di Google Colab
  • Pembahagian set data kepada data latihan dan ujian
  • Penjelasan terperinci kod Python untuk pembahagian
  • Menyimpan pecahan ke fail .pkl menggunakan jeruk
  • Kelebihan menyimpan data yang diproses untuk kegunaan masa hadapan

Penting: Untuk mengikuti artikel ini, mula-mula baca artikel di bawah dalam urutan yang dicadangkan. Setiap artikel menyediakan asas yang anda perlukan untuk memahami seterusnya, memastikan anda memahami keseluruhan aliran kerja sehingga ke tahap ini.

Perkara 1: Mengaplikasikan Pembelajaran Mesin: Panduan untuk Bermula sebagai Model dalam Pengelasan

Perkara 2: Meneroka Klasifikasi dalam Pembelajaran Mesin: Jenis Pembolehubah

Artikel 3: Meneroka Google Colab: Rakan Anda untuk Pengekodan Model Pembelajaran Mesin

Perkara 4: Meneroka Data dengan Python di Google Colab: Panduan Praktikal Menggunakan Set Data adult.csv

Perkara 5: Menyahmistikan Pembahagian Peramal dan Kelas dan Pengendalian Atribut Kategori dengan LabelEncoder dan OneHotEncoder

Perkara 6: Penskalaan Data: Asas untuk Model Cekap

pengenalan

Dalam artikel ini, anda akan belajar cara membahagikan set data kepada latihan dan ujian, serta menyimpan bahagian ini dalam fail .pkl. Proses ini penting untuk memastikan pemisahan yang bersih antara data yang akan digunakan untuk melatih model dan yang akan digunakan untuk menilai prestasinya.

Memulakan proses dalam Google Colab

Pertama sekali, akses pautan buku nota ini dan pilih Fail > Simpan salinan ke Drive. Ingat bahawa set data (adult.csv) perlu dimuatkan sekali lagi dengan setiap siaran baharu (maklumat lanjut dalam Artikel 4 di atas), kerana setiap tutorial mencipta buku nota baharu, hanya menambah kod yang diperlukan yang dibentangkan dalam artikel ini, tetapi buku nota disertakan dengan semua kod yang dihasilkan setakat ini. Salinan buku nota akan disimpan di Google Drive, dalam folder Buku Nota Colab, memastikan proses teratur dan berterusan.

Mengapa membahagikan set data kepada latihan dan ujian?

Membahagikan set data ialah langkah asas dalam mana-mana projek Pembelajaran Mesin, kerana ia membolehkan model "belajar" daripada sebahagian data (latihan) dan kemudian dinilai pada data baharu, yang tidak pernah dilihat sebelum ini (ujian). Amalan ini penting untuk mengukur generalisasi model. Untuk memudahkan pemantauan, kami akan menggunakan pembolehubah berikut:

  • X_adult_treinamento: pembolehubah peramal latihan
  • X_adult_teste: pembolehubah peramal ujian
  • y_adult_treinamento: pembolehubah sasaran latihan
  • y_adult_teste: pembolehubah sasaran ujian

Kod Python untuk memisahkan set data

Di bawah ialah kod Python untuk melakukan pemisahan antara data latihan dan ujian:

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

Rajah di bawah menunjukkan kod sebelumnya dengan outputnya selepas pelaksanaan.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Penjelasan Kod:

train_test_split: Berfungsi daripada pustaka sklearn yang membahagikan set data.
test_size=0.2: Menunjukkan bahawa 20% daripada data akan dikhaskan untuk ujian, dan baki 80% untuk latihan.
random_state=0: Memastikan pembahagian sentiasa sama, menjana hasil yang konsisten untuk setiap larian.
bentuk: Semak bentuk data selepas pemisahan untuk mengesahkan bahawa pemisahan berlaku dengan betul.

Menyimpan pemisahan ke fail .pkl

Untuk memudahkan kerja dan memastikan konsistensi antara larian yang berbeza, kami akan menyimpan pembolehubah latihan dan ujian dalam fail .pkl. Ini membolehkan anda menggunakan semula data apabila perlu, tanpa perlu melakukan pembahagian lagi.

Kod untuk menyimpan pembolehubah menggunakan jeruk:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

Untuk melihat fail adult.pkl pada buku nota, cuma klik pada ikon folder di sebelah kiri seperti yang ditunjukkan dalam rajah di bawah.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Penjelasan Kod:

acar: Pustaka Python digunakan untuk menyerikan objek, membolehkan anda menyimpan pembolehubah kompleks dalam fail.
buang: Menyimpan pembolehubah dalam fail yang dipanggil adult.pkl. Fail ini akan dibaca pada masa hadapan untuk memuatkan set data yang dibahagikan kepada latihan dan ujian, mengoptimumkan aliran kerja.

Kesimpulan

Dalam artikel ini, anda mempelajari cara membahagikan set data kepada data latihan dan ujian serta menyimpannya dalam fail .pkl. Proses ini adalah asas dalam projek Pembelajaran Mesin, memastikan struktur yang teratur dan cekap. Dalam artikel seterusnya, kami akan membincangkan penciptaan model, bermula dengan algoritma Naive Bayes, menggunakan fail adult.pkl untuk meneruskan pembangunan.

Buku yang saya cadangkan

1. Statistik Praktikal untuk Saintis Data
2. Pengenalan kepada Pengkomputeran Menggunakan Python
3. 2041: Bagaimana Kepintaran Buatan Akan Mengubah Kehidupan Anda Dalam Dekad Akan Datang
4. Kursus Sawa Intensif
5. Memahami Algoritma. Panduan Bergambar untuk Pengaturcara dan Orang Lain Yang Ingin Tahu
6. Kecerdasan Buatan - Kai-Fu Lee
7. Pengenalan kepada Kepintaran Buatan - Pendekatan Bukan Teknikal - Tom Taulli

Kindle Baharu

Saya melakukan analisis terperinci tentang Kindle baharu yang dilancarkan tahun ini, menyerlahkan inovasi dan faedah utama mereka untuk pembaca digital. Lihat teks penuh di pautan berikut: Dunia Pembacaan Digital yang Menarik: Kelebihan Mempunyai Kindle.

Amazon Prime

Menyertai Amazon Prime menawarkan satu siri kelebihan, termasuk akses tanpa had kepada beribu-ribu filem, siri dan muzik, serta penghantaran percuma untuk berjuta-juta produk dengan penghantaran pantas. Ahli juga menikmati tawaran eksklusif, akses awal kepada promosi dan faedah pada perkhidmatan seperti Prime Video, Prime Music dan Prime Reading, menjadikan pengalaman membeli-belah dan hiburan lebih mudah dan kaya.

Jika anda berminat, gunakan pautan berikut: AMAZON PRIME, yang membantu saya terus mempromosikan kecerdasan buatan dan pengaturcaraan komputer.

Atas ialah kandungan terperinci Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Python dan Masa: Memanfaatkan masa belajar andaPython dan Masa: Memanfaatkan masa belajar andaApr 14, 2025 am 12:02 AM

Untuk memaksimumkan kecekapan pembelajaran Python dalam masa yang terhad, anda boleh menggunakan modul, masa, dan modul Python. 1. Modul DateTime digunakan untuk merakam dan merancang masa pembelajaran. 2. Modul Masa membantu menetapkan kajian dan masa rehat. 3. Modul Jadual secara automatik mengatur tugas pembelajaran mingguan.

Python: Permainan, GUI, dan banyak lagiPython: Permainan, GUI, dan banyak lagiApr 13, 2025 am 12:14 AM

Python cemerlang dalam permainan dan pembangunan GUI. 1) Pembangunan permainan menggunakan pygame, menyediakan lukisan, audio dan fungsi lain, yang sesuai untuk membuat permainan 2D. 2) Pembangunan GUI boleh memilih tkinter atau pyqt. TKInter adalah mudah dan mudah digunakan, PYQT mempunyai fungsi yang kaya dan sesuai untuk pembangunan profesional.

Python vs C: Aplikasi dan kes penggunaan dibandingkanPython vs C: Aplikasi dan kes penggunaan dibandingkanApr 12, 2025 am 12:01 AM

Python sesuai untuk sains data, pembangunan web dan tugas automasi, manakala C sesuai untuk pengaturcaraan sistem, pembangunan permainan dan sistem tertanam. Python terkenal dengan kesederhanaan dan ekosistem yang kuat, manakala C dikenali dengan keupayaan kawalan dan keupayaan kawalan yang mendasari.

Rancangan Python 2 jam: Pendekatan yang realistikRancangan Python 2 jam: Pendekatan yang realistikApr 11, 2025 am 12:04 AM

Anda boleh mempelajari konsep pengaturcaraan asas dan kemahiran Python dalam masa 2 jam. 1. Belajar Pembolehubah dan Jenis Data, 2.

Python: meneroka aplikasi utamanyaPython: meneroka aplikasi utamanyaApr 10, 2025 am 09:41 AM

Python digunakan secara meluas dalam bidang pembangunan web, sains data, pembelajaran mesin, automasi dan skrip. 1) Dalam pembangunan web, kerangka Django dan Flask memudahkan proses pembangunan. 2) Dalam bidang sains data dan pembelajaran mesin, numpy, panda, scikit-learn dan perpustakaan tensorflow memberikan sokongan yang kuat. 3) Dari segi automasi dan skrip, Python sesuai untuk tugas -tugas seperti ujian automatik dan pengurusan sistem.

Berapa banyak python yang boleh anda pelajari dalam 2 jam?Berapa banyak python yang boleh anda pelajari dalam 2 jam?Apr 09, 2025 pm 04:33 PM

Anda boleh mempelajari asas -asas Python dalam masa dua jam. 1. Belajar pembolehubah dan jenis data, 2. Struktur kawalan induk seperti jika pernyataan dan gelung, 3 memahami definisi dan penggunaan fungsi. Ini akan membantu anda mula menulis program python mudah.

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam Kaedah Projek dan Masalah Dikemukakan Dalam masa 10 Jam?Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam Kaedah Projek dan Masalah Dikemukakan Dalam masa 10 Jam?Apr 02, 2025 am 07:18 AM

Bagaimana Mengajar Asas Pengaturcaraan Pemula Komputer Dalam masa 10 jam? Sekiranya anda hanya mempunyai 10 jam untuk mengajar pemula komputer beberapa pengetahuan pengaturcaraan, apa yang akan anda pilih untuk mengajar ...

Bagaimana untuk mengelakkan dikesan oleh penyemak imbas apabila menggunakan fiddler di mana-mana untuk membaca lelaki-dalam-tengah?Bagaimana untuk mengelakkan dikesan oleh penyemak imbas apabila menggunakan fiddler di mana-mana untuk membaca lelaki-dalam-tengah?Apr 02, 2025 am 07:15 AM

Cara mengelakkan dikesan semasa menggunakan fiddlerevery di mana untuk bacaan lelaki-dalam-pertengahan apabila anda menggunakan fiddlerevery di mana ...

See all articles

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang laluBy尊渡假赌尊渡假赌尊渡假赌

Alat panas

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Penyesuai Pelayan SAP NetWeaver untuk Eclipse

Integrasikan Eclipse dengan pelayan aplikasi SAP NetWeaver.

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Muat turun versi mac editor Atom

Muat turun versi mac editor Atom

Editor sumber terbuka yang paling popular

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

EditPlus versi Cina retak

EditPlus versi Cina retak

Saiz kecil, penyerlahan sintaks, tidak menyokong fungsi gesaan kod