Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python

Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python

DDD
DDDasal
2024-10-30 10:57:02811semak imbas

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Ringkasan

Artikel ini mengajar anda cara membahagikan set data kepada data latihan dan ujian serta menyimpan bahagian ini dalam fail .pkl, penting untuk melatih dan menilai model Pembelajaran Mesin dengan cara yang teratur. Proses ini menggunakan perpustakaan sklearn dan pickle, membolehkan anda menggunakan semula data yang diproses dalam projek masa hadapan. Artikel ini ialah langkah seterusnya dalam satu siri tutorial tentang prapemprosesan data.

Topik Utama Dilindungi:

  • Penyediaan buku nota di Google Colab
  • Pembahagian set data kepada data latihan dan ujian
  • Penjelasan terperinci kod Python untuk pembahagian
  • Menyimpan pecahan ke fail .pkl menggunakan jeruk
  • Kelebihan menyimpan data yang diproses untuk kegunaan masa hadapan

Penting: Untuk mengikuti artikel ini, mula-mula baca artikel di bawah dalam urutan yang dicadangkan. Setiap artikel menyediakan asas yang anda perlukan untuk memahami seterusnya, memastikan anda memahami keseluruhan aliran kerja sehingga ke tahap ini.

Perkara 1: Mengaplikasikan Pembelajaran Mesin: Panduan untuk Bermula sebagai Model dalam Pengelasan

Perkara 2: Meneroka Klasifikasi dalam Pembelajaran Mesin: Jenis Pembolehubah

Artikel 3: Meneroka Google Colab: Rakan Anda untuk Pengekodan Model Pembelajaran Mesin

Perkara 4: Meneroka Data dengan Python di Google Colab: Panduan Praktikal Menggunakan Set Data adult.csv

Perkara 5: Menyahmistikan Pembahagian Peramal dan Kelas dan Pengendalian Atribut Kategori dengan LabelEncoder dan OneHotEncoder

Perkara 6: Penskalaan Data: Asas untuk Model Cekap

pengenalan

Dalam artikel ini, anda akan belajar cara membahagikan set data kepada latihan dan ujian, serta menyimpan bahagian ini dalam fail .pkl. Proses ini penting untuk memastikan pemisahan yang bersih antara data yang akan digunakan untuk melatih model dan yang akan digunakan untuk menilai prestasinya.

Memulakan proses dalam Google Colab

Pertama sekali, akses pautan buku nota ini dan pilih Fail > Simpan salinan ke Drive. Ingat bahawa set data (adult.csv) perlu dimuatkan sekali lagi dengan setiap siaran baharu (maklumat lanjut dalam Artikel 4 di atas), kerana setiap tutorial mencipta buku nota baharu, hanya menambah kod yang diperlukan yang dibentangkan dalam artikel ini, tetapi buku nota disertakan dengan semua kod yang dihasilkan setakat ini. Salinan buku nota akan disimpan di Google Drive, dalam folder Buku Nota Colab, memastikan proses teratur dan berterusan.

Mengapa membahagikan set data kepada latihan dan ujian?

Membahagikan set data ialah langkah asas dalam mana-mana projek Pembelajaran Mesin, kerana ia membolehkan model "belajar" daripada sebahagian data (latihan) dan kemudian dinilai pada data baharu, yang tidak pernah dilihat sebelum ini (ujian). Amalan ini penting untuk mengukur generalisasi model. Untuk memudahkan pemantauan, kami akan menggunakan pembolehubah berikut:

  • X_adult_treinamento: pembolehubah peramal latihan
  • X_adult_teste: pembolehubah peramal ujian
  • y_adult_treinamento: pembolehubah sasaran latihan
  • y_adult_teste: pembolehubah sasaran ujian

Kod Python untuk memisahkan set data

Di bawah ialah kod Python untuk melakukan pemisahan antara data latihan dan ujian:

from sklearn.model_selection import train_test_split

X_adult_treinamento, X_adult_teste, y_adult_treinamento, y_adult_teste = train_test_split(X_adult, y_adult, test_size=0.2, random_state=0)

# Dados para o treinamento
X_adult_treinamento.shape, y_adult_treinamento.shape

# Dados para o teste
X_adult_teste.shape, y_adult_teste.shape

Rajah di bawah menunjukkan kod sebelumnya dengan outputnya selepas pelaksanaan.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Penjelasan Kod:

train_test_split: Berfungsi daripada pustaka sklearn yang membahagikan set data.
test_size=0.2: Menunjukkan bahawa 20% daripada data akan dikhaskan untuk ujian, dan baki 80% untuk latihan.
random_state=0: Memastikan pembahagian sentiasa sama, menjana hasil yang konsisten untuk setiap larian.
bentuk: Semak bentuk data selepas pemisahan untuk mengesahkan bahawa pemisahan berlaku dengan betul.

Menyimpan pemisahan ke fail .pkl

Untuk memudahkan kerja dan memastikan konsistensi antara larian yang berbeza, kami akan menyimpan pembolehubah latihan dan ujian dalam fail .pkl. Ini membolehkan anda menggunakan semula data apabila perlu, tanpa perlu melakukan pembahagian lagi.

Kod untuk menyimpan pembolehubah menggunakan jeruk:

import pickle
with open('adult.pkl', mode='wb') as fl:
  pickle.dump([X_adult_treinamento, y_adult_treinamento, X_adult_teste, y_adult_teste], fl)

Untuk melihat fail adult.pkl pada buku nota, cuma klik pada ikon folder di sebelah kiri seperti yang ditunjukkan dalam rajah di bawah.

Aprenda a Dividir em Treinamento e Teste os Dados de um Dataset Utilizando Python

Penjelasan Kod:

acar: Pustaka Python digunakan untuk menyerikan objek, membolehkan anda menyimpan pembolehubah kompleks dalam fail.
buang: Menyimpan pembolehubah dalam fail yang dipanggil adult.pkl. Fail ini akan dibaca pada masa hadapan untuk memuatkan set data yang dibahagikan kepada latihan dan ujian, mengoptimumkan aliran kerja.

Kesimpulan

Dalam artikel ini, anda mempelajari cara membahagikan set data kepada data latihan dan ujian serta menyimpannya dalam fail .pkl. Proses ini adalah asas dalam projek Pembelajaran Mesin, memastikan struktur yang teratur dan cekap. Dalam artikel seterusnya, kami akan membincangkan penciptaan model, bermula dengan algoritma Naive Bayes, menggunakan fail adult.pkl untuk meneruskan pembangunan.

Buku yang saya cadangkan

1. Statistik Praktikal untuk Saintis Data
2. Pengenalan kepada Pengkomputeran Menggunakan Python
3. 2041: Bagaimana Kepintaran Buatan Akan Mengubah Kehidupan Anda Dalam Dekad Akan Datang
4. Kursus Sawa Intensif
5. Memahami Algoritma. Panduan Bergambar untuk Pengaturcara dan Orang Lain Yang Ingin Tahu
6. Kecerdasan Buatan - Kai-Fu Lee
7. Pengenalan kepada Kepintaran Buatan - Pendekatan Bukan Teknikal - Tom Taulli

Kindle Baharu

Saya melakukan analisis terperinci tentang Kindle baharu yang dilancarkan tahun ini, menyerlahkan inovasi dan faedah utama mereka untuk pembaca digital. Lihat teks penuh di pautan berikut: Dunia Pembacaan Digital yang Menarik: Kelebihan Mempunyai Kindle.

Amazon Prime

Menyertai Amazon Prime menawarkan satu siri kelebihan, termasuk akses tanpa had kepada beribu-ribu filem, siri dan muzik, serta penghantaran percuma untuk berjuta-juta produk dengan penghantaran pantas. Ahli juga menikmati tawaran eksklusif, akses awal kepada promosi dan faedah pada perkhidmatan seperti Prime Video, Prime Music dan Prime Reading, menjadikan pengalaman membeli-belah dan hiburan lebih mudah dan kaya.

Jika anda berminat, gunakan pautan berikut: AMAZON PRIME, yang membantu saya terus mempromosikan kecerdasan buatan dan pengaturcaraan komputer.

Atas ialah kandungan terperinci Belajar Membahagi dalam Latihan dan Menguji Data daripada Set Data Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn