Rumah >pembangunan bahagian belakang >Tutorial Python >Cara praproses Set Data anda

Cara praproses Set Data anda

WBOY
WBOYasal
2024-07-30 18:03:17946semak imbas

How to preprocess your Dataset

Pengenalan

Dataset Titanic ialah set data klasik yang digunakan dalam sains data dan projek pembelajaran mesin. Ia mengandungi maklumat tentang penumpang di Titanic, dan matlamat selalunya adalah untuk meramalkan penumpang yang terselamat daripada bencana itu. Sebelum membina sebarang model ramalan, adalah penting untuk mempraproses data untuk memastikan ia bersih dan sesuai untuk analisis. Catatan blog ini akan membimbing anda melalui langkah-langkah penting untuk pramemproses set data Titanic menggunakan Python.

Langkah 1: Memuatkan Data

Langkah pertama dalam mana-mana projek analisis data ialah memuatkan set data. Kami menggunakan perpustakaan panda untuk membaca fail CSV yang mengandungi data Titanic. Set data ini termasuk ciri seperti Nama, Umur, Jantina, Tiket, Tambang dan sama ada penumpang terselamat (Terselamat).

import pandas as pd
import numpy as np

Muatkan set data Titanic

titanic = pd.read_csv('titanic.csv')
titanic.head()

Fahami data

Dataset mengandungi pembolehubah berikut yang berkaitan dengan penumpang di Titanic:

  • Kelangsungan Hidup: Menunjukkan jika penumpang terselamat.

    • 0 = Tidak
    • 1 = Ya
  • Pclass: Kelas tiket penumpang.

    • 1 = kelas 1
    • 2 = kelas ke-2
    • 3 = kelas 3
  • Sex: Jantina penumpang.

  • Umur: Umur penumpang dalam tahun.

  • SibSp: Bilangan adik beradik atau pasangan di atas Titanic.

  • Parch: Bilangan ibu bapa atau kanak-kanak di atas kapal Titanic.

  • Tiket: Nombor tiket.

  • Tambang: Tambang penumpang.

  • Kabin: Nombor kabin.

  • Bermula: Pelabuhan berlepas.

    • C = Cherbourg
    • Q = Queenstown
    • S = Southampton

Langkah 2: Analisis Data Penerokaan (EDA)

Analisis Data Penerokaan (EDA) melibatkan pemeriksaan set data untuk memahami strukturnya dan hubungan antara pembolehubah yang berbeza. Langkah ini membantu mengenal pasti sebarang corak, aliran atau anomali dalam data.

Ikhtisar Set Data

Kami bermula dengan memaparkan beberapa baris pertama set data dan mendapatkan ringkasan statistik. Ini memberi kita idea tentang jenis data, julat nilai dan kehadiran sebarang nilai yang hilang.

# Display the first few rows
print(titanic.head())

# Summary statistics
print(titanic.describe(include='all'))

Langkah 3: Pembersihan Data

Pembersihan data ialah proses mengendalikan nilai yang hilang, membetulkan jenis data dan mengalih keluar sebarang ketidakkonsistenan. Dalam set data Titanic, ciri seperti Age, Cabin dan Embarked mempunyai nilai yang tiada.

Mengendalikan Nilai Yang Hilang

Untuk mengendalikan nilai yang tiada, kami boleh mengisinya dengan nilai yang sesuai atau menggugurkan baris/lajur dengan data yang tiada. Contohnya, kita boleh mengisi nilai Umur yang tiada dengan umur median dan menjatuhkan baris dengan nilai Embarked yang tiada.

# Fill missing age values with the mode
titanic['Age'].fillna(titanic['Age'].mode(), inplace=True)

# Drop rows with missing 'Embarked' values
titanic.dropna(subset=['Embarked'], inplace=True)

# Check remaining missing values
print(titanic.isnull().sum())

Langkah 4: Kejuruteraan Ciri

Kejuruteraan ciri melibatkan mengubah yang sedia ada untuk meningkatkan prestasi model. Langkah ini boleh termasuk pengekodan pembolehubah kategori yang menskalakan ciri berangka.

Pengekodan Pembolehubah Kategori

Algoritma pembelajaran mesin memerlukan input berangka, jadi kami perlu menukar ciri kategori kepada ciri berangka. Kami boleh menggunakan pengekodan satu-panas untuk ciri seperti Sex and Embarked.

# Convert categorical features to numerical
from sklearn import preprocessing
le = preprocessing.LabelEncoder()

#fit the required column to be transformed
le.fit(df['Sex'])
df['Sex'] = le.transform(df['Sex'])

Kesimpulan

Prapemprosesan ialah langkah kritikal dalam mana-mana projek sains data. Dalam catatan blog ini, kami merangkumi langkah-langkah penting untuk memuatkan data, melaksanakan analisis data penerokaan, membersihkan data dan kejuruteraan ciri. Langkah ini membantu memastikan data kami sedia untuk analisis atau pembinaan model. Langkah seterusnya ialah menggunakan data praproses ini untuk membina model ramalan dan menilai prestasinya. Untuk mendapatkan maklumat lanjut, lihat buku nota colab saya

Dengan mengikuti langkah-langkah ini, pemula boleh mendapat asas yang kukuh dalam prapemprosesan data, menetapkan peringkat untuk analisis data yang lebih maju dan tugasan pembelajaran mesin. Selamat mengekod!

Atas ialah kandungan terperinci Cara praproses Set Data anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn