Rumah > Artikel > pembangunan bahagian belakang > Cara praproses Set Data anda
Dataset Titanic ialah set data klasik yang digunakan dalam sains data dan projek pembelajaran mesin. Ia mengandungi maklumat tentang penumpang di Titanic, dan matlamat selalunya adalah untuk meramalkan penumpang yang terselamat daripada bencana itu. Sebelum membina sebarang model ramalan, adalah penting untuk mempraproses data untuk memastikan ia bersih dan sesuai untuk analisis. Catatan blog ini akan membimbing anda melalui langkah-langkah penting untuk pramemproses set data Titanic menggunakan Python.
Langkah pertama dalam mana-mana projek analisis data ialah memuatkan set data. Kami menggunakan perpustakaan panda untuk membaca fail CSV yang mengandungi data Titanic. Set data ini termasuk ciri seperti Nama, Umur, Jantina, Tiket, Tambang dan sama ada penumpang terselamat (Terselamat).
import pandas as pd import numpy as np
Muatkan set data Titanic
titanic = pd.read_csv('titanic.csv') titanic.head()
Dataset mengandungi pembolehubah berikut yang berkaitan dengan penumpang di Titanic:
Kelangsungan Hidup: Menunjukkan jika penumpang terselamat.
Pclass: Kelas tiket penumpang.
Sex: Jantina penumpang.
Umur: Umur penumpang dalam tahun.
SibSp: Bilangan adik beradik atau pasangan di atas Titanic.
Parch: Bilangan ibu bapa atau kanak-kanak di atas kapal Titanic.
Tiket: Nombor tiket.
Tambang: Tambang penumpang.
Kabin: Nombor kabin.
Bermula: Pelabuhan berlepas.
Analisis Data Penerokaan (EDA) melibatkan pemeriksaan set data untuk memahami strukturnya dan hubungan antara pembolehubah yang berbeza. Langkah ini membantu mengenal pasti sebarang corak, aliran atau anomali dalam data.
Ikhtisar Set Data
Kami bermula dengan memaparkan beberapa baris pertama set data dan mendapatkan ringkasan statistik. Ini memberi kita idea tentang jenis data, julat nilai dan kehadiran sebarang nilai yang hilang.
# Display the first few rows print(titanic.head()) # Summary statistics print(titanic.describe(include='all'))
Pembersihan data ialah proses mengendalikan nilai yang hilang, membetulkan jenis data dan mengalih keluar sebarang ketidakkonsistenan. Dalam set data Titanic, ciri seperti Age, Cabin dan Embarked mempunyai nilai yang tiada.
Mengendalikan Nilai Yang Hilang
Untuk mengendalikan nilai yang tiada, kami boleh mengisinya dengan nilai yang sesuai atau menggugurkan baris/lajur dengan data yang tiada. Contohnya, kita boleh mengisi nilai Umur yang tiada dengan umur median dan menjatuhkan baris dengan nilai Embarked yang tiada.
# Fill missing age values with the mode titanic['Age'].fillna(titanic['Age'].mode(), inplace=True) # Drop rows with missing 'Embarked' values titanic.dropna(subset=['Embarked'], inplace=True) # Check remaining missing values print(titanic.isnull().sum())
Kejuruteraan ciri melibatkan mengubah yang sedia ada untuk meningkatkan prestasi model. Langkah ini boleh termasuk pengekodan pembolehubah kategori yang menskalakan ciri berangka.
Pengekodan Pembolehubah Kategori
Algoritma pembelajaran mesin memerlukan input berangka, jadi kami perlu menukar ciri kategori kepada ciri berangka. Kami boleh menggunakan pengekodan satu-panas untuk ciri seperti Sex and Embarked.
# Convert categorical features to numerical from sklearn import preprocessing le = preprocessing.LabelEncoder() #fit the required column to be transformed le.fit(df['Sex']) df['Sex'] = le.transform(df['Sex'])
Prapemprosesan ialah langkah kritikal dalam mana-mana projek sains data. Dalam catatan blog ini, kami merangkumi langkah-langkah penting untuk memuatkan data, melaksanakan analisis data penerokaan, membersihkan data dan kejuruteraan ciri. Langkah ini membantu memastikan data kami sedia untuk analisis atau pembinaan model. Langkah seterusnya ialah menggunakan data praproses ini untuk membina model ramalan dan menilai prestasinya. Untuk mendapatkan maklumat lanjut, lihat buku nota colab saya
Dengan mengikuti langkah-langkah ini, pemula boleh mendapat asas yang kukuh dalam prapemprosesan data, menetapkan peringkat untuk analisis data yang lebih maju dan tugasan pembelajaran mesin. Selamat mengekod!
Atas ialah kandungan terperinci Cara praproses Set Data anda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!