Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk menggunakan Python untuk pembersihan data?

Bagaimana untuk menggunakan Python untuk pembersihan data?

WBOY
WBOYasal
2023-06-04 15:51:227710semak imbas

Dalam bidang analisis data, pembersihan data adalah pautan yang sangat penting. Pembersihan data termasuk mengenal pasti dan membetulkan sebarang ralat dalam data, mencirikan dan memproses maklumat yang hilang atau tidak sah, dsb. Dalam Python, terdapat banyak perpustakaan yang boleh membantu kami dengan pembersihan data. Seterusnya, kami akan memperkenalkan cara menggunakan Python untuk pembersihan data.

1. Memuatkan data

Dalam Python, anda boleh menggunakan perpustakaan panda untuk memuatkan data. Sudah tentu, jenis data perlu diperiksa sebelum pembersihan data. Untuk fail CSV, fungsi read_csv() dalam panda boleh membantu kami memuatkan data dengan mudah:

import panda sebagai pd

data = pd.read_csv('data.csv')

Jika data ialah fail Excel, gunakan fungsi read_excel(). Jika data datang daripada pangkalan data hubungan, gunakan SQLAlchemy atau pakej pangkalan data lain untuk mendapatkan data.

2. Kenal pasti ralat data

Langkah pertama dalam pembersihan data ialah mengenal pasti ralat data. Ralat data termasuk:

  1. Nilai yang Hilang

Adalah perkara biasa untuk mempunyai nilai yang hilang dalam data anda. Kita boleh menggunakan fungsi isnull() atau notnull() pustaka panda untuk mengesan sama ada terdapat nilai yang hilang dalam data:

data.isnull()
data.notnull()

  1. Outliers

Outliers ialah data tidak sekata yang tidak sepadan dengan titik data lain dalam set data. Outlier boleh dikesan menggunakan kaedah statistik, seperti membahagikan data kepada kuartil, memadam titik data yang lebih besar daripada nilai sisihan piawai tertentu, dsb. Sudah tentu, anda juga boleh menggunakan kaedah visualisasi seperti plot kotak dan plot serakan untuk mengesan outlier.

  1. Data pendua

Data pendua bermaksud berbilang rekod dalam data menunjukkan nilai data yang sama. Anda boleh menggunakan fungsi duplicated() dan drop_duplicates() perpustakaan panda untuk mengesan dan mengalih keluar data pendua.

data.duplicated()
data.drop_duplicates()

3. Pembersihan Data

Selepas mengenal pasti ralat data, langkah seterusnya ialah pembersihan data. Pembersihan data termasuk langkah berikut:

  1. Mengisi nilai nol

Apabila terdapat nilai yang hilang dalam data, satu pendekatan adalah dengan memadam rekod ini secara langsung. Walau bagaimanapun, pemadaman rekod boleh menjejaskan integriti data anda. Oleh itu, kita boleh menggunakan fungsi fillna() untuk menggantikan nilai null ​​dengan nilai min, median atau nilai istimewa lain:

data.fillna(value=10,inplace=True)

  1. Alih keluar nilai nol

Kita boleh menggunakan fungsi dropna() untuk memadamkan nilai nol dalam data:

data.dropna()

  1. Ganti Nilai pengecualian

Jika outlier yang dibuat akan membawa kepada analisis set data yang tidak tepat, kami boleh mempertimbangkan untuk memadamkan outlier ini jika pemadaman akan menjejaskan kegunaan data, kami boleh pertimbangkan mengalih keluar outlier Gantikan dengan anggaran yang lebih tepat:

data.quantile(0.95)
data[(data < data.quantile(0.95)).all(axis=1)]

4. Simpan data yang telah dibersihkan

Selepas selesai pembersihan data, kita perlu menyimpan data tersebut. Data boleh disimpan ke fail CSV atau Excel menggunakan fungsi to_csv() dan to_excel() pustaka panda:

data.to_csv('cleaned_data.csv')
data.to_excel('cleaned_data .xlsx ')

5. Kesimpulan

Dalam bidang analisis data, pembersihan data merupakan pautan yang sangat penting. Kita boleh menggunakan perpustakaan Python dan panda untuk pembersihan data. Pembersihan data termasuk pengenalpastian dan pembersihan ralat data, pengenalpastian nilai nol dan outlier, dan pembersihan data. Setelah pembersihan data selesai, kami boleh menyimpan data ke fail untuk analisis dan visualisasi selanjutnya.

Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk pembersihan data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn