Rumah > Artikel > pembangunan bahagian belakang > Bagaimana untuk menggunakan Python untuk pembersihan data?
Dalam bidang analisis data, pembersihan data adalah pautan yang sangat penting. Pembersihan data termasuk mengenal pasti dan membetulkan sebarang ralat dalam data, mencirikan dan memproses maklumat yang hilang atau tidak sah, dsb. Dalam Python, terdapat banyak perpustakaan yang boleh membantu kami dengan pembersihan data. Seterusnya, kami akan memperkenalkan cara menggunakan Python untuk pembersihan data.
1. Memuatkan data
Dalam Python, anda boleh menggunakan perpustakaan panda untuk memuatkan data. Sudah tentu, jenis data perlu diperiksa sebelum pembersihan data. Untuk fail CSV, fungsi read_csv() dalam panda boleh membantu kami memuatkan data dengan mudah:
import panda sebagai pd
data = pd.read_csv('data.csv')
Jika data ialah fail Excel, gunakan fungsi read_excel(). Jika data datang daripada pangkalan data hubungan, gunakan SQLAlchemy atau pakej pangkalan data lain untuk mendapatkan data.
2. Kenal pasti ralat data
Langkah pertama dalam pembersihan data ialah mengenal pasti ralat data. Ralat data termasuk:
Adalah perkara biasa untuk mempunyai nilai yang hilang dalam data anda. Kita boleh menggunakan fungsi isnull() atau notnull() pustaka panda untuk mengesan sama ada terdapat nilai yang hilang dalam data:
data.isnull()
data.notnull()
Outliers ialah data tidak sekata yang tidak sepadan dengan titik data lain dalam set data. Outlier boleh dikesan menggunakan kaedah statistik, seperti membahagikan data kepada kuartil, memadam titik data yang lebih besar daripada nilai sisihan piawai tertentu, dsb. Sudah tentu, anda juga boleh menggunakan kaedah visualisasi seperti plot kotak dan plot serakan untuk mengesan outlier.
Data pendua bermaksud berbilang rekod dalam data menunjukkan nilai data yang sama. Anda boleh menggunakan fungsi duplicated() dan drop_duplicates() perpustakaan panda untuk mengesan dan mengalih keluar data pendua.
data.duplicated()
data.drop_duplicates()
3. Pembersihan Data
Selepas mengenal pasti ralat data, langkah seterusnya ialah pembersihan data. Pembersihan data termasuk langkah berikut:
Apabila terdapat nilai yang hilang dalam data, satu pendekatan adalah dengan memadam rekod ini secara langsung. Walau bagaimanapun, pemadaman rekod boleh menjejaskan integriti data anda. Oleh itu, kita boleh menggunakan fungsi fillna() untuk menggantikan nilai null dengan nilai min, median atau nilai istimewa lain:
data.fillna(value=10,inplace=True)
Kita boleh menggunakan fungsi dropna() untuk memadamkan nilai nol dalam data:
data.dropna()
Jika outlier yang dibuat akan membawa kepada analisis set data yang tidak tepat, kami boleh mempertimbangkan untuk memadamkan outlier ini jika pemadaman akan menjejaskan kegunaan data, kami boleh pertimbangkan mengalih keluar outlier Gantikan dengan anggaran yang lebih tepat:
data.quantile(0.95)
data[(data < data.quantile(0.95)).all(axis=1)]
4. Simpan data yang telah dibersihkan
Selepas selesai pembersihan data, kita perlu menyimpan data tersebut. Data boleh disimpan ke fail CSV atau Excel menggunakan fungsi to_csv() dan to_excel() pustaka panda:
data.to_csv('cleaned_data.csv')
data.to_excel('cleaned_data .xlsx ')
5. Kesimpulan
Dalam bidang analisis data, pembersihan data merupakan pautan yang sangat penting. Kita boleh menggunakan perpustakaan Python dan panda untuk pembersihan data. Pembersihan data termasuk pengenalpastian dan pembersihan ralat data, pengenalpastian nilai nol dan outlier, dan pembersihan data. Setelah pembersihan data selesai, kami boleh menyimpan data ke fail untuk analisis dan visualisasi selanjutnya.
Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk pembersihan data?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!