Rumah >pembangunan bahagian belakang >Tutorial Python >Petua praktikal dan contoh penapisan data Pandas
Petua praktikal menggunakan Panda untuk penapisan data
Panda ialah perpustakaan pemprosesan data yang berkuasa yang digunakan secara meluas dalam analisis data dan sains data. Penapisan data adalah tugas biasa semasa pemprosesan data. Artikel ini akan memperkenalkan cara menggunakan Panda untuk penapisan data dan memberikan contoh kod khusus.
1. Tapis data berdasarkan syarat
Pandas menyediakan pelbagai operator bersyarat untuk menapis data berdasarkan syarat. Pengendali yang biasa digunakan termasuk sama (==), tidak sama (!=), lebih besar daripada (>), kurang daripada (=), kurang daripada atau sama dengan (
Sebagai contoh, katakan terdapat objek DataFrame df, yang mengandungi nama, umur dan skor pelajar Kita boleh menggunakan kod berikut untuk menapis data pelajar dengan skor lebih besar daripada atau sama dengan 90 mata:
df_filtered = df[df['score'] >= 90]
Selain syarat tunggal, Pandas juga menyokong penggunaan berbilang syarat untuk penapisan data. Keadaan boleh digabungkan menggunakan operator logik dan, atau dan tidak.
Sebagai contoh, katakan kami ingin menapis data pelajar yang berumur antara 18 dan 25 tahun dan yang markahnya lebih besar daripada atau sama dengan 80 mata Anda boleh menggunakan kod berikut:
df_filtered = df[(df['age'] >= 18) & (df['age'] <= 25) & (df['score'] >= 80)]
2. Tapis berdasarkan data pada indeks
Objek DataFrame dalam Pandas akan secara lalai Indeks integer dijana secara automatik dan boleh digunakan untuk penapisan data.
Anda boleh menggunakan atribut iloc untuk menapis data berdasarkan indeks kedudukan baris dan lajur.
Sebagai contoh, katakan kita ingin menapis data daripada baris 2 hingga 5, anda boleh menggunakan kod berikut:
df_filtered = df.iloc[2:6, :]
Jika indeks label ditetapkan dalam objek DataFrame, anda boleh menggunakan data Penapis atribut loc berdasarkan indeks teg.
Sebagai contoh, andaikan kita ingin menapis data pelajar yang berumur 20 tahun ke atas, anda boleh menggunakan kod berikut:
df_filtered = df.loc[df['age'] >= 20, :]
3 Tapis data berdasarkan medan
Selain menapis menggunakan syarat dan indeks, anda juga boleh menapis data berdasarkan medan.
Anda boleh menggunakan nama lajur untuk menapis data lajur yang ditentukan.
Sebagai contoh, katakan kita hanya ingin menapis data dalam dua lajur nama dan gred, anda boleh menggunakan kod berikut:
df_filtered = df[['name', 'score']]
Anda boleh menggunakan nilai medan untuk menapis data yang sepadan dengan nilai medan.
Sebagai contoh, katakan kita ingin menapis data pelajar dengan markah antara 80 dan 90 mata, kita boleh menggunakan kod berikut:
df_filtered = df[df['score'].between(80, 90)]
Di atas adalah petua praktikal untuk menggunakan Panda untuk penapisan data Dengan menggunakan syarat, indeks dan secara fleksibel medan, anda boleh menapis data yang anda perlukan dengan mudah. Saya harap artikel ini akan membantu anda dalam proses pemprosesan data anda!
Atas ialah kandungan terperinci Petua praktikal dan contoh penapisan data Pandas. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!