Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimana untuk menapis data dalam panda
Kaedah untuk menapis data panda: 1. Import perpustakaan Pandas 3. Tapis data 5. Kumpulkan dan agregat data; Pengenalan terperinci: 1. Import pustaka Pandas Mula-mula, pastikan pustaka Pandas dipasang Jika ia tidak dipasang, anda boleh menggunakan arahan "pip install panda" untuk memasangnya, dan kemudian anda boleh menggunakan "import panda sebagai. pd" untuk mengimport pustaka Pandas; 2. Baca data , menggunakan pustaka Pandas dan banyak lagi.
Sistem pengendalian tutorial ini: sistem Windows 10, komputer DELL G3.
Pandas ialah perpustakaan analisis data Python yang popular yang menyediakan banyak ciri berkuasa yang membolehkan anda menapis, memproses dan menganalisis data dengan mudah. Berikut ialah beberapa cara biasa untuk menggunakan Pandas untuk menapis data:
1 Import pustaka Pandas
Pertama, pastikan pustaka Pandas dipasang. Jika ia tidak dipasang, anda boleh menggunakan arahan berikut untuk memasangnya:
pip install pandas
Kemudian, import pustaka Pandas:
import pandas as pd
2. Baca data
Gunakan fungsi read_csv() dalam pustaka Pandas untuk membaca fail CSV , dan fungsi read_excel() untuk membaca fail Excel, dsb. Contohnya, baca fail CSV bernama data.csv:
df = pd.read_csv('data.csv')
3. Tapis data
Pandas menyediakan pelbagai kaedah untuk menapis data. Berikut ialah beberapa kaedah biasa:
(1) Penapisan berdasarkan syarat
Gunakan atribut loc dan iloc serta operator logik (seperti &, |, ~, dll.) untuk menapis data. Contohnya, untuk menapis data yang umurnya lebih besar daripada atau bersamaan dengan 18 tahun dan jantinanya perempuan:
df.loc[(df['age'] >= 18) & (df['gender'] == 'female')]
(2) Penapisan berdasarkan teg
Gunakan atribut loc untuk menapis data untuk teg tertentu. Contohnya, tapis data dengan nama keluarga "Zhang":
df.loc[df['last_name'] == '张']
(3) Tapis mengikut julat
Gunakan atribut loc untuk menapis data dalam julat tertentu. Contohnya, tapis data antara umur 18 dan 30:
df.loc[(df['age'] >= 18) & (df['age'] <= 30)]
(4) Tapis mengikut berbilang syarat
Gunakan kaedah pertanyaan untuk menapis data yang memenuhi berbilang syarat. Contohnya, untuk menapis data yang umurnya lebih besar daripada atau sama dengan 18 tahun dan jantinanya ialah perempuan:
df.query('age >= 18 & gender == "female"')
4 Isih data
Gunakan kaedah sort_values() untuk mengisih data. Sebagai contoh, susun mengikut umur dalam tertib menaik:
df.sort_values('age', ascending=True)
5 Kumpulkan dan agregat data
Gunakan kaedah groupby() untuk mengumpulkan data dan gunakan fungsi agregat (seperti jumlah(), min(), count(). , dsb.) untuk mengumpulkan setiap kumpulan Buat pengiraan. Sebagai contoh, hitung purata umur setiap kumpulan jantina:
df.groupby('gender').mean()['age']
Atas ialah kandungan terperinci Bagaimana untuk menapis data dalam panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!