Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Pandas GroupBy Boleh Digunakan untuk Mengira Statistik Bijak Kumpulan dalam Python?
Apabila bekerja dengan data, selalunya wajar untuk menganalisis dan membandingkan statistik merentas kumpulan berbeza. Pandas, perpustakaan Python yang terkenal untuk manipulasi data, menawarkan kefungsian GroupBy untuk melaksanakan operasi ini dengan mudah.
Cara paling mudah untuk mendapatkan kiraan baris bagi setiap kumpulan adalah melalui .size() kaedah. Kaedah ini mengembalikan Siri yang mengandungi kiraan mengikut kumpulan:
df.groupby(['col1','col2']).size()
Untuk mendapatkan semula kiraan dalam format jadual (iaitu, sebagai DataFrame dengan lajur "kiraan"):
df.groupby(['col1', 'col2']).size().reset_index(name='counts')
Untuk mengira berbilang statistik, gunakan .agg() kaedah dengan kamus. Kekunci menentukan lajur untuk dikira, manakala nilai ialah senarai pengagregatan yang diingini (cth., 'min', 'median' dan 'count'):
df.groupby(['col1', 'col2']).agg({ 'col3': ['mean', 'count'], 'col4': ['median', 'min', 'count'] })
Untuk lebih kawalan ke atas output, pengagregatan individu boleh disertai:
counts = df.groupby(['col1', 'col2']).size().to_frame(name='counts') counts.join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'})) \ .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'})) \ .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'})) \ .reset_index()
Ini menghasilkan DataFrame yang lebih berstruktur dengan label lajur tidak bersarang.
Dalam contoh yang diberikan, nilai nol boleh membawa kepada percanggahan dalam kiraan baris yang digunakan untuk pengiraan yang berbeza. Ini menekankan kepentingan mempertimbangkan nilai nol apabila mentafsir statistik mengikut kumpulan.
Atas ialah kandungan terperinci Bagaimanakah Pandas GroupBy Boleh Digunakan untuk Mengira Statistik Bijak Kumpulan dalam Python?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!