Rumah >pembangunan bahagian belakang >Tutorial Python >Bagaimanakah Saya Boleh Menggunakan Berbilang Fungsi dengan Cekap pada Berbilang Lajur Kumpulan Mengikut Lajur dalam Panda?

Bagaimanakah Saya Boleh Menggunakan Berbilang Fungsi dengan Cekap pada Berbilang Lajur Kumpulan Mengikut Lajur dalam Panda?

Mary-Kate Olsen
Mary-Kate Olsenasal
2024-12-13 18:01:12606semak imbas

How Can I Efficiently Apply Multiple Functions to Multiple GroupBy Columns in Pandas?

Gunakan Berbilang Fungsi pada Berbilang KumpulanBy Lajur

Pengenalan

Apabila bekerja dengan data terkumpul, selalunya perlu menggunakan berbilang fungsi pada berbilang lajur. Pustaka Pandas menyediakan beberapa kaedah untuk mencapai ini, termasuk kaedah agg dan gunakan. Walau bagaimanapun, kaedah ini mempunyai had tertentu dan mungkin tidak selalu memenuhi kes penggunaan tertentu.

Menggunakan agg dengan Dict

Seperti yang dinyatakan dalam soalan, adalah mungkin untuk menggunakan berbilang fungsi pada siri kumpulan mengikut objek menggunakan kamus:

grouped['D'].agg({'result1' : np.sum,
                   'result2' : np.mean})

Pendekatan ini membenarkan penentuan nama lajur sebagai kunci dan fungsi yang sepadan sebagai nilai. Walau bagaimanapun, ini hanya berfungsi untuk Siri kumpulan mengikut objek. Apabila digunakan pada kumpulan mengikut DataFrame, kunci kamus dijangkakan sebagai nama lajur, bukan nama lajur output.

Menggunakan agg dengan Fungsi Lambda

Soalan juga meneroka menggunakan fungsi lambda dalam agg untuk dilaksanakan operasi berdasarkan lajur lain dalam kumpulan mengikut objek. Pendekatan ini sesuai apabila fungsi anda melibatkan kebergantungan pada lajur lain. Walaupun tidak disokong secara eksplisit oleh kaedah agg, adalah mungkin untuk mengatasi had ini dengan menentukan nama lajur secara manual sebagai rentetan:

grouped.agg({'C_sum' : lambda x: x['C'].sum(),
             'C_std': lambda x: x['C'].std(),
             'D_sum' : lambda x: x['D'].sum()},
             'D_sumifC3': lambda x: x['D'][x['C'] == 3].sum(), ...)

Pendekatan ini membenarkan penggunaan berbilang fungsi pada lajur yang berbeza, termasuk yang bergantung pada yang lain . Walau bagaimanapun, ia boleh bertele-tele dan memerlukan pengendalian nama lajur yang berhati-hati.

Menggunakan aplikasi dengan Fungsi Tersuai

Pendekatan yang lebih fleksibel ialah menggunakan kaedah guna, yang menghantar keseluruhan DataFrame kumpulan kepada fungsi yang disediakan. Ini membolehkan melakukan operasi dan interaksi yang lebih kompleks antara lajur dalam kumpulan:

def f(x):
    d = {}
    d['a_sum'] = x['a'].sum()
    d['a_max'] = x['a'].max()
    d['b_mean'] = x['b'].mean()
    d['c_d_prodsum'] = (x['c'] * x['d']).sum()
    return pd.Series(d, index=['a_sum', 'a_max', 'b_mean', 'c_d_prodsum'])

df.groupby('group').apply(f)

Dengan mengembalikan Siri dengan lajur berlabel yang sesuai, anda boleh melakukan berbilang pengiraan dengan mudah pada kumpulan mengikut DataFrame. Pendekatan ini lebih serba boleh dan membenarkan operasi kompleks berdasarkan berbilang lajur.

Kesimpulan

Menggunakan berbilang fungsi pada berbilang lajur berkumpulan memerlukan pertimbangan yang teliti terhadap struktur data dan operasi yang diingini. Kaedah agg sesuai untuk operasi mudah pada objek Siri, manakala kaedah guna menawarkan fleksibiliti yang lebih besar apabila bekerja dengan kumpulan mengikut DataFrames atau melakukan pengiraan yang rumit.

Atas ialah kandungan terperinci Bagaimanakah Saya Boleh Menggunakan Berbilang Fungsi dengan Cekap pada Berbilang Lajur Kumpulan Mengikut Lajur dalam Panda?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn