Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Petua dan kaedah untuk mengoptimumkan analisis data panda

Petua dan kaedah untuk mengoptimumkan analisis data panda

PHPz
PHPzasal
2024-01-13 14:19:171124semak imbas

Petua dan kaedah untuk mengoptimumkan analisis data panda

pandas petua dan kiat untuk meningkatkan kecekapan analisis data

Pengenalan

Dalam bidang analisis data moden, panda ialah perpustakaan Python yang digunakan secara meluas. Ia menyediakan struktur data yang cekap, fleksibel dan kaya serta alatan pemprosesan data, menjadikan analisis data lebih mudah dan cekap. Walau bagaimanapun, untuk benar-benar menyedari potensi panda, adalah penting untuk mengetahui beberapa petua dan helah. Artikel ini akan memperkenalkan beberapa teknik panda untuk meningkatkan kecekapan analisis data dan menyediakan contoh kod khusus.

  1. Gunakan operasi vektorisasi

Dalam analisis data, selalunya perlu melakukan pelbagai pengiraan dan operasi pada data, seperti penambahan, penolakan, pendaraban dan pembahagian, pengiraan purata, statistik kumpulan, dsb. Menggunakan operasi vektorisasi boleh meningkatkan kelajuan pemprosesan data dengan ketara. Banyak fungsi dalam panda menyokong operasi vektorisasi, seperti operasi tambah tambah, operasi tolak sub, operasi darab mul, operasi bahagi div, dsb. Berikut ialah contoh mudah:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df['C'] = df['A'] + df['B']  # 使用向量化的加法操作

print(df)

Output:

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12
  1. Menggunakan syarat untuk memilih data

Apabila memproses data, selalunya perlu memilih bahagian yang diperlukan daripada set data berdasarkan syarat tertentu. Fungsi ini boleh dicapai dengan mudah menggunakan pemilihan bersyarat. Pandas menyediakan cara untuk memilih data menggunakan syarat, menggunakan pengindeksan Boolean. Berikut ialah contoh:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df_selected = df[df['A'] > 2]  # 选择A列中大于2的行

print(df_selected)

Output:

   A  B
2  3  7
3  4  8
  1. Menggunakan jadual pangsi untuk pengumpulan dan pengagregatan data

Jadual pangsi dalam panda ialah alat yang sangat mudah untuk pengumpulan dan pengagregatan data. Melalui jadual pangsi, anda boleh mengumpulkan data dengan mudah mengikut lajur yang ditentukan dan melaksanakan statistik agregat pada lajur lain. Berikut ialah contoh:

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'two', 'two', 'one'],
                   'C': [1, 2, 3, 4, 5, 6]})

df_pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum')

print(df_pivot)

Output:

B    one  two
A            
bar    7    6
foo    6    8
  1. Gunakan fungsi guna untuk operasi tersuai

Kadangkala, anda perlu melakukan beberapa operasi tersuai pada data. Dalam panda, anda boleh menggunakan fungsi apply untuk mencapai tujuan ini. Fungsi guna boleh menerima fungsi tersuai sebagai parameter dan menggunakannya pada setiap baris atau lajur set data. Berikut ialah contoh:

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

def custom_operation(row):
    return row['A'] + row['B']

df['C'] = df.apply(custom_operation, axis=1)

print(df)

Output:

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12

Kesimpulan

Artikel ini memperkenalkan beberapa petua dan kiat panda untuk meningkatkan kecekapan analisis data, termasuk menggunakan operasi vektorisasi, menggunakan syarat untuk memilih data dan menggunakan jadual pangsi untuk data pengelompokan dan pengagregatan Dan gunakan fungsi guna untuk operasi tersuai. Dengan menguasai kemahiran ini, anda boleh melakukan kerja analisis data dengan lebih cekap dan meningkatkan kecekapan kerja. Sudah tentu, ini hanya sebahagian daripada fungsi panda, dan terdapat banyak ciri hebat lain yang menunggu untuk kita terokai. Saya harap artikel ini telah memberi inspirasi kepada pembaca dan boleh memainkan peranan yang lebih besar dalam kerja analisis data harian.

Atas ialah kandungan terperinci Petua dan kaedah untuk mengoptimumkan analisis data panda. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn