Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Bagaimana untuk Menapis Objek Data Panda dengan Cekap Menggunakan Pengindeksan Boolean?

Bagaimana untuk Menapis Objek Data Panda dengan Cekap Menggunakan Pengindeksan Boolean?

Barbara Streisand
Barbara Streisandasal
2024-10-20 11:57:30577semak imbas

How to Efficiently Filter Pandas Data Objects Using Boolean Indexing?

Penapisan Cekap Bingkai Data dan Siri Pandas Menggunakan Pengindeksan Boolean

Dalam senario analisis data, penggunaan berbilang penapis untuk mengecilkan hasil selalunya penting. Artikel ini bertujuan untuk menangani pendekatan yang cekap untuk merantai berbilang operasi perbandingan pada objek data Pandas.

Cabarannya

Matlamatnya adalah untuk memproses kamus pengendali hubungan dan menerapkannya secara tambahan pada Panda yang diberikan Siri atau DataFrame, menghasilkan set data yang ditapis. Operasi ini memerlukan meminimumkan penyalinan data yang tidak diperlukan, terutamanya apabila berurusan dengan set data yang besar.

Penyelesaian: Pengindeksan Boolean

Panda menyediakan mekanisme yang sangat cekap untuk menapis data menggunakan pengindeksan boolean. Pengindeksan Boolean melibatkan mewujudkan keadaan logik dan kemudian mengindeks data menggunakan syarat ini. Pertimbangkan contoh berikut:

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

Barisan kod ini memilih semua baris dalam DataFrame df di mana nilai dalam lajur 'col1' lebih besar daripada atau sama dengan 1. Hasilnya ialah objek Siri baharu yang mengandungi nilai yang ditapis.

Untuk menggunakan berbilang penapis, kami boleh menggabungkan keadaan boolean menggunakan pengendali logik seperti & (dan) dan | (atau). Contohnya:

<code class="python">df[(df['col1'] >= 1) & (df['col1'] <= 1)]

Operasi ini menapis baris dengan 'col1' kedua-duanya lebih besar daripada atau sama dengan 1 dan kurang daripada atau sama dengan 1.

Fungsi Pembantu

Untuk memudahkan proses menggunakan berbilang penapis, kami boleh mencipta fungsi pembantu:

<code class="python">def b(x, col, op, n): 
    return op(x[col], n)

def f(x, *b):
    return x[(np.logical_and(*b))]

Fungsi b mencipta keadaan boolean untuk lajur dan pengendali tertentu, manakala f menggunakan berbilang syarat boolean pada DataFrame atau Siri.

Contoh Penggunaan

Untuk menggunakan fungsi ini, kami boleh menyediakan kamus kriteria penapis:

<code class="python">filters = {'>=': [1], '<=': [1]}</code>
<code class="python">b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
filtered_df = f(df, b1, b2)</code>

Kod ini menggunakan penapis pada 'col1' lajur dalam DataFrame df dan mengembalikan DataFrame baharu dengan hasil yang ditapis.

Fungsi Dipertingkat

Pandas 0.13 memperkenalkan kaedah pertanyaan, yang menawarkan cara mudah untuk menggunakan penapis menggunakan ungkapan rentetan. Untuk pengecam lajur yang sah, kod berikut menjadi mungkin:

<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>

Baris ini mencapai penapisan yang sama seperti contoh kami sebelum ini menggunakan sintaks yang lebih ringkas.

Dengan menggunakan pengindeksan boolean dan fungsi pembantu, kami boleh menggunakan berbilang penapis dengan cekap pada bingkai data dan siri Pandas. Pendekatan ini meminimumkan penyalinan data dan meningkatkan prestasi, terutamanya apabila bekerja dengan set data yang besar.

Atas ialah kandungan terperinci Bagaimana untuk Menapis Objek Data Panda dengan Cekap Menggunakan Pengindeksan Boolean?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn