Rumah >Peranti teknologi >AI >Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data
Ringkasan data adalah langkah pertama yang penting dalam sebarang aliran kerja analisis data. Walaupun fungsi menggambarkan Pandas () telah menjadi alat untuk banyak, fungsinya terhad kepada data angka dan hanya menyediakan statistik asas. Masukkan Skimpy, perpustakaan Python yang direka untuk menawarkan ringkasan data terperinci, visual, dan komprehensif untuk semua jenis lajur.
Dalam artikel ini, kami akan meneroka mengapa Skimpy adalah alternatif yang layak untuk menggambarkan Pandas (). Anda akan belajar cara memasang dan menggunakan Stimpy, meneroka ciri -cirinya, dan membandingkan outputnya dengan menggambarkan () melalui contoh. Pada akhirnya, anda akan mempunyai pemahaman yang lengkap tentang bagaimana minimpy meningkatkan analisis data penerokaan (EDA).
Fungsi menggambarkan () dalam panda digunakan secara meluas untuk meringkaskan data dengan cepat. Walaupun ia berfungsi sebagai alat yang berkuasa untuk analisis data penerokaan (EDA), utilitinya terhad dalam beberapa aspek. Berikut adalah pecahan terperinci mengenai kekurangannya dan mengapa pengguna sering mencari alternatif seperti Skimpy:
Secara lalai, terangkan () hanya berfungsi pada lajur angka melainkan jika dikonfigurasi secara jelas sebaliknya.
Contoh:
Import Pandas sebagai PD data = { "Nama": ["Alice", "Bob", "Charlie", "David"], "Umur": [25, 30, 35, 40], "City": ["New York", "Los Angeles", "Chicago", "Houston"], "Gaji": [70000, 80000, 120000, 90000], } df = pd.dataFrame (data) cetak (df.describe ())
Output:
Gaji umur Count 4.000000 4.000000 Maksud 32.500000 90000.000000 STD 6.454972 20000.000000 Min 25.000000 70000.000000 25% 28.750000 77500.000000 50% 32.500000 85000.000000 75% 36.250000 97500.000000 Max 40.000000 120000.000000
Isu Utama:
Lajur bukan angka (nama dan bandar) tidak diendahkan melainkan anda secara jelas memanggil menggambarkan (termasuk = 'semua'). Walaupun begitu, output tetap terhad dalam skop untuk lajur bukan angka.
Apabila lajur bukan angka dimasukkan menggunakan termasuk = 'semua', ringkasan adalah minimum. Ia hanya menunjukkan:
Contoh:
cetak (df.describe (termasuk = "semua"))
Output:
Nama Gaji Bandar Umur Kira 4 4.0 4 4.000000 unik 4 nan 4 nan Atas Alice Nan New York Nan freq 1 nan 1 nan bermaksud nan 32.5 nan 90000.000000 STD NAN 6.5 NAN 20000.000000 min nan 25.0 nan 70000.000000 25% NAN 28.8 NAN 77500.000000 50% NAN 32.5 NAN 85000.000000 75% NAN 36.2 NAN 97500.000000 max nan 40.0 nan 120000.000000
Isu Utama:
Pandas 'menggambarkan () tidak secara eksplisit menunjukkan peratusan data yang hilang untuk setiap lajur. Mengenal pasti data yang hilang memerlukan arahan berasingan:
cetak (df.isnull (). SUM ())
Metrik lalai yang disediakan oleh Huraikan () adalah asas. Untuk data angka, ia menunjukkan:
Walau bagaimanapun, ia tidak mempunyai butiran statistik lanjutan seperti:
Huraikan () output ringkasan teks biasa, yang, walaupun berfungsi, tidak menarik secara visual atau mudah untuk mentafsir dalam beberapa kes. Menggambarkan trend atau pengagihan memerlukan perpustakaan tambahan seperti Matplotlib atau Seaborn.
Contoh: Histogram atau boxplot lebih baik mewakili pengagihan, tetapi terangkan () tidak memberikan keupayaan visual sedemikian.
Skimpy adalah perpustakaan Python yang direka untuk memudahkan dan meningkatkan analisis data penerokaan (EDA). Ia memberikan ringkasan terperinci dan ringkas mengenai data anda, mengendalikan kedua-dua lajur angka dan bukan numerik dengan berkesan. Tidak seperti Pandas 'menggambarkan (), skimpy termasuk metrik maju, pandangan data yang hilang, dan output yang lebih bersih, lebih intuitif. Ini menjadikannya alat yang sangat baik untuk memahami dengan cepat dataset, mengenal pasti isu kualiti data, dan menyediakan analisis yang lebih mendalam.
Pasang Stimpy Menggunakan PIP:
Jalankan arahan berikut di terminal atau arahan arahan anda:
PIP Pasang Sampy
Sahkan pemasangan:
Selepas pemasangan, anda boleh mengesahkan bahawa Skimpy dipasang dengan betul dengan mengimportnya dalam skrip Python atau notebook Jupyter:
dari skim import yang tidak jelas Cetak ("Skimpy Dipasang dengan jayanya!")
Marilah kita meneroka pelbagai sebab secara terperinci tentang mengapa menggunakan Skimpy lebih baik:
Skimpy merawat semua jenis data dengan kepentingan yang sama, memberikan ringkasan yang kaya untuk kedua-dua lajur angka dan bukan angka dalam satu jadual bersatu tunggal.
Contoh:
dari skim import yang tidak jelas Import Pandas sebagai PD data = { "Nama": ["Alice", "Bob", "Charlie", "David"], "Umur": [25, 30, 35, 40], "City": ["New York", "Los Angeles", "Chicago", "Houston"], "Gaji": [70000, 80000, 120000, 90000], } df = pd.dataFrame (data) Skim (DF)
Output:
Skimpy menjana jadual yang ringkas dan berstruktur dengan maklumat seperti:
Skimpy secara automatik menyoroti data yang hilang dalam ringkasannya, menunjukkan peratusan dan kiraan nilai yang hilang untuk setiap lajur. Ini menghapuskan keperluan untuk arahan tambahan seperti df.isnull (). SUM ().
Mengapa ini penting:
Skimpy melampaui statistik deskriptif asas dengan memasukkan metrik tambahan yang memberikan pandangan yang lebih mendalam:
Untuk data bukan angka seperti rentetan, Stimpy menyampaikan ringkasan terperinci yang digambarkan Pandas () tidak dapat dipadankan:
Contoh output untuk lajur teks:
Lajur | Nilai unik | Nilai yang paling kerap | Kiraan mod | Panjang avg |
---|---|---|---|---|
Nama | 4 | Alice | 1 | 5.25 |
Bandar | 4 | New York | 1 | 7.50 |
Skimpy menggunakan output berkod warna dan tabular yang lebih mudah untuk mentafsir, terutamanya untuk dataset yang besar. Visual ini menyerlahkan:
Rayuan visual ini menjadikan Ringkasan Skimpy persembahan-siap, yang sangat berguna untuk melaporkan penemuan kepada pihak berkepentingan.
Skimpy menyediakan metrik khusus untuk data kategori yang menggambarkan Pandas () tidak, seperti:
Ini menjadikan Stimpy sangat berharga untuk dataset yang melibatkan pembolehubah demografi, geografi, atau pembolehubah kategori lain.
Di bawah ini, kami meneroka cara menggunakan Skimpy dengan berkesan untuk ringkasan data.
Untuk menggunakan Stimpy, anda perlu mengimportnya bersama -sama dengan dataset anda. Skimpy mengintegrasikan dengan lancar dengan Pandas DataFrames.
Contoh dataset:
Mari kita bekerjasama dengan dataset mudah yang mengandungi data angka, kategori, dan teks.
Import Pandas sebagai PD dari skim import yang tidak jelas # Sampel dataset data = { "Nama": ["Alice", "Bob", "Charlie", "David"], "Umur": [25, 30, 35, 40], "City": ["New York", "Los Angeles", "Chicago", "Houston"], "Gaji": [70000, 80000, 120000, 90000], "Penilaian": [4.5, tiada, 4.7, 4.8], } df = pd.dataFrame (data)
Fungsi teras Skimpy adalah skim (). Apabila diterapkan pada DataFrame, ia memberikan ringkasan terperinci semua lajur.
Penggunaan:
Skim (DF)
Mari kita pecahkan maksud output Skimpy:
Lajur | Jenis data | Hilang (%) | Maksudnya | Median | Min | Maks | Unik | Nilai yang paling kerap | Kiraan mod |
---|---|---|---|---|---|---|---|---|---|
Nama | Teks | 0.0% | - | - | - | - | 4 | Alice | 1 |
Umur | Angka | 0.0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
Bandar | Teks | 0.0% | - | - | - | - | 4 | New York | 1 |
Gaji | Angka | 0.0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
Penilaian | Angka | 25.0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
Skimpy amat berguna untuk mengenal pasti:
Skimpy membolehkan beberapa fleksibiliti menyesuaikan outputnya bergantung pada keperluan anda:
skim (df [["umur", "gaji"]])
skim (df) .loc [:, ["lajur", "hilang (%)"]]
Skimpy memudahkan ringkasan data dengan menawarkan pandangan terperinci, yang boleh dibaca manusia ke dalam dataset semua jenis. Tidak seperti Pandas menggambarkan (), ia tidak menyekat fokusnya kepada data angka dan memberikan pengalaman ringkasan yang lebih diperkaya. Sama ada anda membersihkan data, meneroka trend, atau menyediakan laporan, ciri -ciri Skimpy menjadikannya alat yang sangat diperlukan untuk profesional data.
A. Ia adalah perpustakaan Python yang direka untuk ringkasan data yang komprehensif, yang menawarkan pandangan di luar Pandas menggambarkan ().
S2. Bolehkah Skimpy Menggantikan Huraikan ()?A. Ya, ia menyediakan fungsi yang dipertingkatkan dan dapat menggantikan jelas ().
Q3. Adakah Sampy menyokong dataset besar?A. Ya, ia dioptimumkan untuk mengendalikan dataset besar dengan cekap.
Q4. Bagaimana saya memasang Stimpy?A. Pasangnya menggunakan PIP: Pip Pasang Stimpy.
S5. Apa yang menjadikan Stimpy lebih baik daripada menggambarkan ()?A. Ia meringkaskan semua jenis data, termasuk pandangan nilai yang hilang, dan membentangkan output dalam format yang lebih mesra pengguna.
Atas ialah kandungan terperinci Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!