Rumah >Peranti teknologi >AI >Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data

Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data

William Shakespeare
William Shakespeareasal
2025-03-17 10:18:14146semak imbas

Ringkasan data adalah langkah pertama yang penting dalam sebarang aliran kerja analisis data. Walaupun fungsi menggambarkan Pandas () telah menjadi alat untuk banyak, fungsinya terhad kepada data angka dan hanya menyediakan statistik asas. Masukkan Skimpy, perpustakaan Python yang direka untuk menawarkan ringkasan data terperinci, visual, dan komprehensif untuk semua jenis lajur.

Dalam artikel ini, kami akan meneroka mengapa Skimpy adalah alternatif yang layak untuk menggambarkan Pandas (). Anda akan belajar cara memasang dan menggunakan Stimpy, meneroka ciri -cirinya, dan membandingkan outputnya dengan menggambarkan () melalui contoh. Pada akhirnya, anda akan mempunyai pemahaman yang lengkap tentang bagaimana minimpy meningkatkan analisis data penerokaan (EDA).

Hasil pembelajaran

  • Memahami batasan fungsi Pandas ().
  • Ketahui cara memasang dan melaksanakan Stimpy di Python.
  • Terokai output dan pandangan terperinci Skimpy dengan contoh.
  • Bandingkan output dari Stimpy dan Pandas Huraikan ().
  • Memahami cara mengintegrasikan Stimpy ke dalam aliran kerja analisis data anda.

Jadual Kandungan

  • Mengapa Pandas menggambarkan () tidak mencukupi?
  • Bermula dengan Sampy
  • Mengapa Skimpy lebih baik?
  • Menggunakan Sampy untuk ringkasan data
  • Kelebihan menggunakan minimpy
  • Kesimpulan
  • Soalan yang sering ditanya

Mengapa Pandas menggambarkan () tidak mencukupi?

Fungsi menggambarkan () dalam panda digunakan secara meluas untuk meringkaskan data dengan cepat. Walaupun ia berfungsi sebagai alat yang berkuasa untuk analisis data penerokaan (EDA), utilitinya terhad dalam beberapa aspek. Berikut adalah pecahan terperinci mengenai kekurangannya dan mengapa pengguna sering mencari alternatif seperti Skimpy:

Fokus pada data angka secara lalai

Secara lalai, terangkan () hanya berfungsi pada lajur angka melainkan jika dikonfigurasi secara jelas sebaliknya.

Contoh:

 Import Pandas sebagai PD  

data = {  
    "Nama": ["Alice", "Bob", "Charlie", "David"],  
    "Umur": [25, 30, 35, 40],  
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],  
    "Gaji": [70000, 80000, 120000, 90000],  
}  

df = pd.dataFrame (data)  
cetak (df.describe ())

Output:

 Gaji umur  
Count 4.000000 4.000000  
Maksud 32.500000 90000.000000  
STD 6.454972 20000.000000  
Min 25.000000 70000.000000  
25% 28.750000 77500.000000  
50% 32.500000 85000.000000  
75% 36.250000 97500.000000  
Max 40.000000 120000.000000

Isu Utama:

Lajur bukan angka (nama dan bandar) tidak diendahkan melainkan anda secara jelas memanggil menggambarkan (termasuk = 'semua'). Walaupun begitu, output tetap terhad dalam skop untuk lajur bukan angka.

Ringkasan terhad untuk data bukan angka

Apabila lajur bukan angka dimasukkan menggunakan termasuk = 'semua', ringkasan adalah minimum. Ia hanya menunjukkan:

  • Kira: Bilangan nilai yang tidak hilang.
  • Unik: Mengira nilai unik.
  • Atas: Nilai yang paling kerap berlaku.
  • FREQ: Kekerapan nilai atas.

Contoh:

 cetak (df.describe (termasuk = "semua"))

Output:

 Nama Gaji Bandar Umur  
Kira 4 4.0 4 4.000000  
unik 4 nan 4 nan  
Atas Alice Nan New York Nan  
freq 1 nan 1 nan  
bermaksud nan 32.5 nan 90000.000000  
STD NAN 6.5 NAN 20000.000000  
min nan 25.0 nan 70000.000000  
25% NAN 28.8 NAN 77500.000000  
50% NAN 32.5 NAN 85000.000000  
75% NAN 36.2 NAN 97500.000000  
max nan 40.0 nan 120000.000000

Isu Utama:

  • Lajur rentetan (nama dan bandar) diringkaskan menggunakan metrik terlalu asas (misalnya, atas, freq).
  • Tiada pandangan mengenai panjang rentetan, corak, atau perkadaran data yang hilang.

Tiada maklumat mengenai data yang hilang

Pandas 'menggambarkan () tidak secara eksplisit menunjukkan peratusan data yang hilang untuk setiap lajur. Mengenal pasti data yang hilang memerlukan arahan berasingan:

 cetak (df.isnull (). SUM ())

Kekurangan metrik maju

Metrik lalai yang disediakan oleh Huraikan () adalah asas. Untuk data angka, ia menunjukkan:

  • Kiraan, min, dan sisihan piawai.
  • Minimum, maksimum, dan kuartil (25%, 50%, dan 75%).

Walau bagaimanapun, ia tidak mempunyai butiran statistik lanjutan seperti:

  • Kurtosis dan Skewness: Petunjuk pengagihan data.
  • Pengesanan Outlier: Tiada petunjuk nilai -nilai yang melampau di luar julat tipikal.
  • Agregasi tersuai: fleksibiliti terhad untuk memohon fungsi yang ditentukan pengguna.

Visualisasi data yang lemah

Huraikan () output ringkasan teks biasa, yang, walaupun berfungsi, tidak menarik secara visual atau mudah untuk mentafsir dalam beberapa kes. Menggambarkan trend atau pengagihan memerlukan perpustakaan tambahan seperti Matplotlib atau Seaborn.

Contoh: Histogram atau boxplot lebih baik mewakili pengagihan, tetapi terangkan () tidak memberikan keupayaan visual sedemikian.

Bermula dengan Sampy

Skimpy adalah perpustakaan Python yang direka untuk memudahkan dan meningkatkan analisis data penerokaan (EDA). Ia memberikan ringkasan terperinci dan ringkas mengenai data anda, mengendalikan kedua-dua lajur angka dan bukan numerik dengan berkesan. Tidak seperti Pandas 'menggambarkan (), skimpy termasuk metrik maju, pandangan data yang hilang, dan output yang lebih bersih, lebih intuitif. Ini menjadikannya alat yang sangat baik untuk memahami dengan cepat dataset, mengenal pasti isu kualiti data, dan menyediakan analisis yang lebih mendalam.

Pasang Stimpy Menggunakan PIP:
Jalankan arahan berikut di terminal atau arahan arahan anda:

 PIP Pasang Sampy

Sahkan pemasangan:
Selepas pemasangan, anda boleh mengesahkan bahawa Skimpy dipasang dengan betul dengan mengimportnya dalam skrip Python atau notebook Jupyter:

 dari skim import yang tidak jelas  
Cetak ("Skimpy Dipasang dengan jayanya!")

Mengapa Skimpy lebih baik?

Marilah kita meneroka pelbagai sebab secara terperinci tentang mengapa menggunakan Skimpy lebih baik:

Ringkasan bersatu untuk semua jenis data

Skimpy merawat semua jenis data dengan kepentingan yang sama, memberikan ringkasan yang kaya untuk kedua-dua lajur angka dan bukan angka dalam satu jadual bersatu tunggal.

Contoh:

 dari skim import yang tidak jelas  
Import Pandas sebagai PD  

data = {  
    "Nama": ["Alice", "Bob", "Charlie", "David"],  
    "Umur": [25, 30, 35, 40],  
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],  
    "Gaji": [70000, 80000, 120000, 90000],  
}  

df = pd.dataFrame (data)  
Skim (DF)

Output:

Skimpy menjana jadual yang ringkas dan berstruktur dengan maklumat seperti:

  • Data angka: kiraan, min, median, sisihan piawai, minimum, maksimum, dan kuartil.
  • Data bukan numerik: Nilai unik, nilai yang paling kerap (mod), nilai yang hilang, dan pengagihan kiraan aksara.

Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data

Pengendalian data yang hilang

Skimpy secara automatik menyoroti data yang hilang dalam ringkasannya, menunjukkan peratusan dan kiraan nilai yang hilang untuk setiap lajur. Ini menghapuskan keperluan untuk arahan tambahan seperti df.isnull (). SUM ().

Mengapa ini penting:

  • Membantu pengguna mengenal pasti isu kualiti data di hadapan.
  • Menggalakkan keputusan cepat mengenai imputasi atau penyingkiran data yang hilang.

Wawasan Statistik Lanjutan

Skimpy melampaui statistik deskriptif asas dengan memasukkan metrik tambahan yang memberikan pandangan yang lebih mendalam:

  • Kurtosis: Menunjukkan "ekor" pengedaran.
  • Skewness: mengukur asimetri dalam pengagihan data.
  • Bendera Outlier: Sorotan lajur dengan potensi outlier.

Ringkasan yang kaya untuk lajur teks

Untuk data bukan angka seperti rentetan, Stimpy menyampaikan ringkasan terperinci yang digambarkan Pandas () tidak dapat dipadankan:

  • Pengagihan panjang rentetan: Memberi pandangan kepada panjang rentetan minimum, maksimum, dan purata.
  • Corak dan variasi: Mengenal pasti corak biasa dalam data teks.
  • Nilai dan mod yang unik: memberikan gambaran yang lebih jelas tentang kepelbagaian teks.

Contoh output untuk lajur teks:

Lajur Nilai unik Nilai yang paling kerap Kiraan mod Panjang avg
Nama 4 Alice 1 5.25
Bandar 4 New York 1 7.50

Visual padat dan intuitif

Skimpy menggunakan output berkod warna dan tabular yang lebih mudah untuk mentafsir, terutamanya untuk dataset yang besar. Visual ini menyerlahkan:

  • Nilai yang hilang.
  • Pengagihan.
  • Statistik ringkasan, semuanya dalam sekejap.

Rayuan visual ini menjadikan Ringkasan Skimpy persembahan-siap, yang sangat berguna untuk melaporkan penemuan kepada pihak berkepentingan.

Sokongan terbina dalam untuk pembolehubah kategori

Skimpy menyediakan metrik khusus untuk data kategori yang menggambarkan Pandas () tidak, seperti:

  • Pengagihan kategori.
  • Kekerapan dan perkadaran untuk setiap kategori.

Ini menjadikan Stimpy sangat berharga untuk dataset yang melibatkan pembolehubah demografi, geografi, atau pembolehubah kategori lain.

Menggunakan Sampy untuk ringkasan data

Di bawah ini, kami meneroka cara menggunakan Skimpy dengan berkesan untuk ringkasan data.

Langkah1: Import minimpy dan sediakan dataset anda

Untuk menggunakan Stimpy, anda perlu mengimportnya bersama -sama dengan dataset anda. Skimpy mengintegrasikan dengan lancar dengan Pandas DataFrames.

Contoh dataset:
Mari kita bekerjasama dengan dataset mudah yang mengandungi data angka, kategori, dan teks.

 Import Pandas sebagai PD
dari skim import yang tidak jelas

# Sampel dataset
data = {
    "Nama": ["Alice", "Bob", "Charlie", "David"],
    "Umur": [25, 30, 35, 40],
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],
    "Gaji": [70000, 80000, 120000, 90000],
    "Penilaian": [4.5, tiada, 4.7, 4.8],
}

df = pd.dataFrame (data)

Langkah2: Sapukan fungsi skim ()

Fungsi teras Skimpy adalah skim (). Apabila diterapkan pada DataFrame, ia memberikan ringkasan terperinci semua lajur.

Penggunaan:

 Skim (DF)

Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data

Langkah3: Tafsirkan Ringkasan Skimpy

Mari kita pecahkan maksud output Skimpy:

Lajur Jenis data Hilang (%) Maksudnya Median Min Maks Unik Nilai yang paling kerap Kiraan mod
Nama Teks 0.0% - - - - 4 Alice 1
Umur Angka 0.0% 32.5 32.5 25 40 - - -
Bandar Teks 0.0% - - - - 4 New York 1
Gaji Angka 0.0% 90000 85000 70000 120000 - - -
Penilaian Angka 25.0% 4.67 4.7 4.5 4.8 - - -
  • Nilai Hilang: Lajur "Penarafan" mempunyai 25% nilai yang hilang, menunjukkan isu kualiti data yang berpotensi.
  • Lajur Numerik: Purata dan median untuk "gaji" adalah dekat, menunjukkan pengedaran simetri yang kasar, sedangkan "umur" diedarkan secara merata dalam julatnya.
  • Lajur Teks: Lajur "Bandar" mempunyai 4 nilai unik dengan "New York" yang paling kerap.

Langkah4: Fokus pada pandangan utama

Skimpy amat berguna untuk mengenal pasti:

  • Isu Kualiti Data:
    • Nilai yang hilang dalam lajur seperti "penarafan."
    • Outliers melalui metrik seperti Min, Max, dan Quartiles.
  • Corak dalam data kategori:
    • Kategori yang paling kerap dalam lajur seperti "City."
  • Wawasan panjang rentetan:
    • Untuk dataset teks-berat, Skimpy menyediakan panjang rentetan purata, membantu dalam tugas pra-proses seperti tokenisasi.

Langkah5: Menyesuaikan output minim

Skimpy membolehkan beberapa fleksibiliti menyesuaikan outputnya bergantung pada keperluan anda:

  • Lajur Subset: Menganalisis hanya lajur tertentu dengan meluluskannya sebagai subset dari DataFrame:
 skim (df [["umur", "gaji"]])
  • Fokus pada data yang hilang: Cepat mengenal pasti peratusan data yang hilang:
 skim (df) .loc [:, ["lajur", "hilang (%)"]]

Kelebihan menggunakan minimpy

  • Ringkasan All-In-One: Skimpy menggabungkan pandangan angka dan bukan angka ke dalam satu jadual.
  • Penjimatan masa: Menghapuskan keperluan untuk menulis pelbagai baris kod untuk meneroka jenis data yang berbeza.
  • Pembacaan yang lebih baik: Ringkasan yang bersih dan menarik secara visual menjadikannya lebih mudah untuk mengenal pasti trend dan outlier.
  • Cekap untuk dataset yang besar: Skimpy dioptimumkan untuk mengendalikan dataset dengan banyak lajur tanpa mengatasi pengguna.

Kesimpulan

Skimpy memudahkan ringkasan data dengan menawarkan pandangan terperinci, yang boleh dibaca manusia ke dalam dataset semua jenis. Tidak seperti Pandas menggambarkan (), ia tidak menyekat fokusnya kepada data angka dan memberikan pengalaman ringkasan yang lebih diperkaya. Sama ada anda membersihkan data, meneroka trend, atau menyediakan laporan, ciri -ciri Skimpy menjadikannya alat yang sangat diperlukan untuk profesional data.

Takeaways utama

  • Skimpy mengendalikan kedua-dua lajur angka dan bukan angka dengan lancar.
  • Ia memberikan pandangan tambahan, seperti nilai yang hilang dan jumlah yang unik.
  • Format output lebih intuitif dan menarik secara visual daripada Pandas menggambarkan ().

Soalan yang sering ditanya

Q1. Apa itu Sampy?

A. Ia adalah perpustakaan Python yang direka untuk ringkasan data yang komprehensif, yang menawarkan pandangan di luar Pandas menggambarkan ().

S2. Bolehkah Skimpy Menggantikan Huraikan ()?

A. Ya, ia menyediakan fungsi yang dipertingkatkan dan dapat menggantikan jelas ().

Q3. Adakah Sampy menyokong dataset besar?

A. Ya, ia dioptimumkan untuk mengendalikan dataset besar dengan cekap.

Q4. Bagaimana saya memasang Stimpy?

A. Pasangnya menggunakan PIP: Pip Pasang Stimpy.

S5. Apa yang menjadikan Stimpy lebih baik daripada menggambarkan ()?

A. Ia meringkaskan semua jenis data, termasuk pandangan nilai yang hilang, dan membentangkan output dalam format yang lebih mesra pengguna.

Atas ialah kandungan terperinci Sampy: Alternatif untuk Pandas Huraikan () untuk ringkasan data. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn