Maison >Périphériques technologiques >IA >SKIMPY: Alternative aux pandas décrites () pour le résumé des données

SKIMPY: Alternative aux pandas décrites () pour le résumé des données

William Shakespeare
William Shakespeareoriginal
2025-03-17 10:18:14146parcourir

La résumé des données est une première étape essentielle de tout flux de travail d'analyse des données. Alors que la fonction décrivale de Pandas a été un outil incontournable pour beaucoup, sa fonctionnalité est limitée aux données numériques et ne fournit que des statistiques de base. Entrez SKIMPY, une bibliothèque Python conçue pour offrir des résumés de données détaillés, visuellement attrayants et complets pour tous les types de colonnes.

Dans cet article, nous explorerons pourquoi Skimpy est une alternative digne à Pandas décrite (). Vous apprendrez à installer et à utiliser SKIMPY, à explorer ses fonctionnalités et à comparer sa sortie avec décrire () à travers des exemples. À la fin, vous aurez une compréhension complète de la façon dont Skimpy améliore l'analyse des données exploratoires (EDA).

Résultats d'apprentissage

  • Comprendre les limites de la fonction décriv () de Pandas.
  • Apprenez à installer et à implémenter SKIMPY dans Python.
  • Explorez les sorties et les informations détaillées de Skimpy avec des exemples.
  • Comparez les sorties de SKIMPY et PANDAS décrivent ().
  • Comprenez comment intégrer SKIMPY dans votre flux de travail d'analyse des données.

Table des matières

  • Pourquoi les pandas décrivent () ne suffit pas?
  • Commencer avec le skimpy
  • Pourquoi Skimpy est mieux?
  • Utilisation de SKIMPY pour la résumé des données
  • Avantages de l'utilisation
  • Conclusion
  • Questions fréquemment posées

Pourquoi les pandas décrivent () ne suffit pas?

La fonction décrit () dans les pandas est largement utilisée pour résumer rapidement les données. Bien qu'il sert d'outil puissant pour l'analyse des données exploratoires (EDA), son utilité est limitée à plusieurs aspects. Voici une ventilation détaillée de ses lacunes et pourquoi les utilisateurs recherchent souvent des alternatives comme Skimpy:

Concentrez-vous sur les données numériques par défaut

Par défaut, décrire () ne fonctionne que sur les colonnes numériques, sauf si vous configurez explicitement autrement.

Exemple:

 Importer des pandas en tant que PD  

data = {  
    "Nom": ["Alice", "Bob", "Charlie", "David"],  
    "Âge": [25, 30, 35, 40],  
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],  
    "Salaire": [70000, 80000, 120000, 90000],  
}  

df = pd.dataframe (données)  
print (df.describe ())

Sortir:

 Salaire d'âge  
Compte 4.000000 4.000000  
Moyenne 32.500000 90000.000000  
STD 6.454972 20000.000000  
min 25.000000 70000.000000  
25% 28.750000 77500.000000  
50% 32.500000 85000.000000  
75% 36.250000 97500.000000  
MAX 40.000000 120000.000000

Problème clé:

Les colonnes non numériques (nom et ville) sont ignorées, sauf si vous appelez explicitement décrire (include = «all»). Même alors, la sortie reste limitée de portée pour les colonnes non numériques.

Résumé limité pour les données non nucères

Lorsque des colonnes non numériques sont incluses en utilisant l'inclusion = «all», le résumé est minime. Il se manifeste uniquement:

  • Compte: nombre de valeurs non manquantes.
  • Unique: Compte de valeurs uniques.
  • En haut: la valeur la plus fréquente.
  • FREQ: fréquence de la valeur supérieure.

Exemple:

 print (df.describe (include = "all"))

Sortir:

 Nom Age City Salaire  
Compte 4 4.0 4 4.000000  
Unique 4 Nan 4 Nan  
Top Alice Nan New York Nan  
Freq 1 nan 1 nan  
NAN 32,5 NAN 90000.000000  
STD NAN 6.5 NAN 20000.000000  
Min Nan 25.0 NAN 70000.000000  
25% NAN 28,8 NAN 77500.000000  
50% NAN 32,5 NAN 85000.000000  
75% NAN 36,2 NAN 97500.000000  
MAX NAN 40.0 NAN 120000.000000

Problèmes clés:

  • Les colonnes de chaîne (nom et ville) sont résumées à l'aide de mesures trop basiques (par exemple, TOP, FREQ).
  • Aucun aperçu des longueurs de chaîne, des modèles ou des proportions de données manquantes.

Aucune information sur les données manquantes

Pandas 'Dri décrite () ne montre pas explicitement le pourcentage de données manquantes pour chaque colonne. L'identification des données manquantes nécessite des commandes distinctes:

 print (df.isnull (). sum ())

Manque de mesures avancées

Les métriques par défaut fournies par décrire () sont basiques. Pour les données numériques, cela montre:

  • Compter, moyenne et écart type.
  • Minimum, maximum et quartiles (25%, 50% et 75%).

Cependant, il manque de détails statistiques avancés tels que:

  • Kurtosis et asymétrie: indicateurs de la distribution des données.
  • Détection aberrante: Aucune indication de valeurs extrêmes au-delà des plages typiques.
  • Agrégations personnalisées: flexibilité limitée pour appliquer des fonctions définies par l'utilisateur.

Mauvaise visualisation des données

décrire () produit un résumé de texte brut, qui, bien que fonctionnel, n'est pas visuellement engageant ou facile à interpréter dans certains cas. La visualisation des tendances ou des distributions nécessite des bibliothèques supplémentaires comme Matplotlib ou Seaborn.

Exemple: un histogramme ou un boîtier à boîte représenterait mieux les distributions, mais décrire () ne fournit pas de telles capacités visuelles.

Commencer avec le skimpy

SKIMPY est une bibliothèque Python conçue pour simplifier et améliorer l'analyse exploratoire des données (EDA). Il fournit des résumés détaillés et concis de vos données, gérant efficacement les colonnes numériques et non numériques. Contrairement à Pandas '' Dri décrite (), SKIMPY comprend des mesures avancées, des informations de données manquantes et une sortie plus propre et plus intuitive. Cela en fait un excellent outil pour comprendre rapidement les ensembles de données, l'identification des problèmes de qualité des données et la préparation d'une analyse plus approfondie.

Installez maigre à l'aide de PIP:
Exécutez la commande suivante dans votre terminal ou votre invite de commande:

 pip install skimpy

Vérifiez l'installation:
Après l'installation, vous pouvez vérifier que SKIMPY est installé correctement en l'important dans un script Python ou un cahier Jupyter:

 De SKIMPY IMPORT SKIM  
Print ("SKIMPY installé avec succès!")

Pourquoi Skimpy est mieux?

Explorons maintenant diverses raisons en détail sur les raisons pour lesquelles utiliser Skimpy est mieux:

Résumé unifié pour tous les types de données

Skimpy traite tous les types de données avec une importance égale, fournissant de riches résumés pour les colonnes numériques et non nucères dans un seul tableau unifié.

Exemple:

 De SKIMPY IMPORT SKIM  
Importer des pandas en tant que PD  

data = {  
    "Nom": ["Alice", "Bob", "Charlie", "David"],  
    "Âge": [25, 30, 35, 40],  
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],  
    "Salaire": [70000, 80000, 120000, 90000],  
}  

df = pd.dataframe (données)  
Skim (DF)

Sortir:

SKIMPY génère une table concise et bien structurée avec des informations telles que:

  • Données numériques: compter, moyenne, médiane, écart-type, minimum, maximum et quartiles.
  • Données non numériques: valeurs uniques, valeur la plus fréquente (mode), valeurs manquantes et distributions de nombre de caractères.

SKIMPY: Alternative aux pandas décrites () pour le résumé des données

Manipulation intégrée des données manquantes

SKIMPY met automatiquement en évidence les données manquantes dans son résumé, affichant le pourcentage et le nombre de valeurs manquantes pour chaque colonne. Cela élimine le besoin de commandes supplémentaires comme df.isnull (). Sum ().

Pourquoi cela compte:

  • Aide les utilisateurs à identifier les problèmes de qualité des données à l'avance.
  • Encourage les décisions rapides concernant l'imputation ou la suppression des données manquantes.

Insistance statistique avancée

SKIMPY va au-delà des statistiques descriptives de base en incluant des mesures supplémentaires qui fournissent des informations plus profondes:

  • Kurtosis: indique la «queue» d'une distribution.
  • Asymétrie: mesure l'asymétrie dans la distribution des données.
  • Drapeaux aberrants: met en évidence les colonnes avec des valeurs aberrantes potentielles.

RÉSUMÉ RIQUE POUR LES COLONNES DE Texte

Pour les données non nucères comme les chaînes, SKIMPY fournit des résumés détaillés que Pandas décrivent () ne peut pas correspondre:

  • Distribution de longueur de chaîne: fournit des informations sur les longueurs de chaîne minimales, maximales et moyennes.
  • Modèles et variations: identifie les modèles communs dans les données texte.
  • Valeurs et modes uniques: donne une image plus claire de la diversité du texte.

Exemple de sortie pour les colonnes de texte:

Colonne Valeurs uniques Valeur la plus fréquente Nombre de mode Longueur AVG
Nom 4 Alice 1 5.25
Ville 4 New York 1 7.50

Visuels compacts et intuitifs

Skimpy utilise des sorties codées en couleur et tabulaires plus faciles à interpréter, en particulier pour les grands ensembles de données. Ces visuels mettent en évidence:

  • Valeurs manquantes.
  • Distributions.
  • STATIQUES RÉSUMÉES, le tout en un seul coup d'œil.

Cet attrait visuel rend la présentation des résumés de Skimpy, prêt pour la présentation, ce qui est particulièrement utile pour signaler les conclusions aux parties prenantes.

Prise en charge intégrée pour les variables catégorielles

SKIMPY fournit des mesures spécifiques pour les données catégorielles que les Pandas décrivent () ne font pas, comme:

  • Distribution des catégories.
  • Fréquence et proportions pour chaque catégorie.

Cela rend le skimpy particulièrement précieux pour les ensembles de données impliquant des variables démographiques, géographiques ou catégorielles.

Utilisation de SKIMPY pour la résumé des données

Ci-dessous, nous explorons comment utiliser efficacement SKIMPY pour la résumé des données.

Étape 1: Importez le skimpy et préparez votre ensemble de données

Pour utiliser Skimpy, vous devez d'abord l'importer à côté de votre ensemble de données. SKIMPY intègre de manière transparente avec Pandas DataFrames.

Exemple d'ensemble de données:
Travaillons avec un ensemble de données simple contenant des données numériques, catégorielles et texte.

 Importer des pandas en tant que PD
De SKIMPY IMPORT SKIM

# Exemple d'ensemble de données
data = {
    "Nom": ["Alice", "Bob", "Charlie", "David"],
    "Âge": [25, 30, 35, 40],
    "City": ["New York", "Los Angeles", "Chicago", "Houston"],
    "Salaire": [70000, 80000, 120000, 90000],
    "Note": [4.5, aucun, 4.7, 4.8],
}

df = pd.dataframe (données)

Étape2: Appliquez la fonction SKIM ()

La fonction centrale de SKIMPY est SKIM (). Lorsqu'il est appliqué à un dataframe, il fournit un résumé détaillé de toutes les colonnes.

Usage:

 Skim (DF)

SKIMPY: Alternative aux pandas décrites () pour le résumé des données

Étape 3: Interpréter le résumé de Skimpy

Décomposons ce que signifie la sortie de Skimpy:

Colonne Type de données Manquant (%) Signifier Médian Min Max Unique Valeur la plus fréquente Nombre de mode
Nom Texte 0,0% - - - - 4 Alice 1
Âge Numérique 0,0% 32.5 32.5 25 40 - - -
Ville Texte 0,0% - - - - 4 New York 1
Salaire Numérique 0,0% 90000 85000 70000 120000 - - -
Notation Numérique 25,0% 4.67 4.7 4.5 4.8 - - -
  • Valeurs manquantes: la colonne «Rating» a 25% de valeurs manquantes, indiquant des problèmes potentiels de qualité des données.
  • Colonnes numériques: la moyenne et la médiane du «salaire» sont proches, indiquant une distribution à peu près symétrique, tandis que «l'âge» est réparti uniformément dans sa gamme.
  • Colonnes de texte: la colonne «City» a 4 valeurs uniques avec «New York» étant la plus fréquente.

Étape 4: Concentrez-vous sur les idées clés

SKIMPY est particulièrement utile pour identifier:

  • Problèmes de qualité des données:
    • Valeurs manquantes dans des colonnes comme «Rating».
    • Les valeurs aberrantes à travers des mesures comme Min, Max et Quartiles.
  • Modèles dans les données catégorielles:
    • Les catégories les plus fréquentes dans des colonnes comme «City».
  • Informations sur la longueur des chaînes:
    • Pour les ensembles de données riches en texte, SKIMPY fournit des longueurs de chaîne moyennes, aidant à le prétraitement des tâches comme la tokenisation.

Étape 5: Personnalisation de la sortie maigre

SKIMPY permet une certaine flexibilité pour ajuster sa sortie en fonction de vos besoins:

  • Colonnes de sous-ensemble: analyser uniquement des colonnes spécifiques en les passant sous forme de sous-ensemble de DataFrame:
 SKIM (DF [["Age", "Salaire"]])
  • Concentrez-vous sur les données manquantes: Identifiez rapidement les pourcentages de données manquantes:
 skim (df) .loc [:, ["colonne", "manquant (%)"]]

Avantages de l'utilisation

  • Résumé tout-en-un: Skimpy consolide les informations numériques et non nucères sur une seule table.
  • Économie de temps: élimine la nécessité d'écrire plusieurs lignes de code pour explorer différents types de données.
  • Amélioration de la lisibilité: des résumés propres et visuellement attrayants facilitent l'identification des tendances et des valeurs aberrantes.
  • Efficace pour les grands ensembles de données: SKIMPY est optimisé pour gérer les ensembles de données avec de nombreuses colonnes sans submerger l'utilisateur.

Conclusion

Skimpy simplifie le résumé des données en offrant des informations détaillées et lisibles par l'homme sur les ensembles de données de tous types. Contrairement aux pandas décrits (), il ne limite pas son objectif aux données numériques et offre une expérience de résumé plus enrichie. Que vous nettoyiez les données, explorez les tendances ou prépariez des rapports, les fonctionnalités de Skimpy en font un outil indispensable pour les professionnels des données.

Principaux à retenir

  • Skimpy gère les colonnes numériques et non nucères de manière transparente.
  • Il fournit des informations supplémentaires, telles que les valeurs manquantes et les comptes uniques.
  • Le format de sortie est plus intuitif et visuellement attrayant que les pandas décrivent ().

Questions fréquemment posées

Q1. Qu'est-ce que Skimpy?

A. Il s'agit d'une bibliothèque Python conçue pour une résumé complète des données, offrant des informations au-delà de Pandas décrites ().

Q2. Peut-il remplacer le skipy décrire ()?

A. Oui, il offre une fonctionnalité améliorée et peut remplacer efficacement décrire ().

Q3. Skimpy prend-il en charge les grands ensembles de données?

R. Oui, il est optimisé pour gérer efficacement les grands ensembles de données.

Q4. Comment installer SKIMPY?

A. Installez-le à l'aide de PIP: PIP Installer SKIMPY.

Q5. Qu'est-ce qui rend le skimpy meilleur que décrire ()?

A. Il résume tous les types de données, inclut les informations de valeur manquantes et présente les sorties dans un format plus convivial.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn