Maison >Périphériques technologiques >IA >SKIMPY: Alternative aux pandas décrites () pour le résumé des données
La résumé des données est une première étape essentielle de tout flux de travail d'analyse des données. Alors que la fonction décrivale de Pandas a été un outil incontournable pour beaucoup, sa fonctionnalité est limitée aux données numériques et ne fournit que des statistiques de base. Entrez SKIMPY, une bibliothèque Python conçue pour offrir des résumés de données détaillés, visuellement attrayants et complets pour tous les types de colonnes.
Dans cet article, nous explorerons pourquoi Skimpy est une alternative digne à Pandas décrite (). Vous apprendrez à installer et à utiliser SKIMPY, à explorer ses fonctionnalités et à comparer sa sortie avec décrire () à travers des exemples. À la fin, vous aurez une compréhension complète de la façon dont Skimpy améliore l'analyse des données exploratoires (EDA).
La fonction décrit () dans les pandas est largement utilisée pour résumer rapidement les données. Bien qu'il sert d'outil puissant pour l'analyse des données exploratoires (EDA), son utilité est limitée à plusieurs aspects. Voici une ventilation détaillée de ses lacunes et pourquoi les utilisateurs recherchent souvent des alternatives comme Skimpy:
Par défaut, décrire () ne fonctionne que sur les colonnes numériques, sauf si vous configurez explicitement autrement.
Exemple:
Importer des pandas en tant que PD data = { "Nom": ["Alice", "Bob", "Charlie", "David"], "Âge": [25, 30, 35, 40], "City": ["New York", "Los Angeles", "Chicago", "Houston"], "Salaire": [70000, 80000, 120000, 90000], } df = pd.dataframe (données) print (df.describe ())
Sortir:
Salaire d'âge Compte 4.000000 4.000000 Moyenne 32.500000 90000.000000 STD 6.454972 20000.000000 min 25.000000 70000.000000 25% 28.750000 77500.000000 50% 32.500000 85000.000000 75% 36.250000 97500.000000 MAX 40.000000 120000.000000
Problème clé:
Les colonnes non numériques (nom et ville) sont ignorées, sauf si vous appelez explicitement décrire (include = «all»). Même alors, la sortie reste limitée de portée pour les colonnes non numériques.
Lorsque des colonnes non numériques sont incluses en utilisant l'inclusion = «all», le résumé est minime. Il se manifeste uniquement:
Exemple:
print (df.describe (include = "all"))
Sortir:
Nom Age City Salaire Compte 4 4.0 4 4.000000 Unique 4 Nan 4 Nan Top Alice Nan New York Nan Freq 1 nan 1 nan NAN 32,5 NAN 90000.000000 STD NAN 6.5 NAN 20000.000000 Min Nan 25.0 NAN 70000.000000 25% NAN 28,8 NAN 77500.000000 50% NAN 32,5 NAN 85000.000000 75% NAN 36,2 NAN 97500.000000 MAX NAN 40.0 NAN 120000.000000
Problèmes clés:
Pandas 'Dri décrite () ne montre pas explicitement le pourcentage de données manquantes pour chaque colonne. L'identification des données manquantes nécessite des commandes distinctes:
print (df.isnull (). sum ())
Les métriques par défaut fournies par décrire () sont basiques. Pour les données numériques, cela montre:
Cependant, il manque de détails statistiques avancés tels que:
décrire () produit un résumé de texte brut, qui, bien que fonctionnel, n'est pas visuellement engageant ou facile à interpréter dans certains cas. La visualisation des tendances ou des distributions nécessite des bibliothèques supplémentaires comme Matplotlib ou Seaborn.
Exemple: un histogramme ou un boîtier à boîte représenterait mieux les distributions, mais décrire () ne fournit pas de telles capacités visuelles.
SKIMPY est une bibliothèque Python conçue pour simplifier et améliorer l'analyse exploratoire des données (EDA). Il fournit des résumés détaillés et concis de vos données, gérant efficacement les colonnes numériques et non numériques. Contrairement à Pandas '' Dri décrite (), SKIMPY comprend des mesures avancées, des informations de données manquantes et une sortie plus propre et plus intuitive. Cela en fait un excellent outil pour comprendre rapidement les ensembles de données, l'identification des problèmes de qualité des données et la préparation d'une analyse plus approfondie.
Installez maigre à l'aide de PIP:
Exécutez la commande suivante dans votre terminal ou votre invite de commande:
pip install skimpy
Vérifiez l'installation:
Après l'installation, vous pouvez vérifier que SKIMPY est installé correctement en l'important dans un script Python ou un cahier Jupyter:
De SKIMPY IMPORT SKIM Print ("SKIMPY installé avec succès!")
Explorons maintenant diverses raisons en détail sur les raisons pour lesquelles utiliser Skimpy est mieux:
Skimpy traite tous les types de données avec une importance égale, fournissant de riches résumés pour les colonnes numériques et non nucères dans un seul tableau unifié.
Exemple:
De SKIMPY IMPORT SKIM Importer des pandas en tant que PD data = { "Nom": ["Alice", "Bob", "Charlie", "David"], "Âge": [25, 30, 35, 40], "City": ["New York", "Los Angeles", "Chicago", "Houston"], "Salaire": [70000, 80000, 120000, 90000], } df = pd.dataframe (données) Skim (DF)
Sortir:
SKIMPY génère une table concise et bien structurée avec des informations telles que:
SKIMPY met automatiquement en évidence les données manquantes dans son résumé, affichant le pourcentage et le nombre de valeurs manquantes pour chaque colonne. Cela élimine le besoin de commandes supplémentaires comme df.isnull (). Sum ().
Pourquoi cela compte:
SKIMPY va au-delà des statistiques descriptives de base en incluant des mesures supplémentaires qui fournissent des informations plus profondes:
Pour les données non nucères comme les chaînes, SKIMPY fournit des résumés détaillés que Pandas décrivent () ne peut pas correspondre:
Exemple de sortie pour les colonnes de texte:
Colonne | Valeurs uniques | Valeur la plus fréquente | Nombre de mode | Longueur AVG |
---|---|---|---|---|
Nom | 4 | Alice | 1 | 5.25 |
Ville | 4 | New York | 1 | 7.50 |
Skimpy utilise des sorties codées en couleur et tabulaires plus faciles à interpréter, en particulier pour les grands ensembles de données. Ces visuels mettent en évidence:
Cet attrait visuel rend la présentation des résumés de Skimpy, prêt pour la présentation, ce qui est particulièrement utile pour signaler les conclusions aux parties prenantes.
SKIMPY fournit des mesures spécifiques pour les données catégorielles que les Pandas décrivent () ne font pas, comme:
Cela rend le skimpy particulièrement précieux pour les ensembles de données impliquant des variables démographiques, géographiques ou catégorielles.
Ci-dessous, nous explorons comment utiliser efficacement SKIMPY pour la résumé des données.
Pour utiliser Skimpy, vous devez d'abord l'importer à côté de votre ensemble de données. SKIMPY intègre de manière transparente avec Pandas DataFrames.
Exemple d'ensemble de données:
Travaillons avec un ensemble de données simple contenant des données numériques, catégorielles et texte.
Importer des pandas en tant que PD De SKIMPY IMPORT SKIM # Exemple d'ensemble de données data = { "Nom": ["Alice", "Bob", "Charlie", "David"], "Âge": [25, 30, 35, 40], "City": ["New York", "Los Angeles", "Chicago", "Houston"], "Salaire": [70000, 80000, 120000, 90000], "Note": [4.5, aucun, 4.7, 4.8], } df = pd.dataframe (données)
La fonction centrale de SKIMPY est SKIM (). Lorsqu'il est appliqué à un dataframe, il fournit un résumé détaillé de toutes les colonnes.
Usage:
Skim (DF)
Décomposons ce que signifie la sortie de Skimpy:
Colonne | Type de données | Manquant (%) | Signifier | Médian | Min | Max | Unique | Valeur la plus fréquente | Nombre de mode |
---|---|---|---|---|---|---|---|---|---|
Nom | Texte | 0,0% | - | - | - | - | 4 | Alice | 1 |
Âge | Numérique | 0,0% | 32.5 | 32.5 | 25 | 40 | - | - | - |
Ville | Texte | 0,0% | - | - | - | - | 4 | New York | 1 |
Salaire | Numérique | 0,0% | 90000 | 85000 | 70000 | 120000 | - | - | - |
Notation | Numérique | 25,0% | 4.67 | 4.7 | 4.5 | 4.8 | - | - | - |
SKIMPY est particulièrement utile pour identifier:
SKIMPY permet une certaine flexibilité pour ajuster sa sortie en fonction de vos besoins:
SKIM (DF [["Age", "Salaire"]])
skim (df) .loc [:, ["colonne", "manquant (%)"]]
Skimpy simplifie le résumé des données en offrant des informations détaillées et lisibles par l'homme sur les ensembles de données de tous types. Contrairement aux pandas décrits (), il ne limite pas son objectif aux données numériques et offre une expérience de résumé plus enrichie. Que vous nettoyiez les données, explorez les tendances ou prépariez des rapports, les fonctionnalités de Skimpy en font un outil indispensable pour les professionnels des données.
A. Il s'agit d'une bibliothèque Python conçue pour une résumé complète des données, offrant des informations au-delà de Pandas décrites ().
Q2. Peut-il remplacer le skipy décrire ()?A. Oui, il offre une fonctionnalité améliorée et peut remplacer efficacement décrire ().
Q3. Skimpy prend-il en charge les grands ensembles de données?R. Oui, il est optimisé pour gérer efficacement les grands ensembles de données.
Q4. Comment installer SKIMPY?A. Installez-le à l'aide de PIP: PIP Installer SKIMPY.
Q5. Qu'est-ce qui rend le skimpy meilleur que décrire ()?A. Il résume tous les types de données, inclut les informations de valeur manquantes et présente les sorties dans un format plus convivial.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!