Comment Pandas GroupBy peut-il être utilisé pour calculer des statistiques par groupe en Python ?-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Comment Pandas GroupBy peut-il être utilisé pour calculer des statistiques par groupe en Python ?

Barbara Streisand

Dec 21, 2024 pm 09:18 PM

How Can Pandas GroupBy Be Used to Calculate Group-Wise Statistics in Python?

Calculer des statistiques par groupe avec Pandas GroupBy

Introduction

Lorsque vous travaillez avec des données, il est souvent souhaitable d'analyser et de comparer les statistiques de différents groupes. Pandas, une importante bibliothèque Python pour la manipulation de données, offre la fonctionnalité GroupBy pour effectuer ces opérations sans effort.

Obtenir le nombre de lignes par groupe

Le moyen le plus simple d'obtenir le nombre de lignes pour chaque groupe consiste à utiliser Méthode .size(). Cette méthode renvoie une série contenant des décomptes par groupe :

df.groupby(['col1','col2']).size()

Pour récupérer les décomptes au format tabulaire (c'est-à-dire sous forme de DataFrame avec une colonne "counts") :

df.groupby(['col1', 'col2']).size().reset_index(name='counts')

Calcul de plusieurs statistiques par groupe

Pour calculer plusieurs statistiques, utilisez la méthode .agg() avec un dictionnaire. Les clés spécifient les colonnes à calculer, tandis que les valeurs sont des listes des agrégations souhaitées (par exemple, « moyenne », « médiane » et « nombre ») :

df.groupby(['col1', 'col2']).agg({
    'col3': ['mean', 'count'],
    'col4': ['median', 'min', 'count']
})

Personnalisation de la sortie des données

Pour plus de contrôle sur la sortie, des agrégations individuelles peuvent être jointes :

counts = df.groupby(['col1', 'col2']).size().to_frame(name='counts')
counts.join(gb.agg({'col3': 'mean'}).rename(columns={'col3': 'col3_mean'})) \
    .join(gb.agg({'col4': 'median'}).rename(columns={'col4': 'col4_median'})) \
    .join(gb.agg({'col4': 'min'}).rename(columns={'col4': 'col4_min'})) \
    .reset_index()

Cela produit un résultat plus structuré DataFrame avec des étiquettes de colonnes non imbriquées.

Notes de bas de page

Dans l'exemple fourni, les valeurs nulles peuvent entraîner des écarts dans le nombre de lignes utilisées pour différents calculs. Cela souligne l'importance de prendre en compte les valeurs nulles lors de l'interprétation des statistiques par groupe.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comment ajoutez-vous les éléments à une liste Python?May 04, 2025 am 12:17 AM

ToAppendementStoapyThonList, usetheAppend () methodforsingleelements, prolong () forulTipleElements, andInsert () forSpecificPositifs.1) useAppend () foraddingOneelementAtheend.2) useExtend () ToaddMultipleElementSEFFIENTLY.3)

Comment créez-vous une liste Python? Donner un exemple.May 04, 2025 am 12:16 AM

TOCREATEAPYTHONLIST, USSquareBracket [] et SEPARateItemswithcommas.1) listsaredynynamicandcanholdmixeddatatypes.2) useAppend (), retire (), andslitingformMipulation.3) Listcomprehensationafficientforcereglists.4)

Discutez des cas d'utilisation du monde réel où le stockage et le traitement efficaces des données numériques sont essentiels.May 04, 2025 am 12:11 AM

Dans les domaines de la finance, de la recherche scientifique, des soins médicaux et de l'IA, il est crucial de stocker et de traiter efficacement les données numériques. 1) En finance, l'utilisation de fichiers mappés de mémoire et de bibliothèques Numpy peut considérablement améliorer la vitesse de traitement des données. 2) Dans le domaine de la recherche scientifique, les fichiers HDF5 sont optimisés pour le stockage et la récupération des données. 3) Dans les soins médicaux, les technologies d'optimisation de la base de données telles que l'indexation et le partitionnement améliorent les performances des requêtes de données. 4) Dans l'IA, la fragmentation des données et la formation distribuée accélèrent la formation du modèle. Les performances et l'évolutivité du système peuvent être considérablement améliorées en choisissant les bons outils et technologies et en pesant les compromis entre les vitesses de stockage et de traitement.

Comment créez-vous un tableau Python? Donner un exemple.May 04, 2025 am 12:10 AM

PythonarRaySaCreatEdusingtheArrayModule, notbuilt-inlikelistes.1) importtheaRaymodule.2) spécifiertheTypecode, par exemple, 'I'ForIntegers.3) initializewithvalues.

Quelles sont les alternatives à l'utilisation d'une ligne Shebang pour spécifier l'interprète Python?May 04, 2025 am 12:07 AM

En plus de la ligne Shebang, il existe de nombreuses façons de spécifier un interprète Python: 1. Utilisez les commandes Python directement à partir de la ligne de commande; 2. Utilisez des fichiers batch ou des scripts shell; 3. Utilisez des outils de construction tels que Make ou Cmake; 4. Utilisez des coureurs de tâches tels que Invoke. Chaque méthode présente ses avantages et ses inconvénients, et il est important de choisir la méthode qui répond aux besoins du projet.

Comment le choix entre les listes et les tableaux a-t-il un impact sur les performances globales d'une application Python traitant de grands ensembles de données?May 03, 2025 am 12:11 AM

ForhandlingLargedatasetSInpython, UsenumpyArraysforbetterperformance.1) NumpyArraysAremeMory-EfficientAndFasterFornumericalOperations.2) EvitUnneceSsaryTypeConversions.3) Le effet de levier

Expliquez comment la mémoire est allouée aux listes par rapport aux tableaux dans Python.May 03, 2025 am 12:10 AM

Inpython, listSusedynamicMemoryallocation withover-allocation, whileLumpyArraySallocateFixedMemory.1) listsallocatemoreMoryThreededEdededInitialement, redimensipwenessary.2) NumpyArraySallocateExactMemoryForElements, offrantwectable usinessflexibilité.