Maison >développement back-end >Tutoriel Python >Comment puis-je faire pivoter efficacement les DataFrames dans Pandas ?

Comment puis-je faire pivoter efficacement les DataFrames dans Pandas ?

DDD
DDDoriginal
2024-12-25 13:29:42775parcourir

How Can I Efficiently Pivot DataFrames in Pandas?

Pivoter un DataFrame

Introduction

Le pivotement, également connu sous le nom de transposition, est une opération courante dans la transformation de données où les lignes et les colonnes sont permutées. Cela peut être utile pour des tâches telles que la refonte des données dans un format plus approprié ou la création de rapports résumant les données sur plusieurs dimensions. En Python, pandas propose plusieurs méthodes pour faire pivoter un DataFrame, chacune avec ses propres forces et limites.

Pivot de base

Pour le pivotement de base, vous pouvez utiliser les méthodes suivantes :

pandas.pivot_table : Cette méthode fournit une interface flexible pour faire pivoter les données en spécifiant les colonnes à utiliser comme lignes, colonnes et valeurs. Prend en charge diverses fonctions d'agrégation comme la moyenne, la somme, le nombre, etc.

pandas.DataFrame.groupby pandas.unstack : Regroupez les données par les colonnes souhaitées à l'aide de groupby, puis dépilez le MultiIndex résultant à l'aide dépiler pour créer le DataFrame pivoté.

Avancé Pivotement

Pour des opérations de pivotement plus complexes, vous pouvez utiliser les méthodes suivantes :

pandas.DataFrame.set_index pandas.unstack :Semblable à groupby mais plus efficace si vous êtes pivotant sur un ensemble unique de lignes et columns.

pandas.DataFrame.pivot : Une version plus concise de pivot_table mais avec des fonctionnalités limitées.

Autres méthodes

pandas. crosstab : Utile pour créer un tableau de contingence (tabulation croisée), un type de pivot qui agrège les données sur deux variables catégorielles.

pandas.factorize numpy.bincount : Une technique plus avancée qui peut être plus rapide pour certaines opérations. Utilise la factorisation pour convertir les valeurs catégorielles en entiers uniques, puis utilise bincount pour compter les occurrences.

pandas.get_dummies pandas.DataFrame.dot : Une manière créative d'effectuer des tableaux croisés à l'aide de variables factices .

Exemples

Voici quelques exemples d'utilisation de ceux-ci méthodes :

# Import pandas
import pandas as pd

# Create a sample DataFrame
df = pd.DataFrame({
    "key": ["a", "b", "c", "a", "b"],
    "row": [1, 2, 3, 4, 5],
    "col": ["col1", "col2", "col3", "col1", "col2"],
    "val": [10, 20, 30, 40, 50]
})

# Pivot using pivot_table
pivoted_df = pd.pivot_table(
    df, index="row", columns="col", values="val", aggfunc='mean', fill_value=0
)

# Pivot using groupby and unstack
pivoted_df = df.groupby(['row', 'col'])['val'].mean().unstack(fill_value=0)

aplatissement

Pour aplatir le multi-index du DataFrame pivoté, vous pouvez utiliser différentes approches selon les types de colonnes :

Si les colonnes sont des chaînes :

pivoted_df.columns = pivoted_df.columns.map('|'.join)

Si les colonnes sont tuples :

pivoted_df.columns = pivoted_df.columns.map('{0[0]}|{0[1]}'.format)

Notes supplémentaires

  • Lors de la sélection des colonnes à faire pivoter, assurez-vous qu'elles sont catégoriques ou qu'elles ont un nombre limité de valeurs uniques pour éviter de créer un DataFrame large avec de nombreuses colonnes.
  • Faites attention aux valeurs de remplissage lorsque vous utilisez des fonctions d'agrégation pour gérer les valeurs manquantes. data.
  • Envisagez d'utiliser des techniques d'amélioration des performances telles que set_index et factorisez pour les grands ensembles de données.
  • Explorez d'autres options comme pandas.wide_to_long si vous devez transposer des données d'un format large à un format long.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn