Maison >développement back-end >Tutoriel Python >Conseils et méthodes pour optimiser l'analyse des données des pandas

Conseils et méthodes pour optimiser l'analyse des données des pandas

PHPz
PHPzoriginal
2024-01-13 14:19:171202parcourir

Conseils et méthodes pour optimiser lanalyse des données des pandas

trucs et astuces pandas pour améliorer l'efficacité de l'analyse des données

Introduction

Dans le domaine de l'analyse de données moderne, pandas est une bibliothèque Python très largement utilisée. Il fournit des structures de données et des outils de traitement de données efficaces, flexibles et riches, rendant l'analyse des données plus simple et plus efficace. Cependant, pour réellement réaliser le potentiel des pandas, il est essentiel de connaître quelques trucs et astuces. Cet article présentera quelques techniques pandas pour améliorer l'efficacité de l'analyse des données et fournira des exemples de code spécifiques.

  1. Utiliser des opérations de vectorisation

Dans l'analyse des données, il est souvent nécessaire d'effectuer divers calculs et opérations sur les données, tels que l'addition, la soustraction, la multiplication et la division, le calcul de moyenne, les statistiques de groupe, etc. L'utilisation d'opérations de vectorisation peut augmenter considérablement la vitesse de traitement des données. De nombreuses fonctions dans les pandas prennent en charge les opérations de vectorisation, telles que l'opération d'addition add, l'opération de soustraction sub, l'opération de multiplication mul, l'opération de division div, etc. Voici un exemple simple :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df['C'] = df['A'] + df['B']  # 使用向量化的加法操作

print(df)

Sortie :

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12
  1. Utiliser des conditions pour sélectionner des données

Lors du traitement des données, il est souvent nécessaire de sélectionner les parties requises dans l'ensemble de données en fonction de certaines conditions. Cette fonction peut être facilement réalisée en utilisant la sélection conditionnelle. Pandas fournit un moyen de sélectionner des données à l'aide de conditions, en utilisant l'indexation booléenne. Voici un exemple :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

df_selected = df[df['A'] > 2]  # 选择A列中大于2的行

print(df_selected)

Sortie :

   A  B
2  3  7
3  4  8
  1. Utilisation de tableaux croisés dynamiques pour le regroupement et l'agrégation de données

Les tableaux croisés dynamiques dans les pandas sont un outil très pratique pour le regroupement et l'agrégation de données. Grâce aux tableaux croisés dynamiques, vous pouvez facilement regrouper les données en fonction de colonnes spécifiées et effectuer des statistiques globales sur d'autres colonnes. Voici un exemple :

import pandas as pd

df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
                   'B': ['one', 'one', 'two', 'two', 'two', 'one'],
                   'C': [1, 2, 3, 4, 5, 6]})

df_pivot = df.pivot_table(values='C', index='A', columns='B', aggfunc='sum')

print(df_pivot)

Sortie :

B    one  two
A            
bar    7    6
foo    6    8
  1. Utilisez la fonction d'application pour les opérations personnalisées

Parfois, vous devez effectuer des opérations personnalisées sur les données. Dans les pandas, vous pouvez utiliser la fonction apply pour atteindre cet objectif. La fonction apply peut accepter une fonction personnalisée comme paramètre et l'appliquer à chaque ligne ou colonne de l'ensemble de données. Voici un exemple :

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4], 'B': [5, 6, 7, 8]})

def custom_operation(row):
    return row['A'] + row['B']

df['C'] = df.apply(custom_operation, axis=1)

print(df)

Sortie :

   A  B   C
0  1  5   6
1  2  6   8
2  3  7  10
3  4  8  12

Conclusion

Cet article présente plusieurs trucs et astuces Pandas pour améliorer l'efficacité de l'analyse des données, notamment l'utilisation d'opérations de vectorisation, l'utilisation de conditions pour sélectionner les données et l'utilisation de tableaux croisés dynamiques pour les données. regroupement et agrégation Et utilisez la fonction apply pour les opérations personnalisées. En maîtrisant ces compétences, vous pouvez effectuer le travail d'analyse des données plus efficacement et améliorer l'efficacité du travail. Bien sûr, ce n’est qu’une partie des fonctionnalités des pandas, et de nombreuses autres fonctionnalités puissantes nous attendent. J'espère que cet article pourra inspirer les lecteurs et jouer un rôle plus important dans le travail quotidien d'analyse des données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn