Maison  >  Article  >  développement back-end  >  Comment puis-je optimiser l'itération DataFrame dans Pandas ?

Comment puis-je optimiser l'itération DataFrame dans Pandas ?

Barbara Streisand
Barbara Streisandoriginal
2024-11-13 08:44:02248parcourir

How Can I Optimize DataFrame Iteration in Pandas?

Optimisation de l'itération DataFrame dans Pandas

Itérer à travers des dataframes de manière séquentielle pour effectuer une analyse complexe est une tâche courante dans le traitement des données financières. Bien que le code fourni utilisant enumerate() avec df.values ​​fournisse une approche simple, il soulève des questions sur son efficacité.

Pour résoudre ce problème, pandas propose une solution spécialisée. La fonction iterrows() permet une itération directe sur les lignes du dataframe, renvoyant un tuple d'index et les valeurs de ligne correspondantes. Cette méthode :

for index, row in df.iterrows():
    # perform analysis based on index and row values

Pour des performances améliorées, la fonction itertuples() offre une alternative économe en mémoire à iterrows().

Alternativement, une approche très efficace consiste à exploiter directement les fonctions numpy sur les colonnes du dataframe, en évitant complètement l'itération des lignes. Les opérations numpy agissent sur des colonnes entières, permettant des calculs vectorisés plus rapides. Par exemple, pour calculer le prix d'ouverture moyen :

import numpy as np
mean_open = np.mean(df['Open'])

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn