Maison >développement back-end >Tutoriel Python >Pourquoi « s.replace » de Pandas est-il lent pour le remplacement de valeurs basé sur un dictionnaire ?

Pourquoi « s.replace » de Pandas est-il lent pour le remplacement de valeurs basé sur un dictionnaire ?

DDD
DDDoriginal
2024-11-19 21:45:03588parcourir

Why is Pandas' `s.replace` Slow for Dictionary-Based Value Replacement?

Comprendre l'écart de performances entre s.replace et d'autres méthodes de remplacement de valeurs dans Pandas

Le remplacement des valeurs dans une série Pandas à l'aide d'un dictionnaire est un tâche commune. Cependant, s.replace, la méthode recommandée pour cette opération, présente souvent des performances nettement plus lentes par rapport aux méthodes alternatives telles que la compréhension de listes.

Causes profondes de la lenteur de s.replace

s.replace effectue un traitement supplémentaire au-delà du simple mappage de dictionnaire. Il gère les cas extrêmes et les situations rares, qui nécessitent des opérations plus complexes et plus longues. Plus précisément, s.replace convertit le dictionnaire en liste, recherche les dictionnaires imbriqués et parcourt la liste pour introduire les clés et les valeurs dans une fonction de remplacement distincte. Cette surcharge ralentit considérablement le processus.

Optimisation du remplacement de la valeur

Pour optimiser le remplacement de la valeur, les directives suivantes doivent être suivies :

  • Utilisez s.map(d) lorsque toutes les valeurs de la série sont couvertes par les clés du dictionnaire. s.map affiche d'excellentes performances dans ce scénario.
  • Utilisez s.map(d).fillna(s['A']).astype(int) lorsque plus de 5 % de les valeurs des séries sont couvertes par les clés du dictionnaire. Cette méthode combine l'efficacité de s.map avec la capacité de gérer les valeurs manquantes.
  • Utilisez s.replace(d) lorsqu'un petit nombre de valeurs (moins de 5 %) doivent être remplacé. s.replace est comparativement plus rapide dans cette situation.

Analyse comparative

Les résultats de l'analyse comparative démontrent les différences de performances entre les différentes méthodes de remplacement :

TEST 1 - Complet Map

%timeit df['A'].replace(d)  # 1.98s
%timeit df['A'].map(d)      # 84.3ms
%timeit [d[i] for i in lst]  # 134ms

TEST 2 - Carte partielle

%timeit df['A'].replace(d)                  # 20.1ms
%timeit df['A'].map(d).fillna(df['A']).astype(int)  # 111ms
%timeit [d.get(i, i) for i in lst]                  # 243ms

Ces résultats indiquent clairement que s.map et sa version modifiée fonctionnent nettement plus rapidement que s .replace, surtout lorsqu'une partie substantielle des valeurs de la série est couverte par les clés du dictionnaire.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn