recherche
Maisondéveloppement back-endTutoriel PythonPourquoi la concaténation de nombreux DataFrames Pandas est-elle exponentiellement lente et comment puis-je l'éviter ?

Why is Concatenating Many Pandas DataFrames Exponentially Slow, and How Can I Avoid It?

Concaténation exponentiellement lente des DataFrames

Lorsque vous travaillez avec de grands ensembles de données, il est courant de partitionner les données en morceaux plus petits pour un traitement efficace. Cependant, la concaténation de ces morceaux peut devenir exponentiellement plus lente à mesure que le nombre de morceaux augmente.

Cause du ralentissement

Le ralentissement est attribué à la façon dont pd.concat() est mise en œuvre. Lorsqu'il est appelé dans une boucle, il crée un nouveau DataFrame pour chaque concaténation, ce qui entraîne une copie substantielle des données. Ce coût de copie augmente quadratiquement avec le nombre d'itérations, conduisant à l'augmentation exponentielle observée du temps de traitement.

Éviter le ralentissement

Pour contourner ce goulot d'étranglement des performances, il est crucial pour éviter d'appeler pd.concat() dans une boucle for. Au lieu de cela, stockez les morceaux dans une liste et concaténez-les tous en même temps après le traitement :

super_x = []
for i, df_chunk in enumerate(df_list):
    [x, y] = preprocess_data(df_chunk)
    super_x.append(x)
super_x = pd.concat(super_x, axis=0)

Grâce à cette approche, la copie n'a lieu qu'une seule fois, ce qui réduit considérablement le temps de traitement global.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
La compréhension des tuples est-elle possible à Python? Si oui, comment et sinon pourquoi?La compréhension des tuples est-elle possible à Python? Si oui, comment et sinon pourquoi?Apr 28, 2025 pm 04:34 PM

L'article discute de l'impossibilité de la compréhension des tuples dans Python en raison de l'ambiguïté de la syntaxe. Des alternatives comme l'utilisation de Tuple () avec des expressions de générateur sont suggérées pour créer efficacement les tuples. (159 caractères)

Que sont les modules et les packages dans Python?Que sont les modules et les packages dans Python?Apr 28, 2025 pm 04:33 PM

L'article explique les modules et les packages dans Python, leurs différences et leur utilisation. Les modules sont des fichiers uniques, tandis que les packages sont des répertoires avec un fichier __init__.py, organisant des modules connexes hiérarchiquement.

Qu'est-ce que Docstring in Python?Qu'est-ce que Docstring in Python?Apr 28, 2025 pm 04:30 PM

L'article traite des docstrings dans Python, de leur utilisation et des avantages. Problème principal: Importance des docstrings pour la documentation du code et l'accessibilité.

Qu'est-ce qu'une fonction lambda?Qu'est-ce qu'une fonction lambda?Apr 28, 2025 pm 04:28 PM

L'article traite des fonctions de lambda, de leurs différences par rapport aux fonctions régulières et de leur utilité dans les scénarios de programmation. Toutes les langues ne les soutiennent pas.

Qu'est-ce qu'une pause, continue et passer à Python?Qu'est-ce qu'une pause, continue et passer à Python?Apr 28, 2025 pm 04:26 PM

L'article discute de Break, Continuation et passe dans Python, expliquant leurs rôles dans le contrôle de l'exécution de la boucle et du flux de programme.

Qu'est-ce qu'une passe à Python?Qu'est-ce qu'une passe à Python?Apr 28, 2025 pm 04:25 PM

L'article traite de l'instruction «Pass» dans Python, une opération nul utilisée comme espace réservée dans des structures de code comme les fonctions et les classes, permettant une implémentation future sans erreurs de syntaxe.

Pouvons-nous passer une fonction comme un argument dans Python?Pouvons-nous passer une fonction comme un argument dans Python?Apr 28, 2025 pm 04:23 PM

L'article traite des fonctions de passage comme des arguments dans Python, mettant en évidence des avantages tels que la modularité et les cas d'utilisation tels que le tri et les décorateurs.

Quelle est la différence entre / et // dans Python?Quelle est la différence entre / et // dans Python?Apr 28, 2025 pm 04:21 PM

L'article discute / et // des opérateurs en python: / pour la vraie division, // pour la division de plancher. Le principal problème est de comprendre leurs différences et leurs cas d'utilisation. Compte de caractéristiques: 158

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Version crackée d'EditPlus en chinois

Version crackée d'EditPlus en chinois

Petite taille, coloration syntaxique, ne prend pas en charge la fonction d'invite de code

SublimeText3 version anglaise

SublimeText3 version anglaise

Recommandé : version Win, prend en charge les invites de code !

Dreamweaver Mac

Dreamweaver Mac

Outils de développement Web visuel

Version Mac de WebStorm

Version Mac de WebStorm

Outils de développement JavaScript utiles

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.