Optimiser le traitement des données à grande échelle en Python : un guide pour paralléliser les opérations CSV-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Optimiser le traitement des données à grande échelle en Python : un guide pour paralléliser les opérations CSV

DDD

Dec 13, 2024 am 06:26 AM

Optimizing Large-Scale Data Processing in Python: A Guide to Parallelizing CSV Operations

Problème

Les approches standard, telles que l'utilisation de pandas.read_csv(), échouent souvent lors du traitement de fichiers CSV volumineux. Ces méthodes sont monothread et peuvent rapidement devenir des goulots d'étranglement en raison des E/S disque ou des limitations de mémoire.

Le test pratique ultime pour les programmeurs Python

Solution

En parallélisant les opérations CSV, vous pouvez utiliser plusieurs cœurs de processeur pour traiter les données plus rapidement et plus efficacement. Ce guide décrit les techniques utilisant :

Dask : calcul parallèle avec des modifications minimes du code pandas.
Polars : Une bibliothèque DataFrame haute performance.
Module multitraitement de Python : Parallélisation personnalisée.
Fractionnement de fichiers : divisez et conquérez en utilisant des morceaux plus petits.

Techniques

1. Fractionner des fichiers volumineux

Décomposer un gros fichier CSV en morceaux plus petits permet un traitement parallèle. Voici un exemple de script :

import os

def split_csv(file_path, lines_per_chunk=1000000):
    with open(file_path, 'r') as file:
        header = file.readline()
        file_count = 0
        output_file = None
        for i, line in enumerate(file):
            if i % lines_per_chunk == 0:
                if output_file:
                    output_file.close()
                file_count += 1
                output_file = open(f'chunk_{file_count}.csv', 'w')
                output_file.write(header)
            output_file.write(line)
        if output_file:
            output_file.close()
    print(f"Split into {file_count} files.")

2. Traitement parallèle avec Dask

Dask change la donne pour la gestion de données à grande échelle en Python. Il peut paralléliser les opérations sur de grands ensembles de données sans effort :

import dask.dataframe as dd

# Load the dataset as a Dask DataFrame
df = dd.read_csv('large_file.csv')

# Perform parallel operations
result = df[df['column_name'] > 100].groupby('another_column').mean()

# Save the result
result.to_csv('output_*.csv', single_file=True)

Dask gère les contraintes de mémoire en opérant sur des morceaux de données et en planifiant intelligemment les tâches sur les cœurs disponibles.

Le test pratique ultime pour les programmeurs Python

3. Superchargez-vous avec Polars

Polars est une bibliothèque relativement nouvelle qui combine la vitesse de Rust avec la flexibilité de Python. Il est conçu pour le matériel moderne et peut gérer les fichiers CSV beaucoup plus rapidement que les pandas :

import polars as pl

# Read CSV using Polars
df = pl.read_csv('large_file.csv')

# Filter and aggregate data
filtered_df = df.filter(pl.col('column_name') > 100).groupby('another_column').mean()

# Write to CSV
filtered_df.write_csv('output.csv')

Polars excelle dans les situations où la vitesse et le parallélisme sont essentiels. C'est particulièrement efficace pour les systèmes comportant plusieurs cœurs.

4. Parallélisme manuel avec multitraitement

Si vous préférez garder le contrôle sur la logique de traitement, le module multitraitement de Python offre un moyen simple de paralléliser les opérations CSV :

from multiprocessing import Pool
import pandas as pd

def process_chunk(file_path):
    df = pd.read_csv(file_path)
    # Perform operations
    filtered_df = df[df['column_name'] > 100]
    return filtered_df

if __name__ == '__main__':
    chunk_files = [f'chunk_{i}.csv' for i in range(1, 6)]
    with Pool(processes=4) as pool:
        results = pool.map(process_chunk, chunk_files)

    # Combine results
    combined_df = pd.concat(results)
    combined_df.to_csv('final_output.csv', index=False)

Considérations clés

E/S disque vs CPU lié

Assurez-vous que votre stratégie parallèle équilibre le traitement du processeur avec les vitesses de lecture/écriture du disque. Optimisez selon que votre goulot d'étranglement est lié aux E/S ou au calcul.
Surcharge de mémoire

Des outils comme Dask ou Polars sont plus efficaces en termes de mémoire que le multitraitement manuel. Choisissez des outils adaptés aux contraintes de mémoire de votre système.
Gestion des erreurs

Le traitement parallèle peut introduire de la complexité dans le débogage et la gestion des erreurs. Implémentez une journalisation robuste et une gestion des exceptions pour garantir la fiabilité.

Le test pratique ultime pour les programmeurs Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article connexe

Comment créez-vous des tableaux multidimensionnels à l'aide de Numpy?Apr 29, 2025 am 12:27 AM

Créer des tableaux multidimensionnels avec Numpy peut être réalisé via les étapes suivantes: 1) Utilisez la fonction numpy.array () pour créer un tableau, tel que np.array ([[1,2,3], [4,5,6]]) pour créer un tableau 2D; 2) utiliser np.zeros (), np.ones (), np.random.random () et d'autres fonctions pour créer un tableau rempli de valeurs spécifiques; 3) Comprendre les propriétés de forme et de taille du tableau pour vous assurer que la longueur du sous-réseau est cohérente et éviter les erreurs; 4) Utilisez la fonction NP.Reshape () pour modifier la forme du tableau; 5) Faites attention à l'utilisation de la mémoire pour vous assurer que le code est clair et efficace.

Expliquez le concept de «diffusion» dans les tableaux Numpy.Apr 29, 2025 am 12:23 AM

BroadcastingInNumpyIsAmethodToperformOperations OnerwaysofdifferentShapesByAutomAticalAligningThem.itImplienScode, améliore la réadabilité et BoostsTerformance.He'showitwork

Expliquez comment choisir entre les listes, Array.array et les tableaux Numpy pour le stockage de données.Apr 29, 2025 am 12:20 AM

Forpythondatastorage, chooseListsforflexibilitywithMixedDatatyS, array.Arrayformmemory-efficienthomogeneousnumericalData, andNumpyArraysforaSvancedNumericalComputing.ListaSaRaySatilebutless

Donnez un exemple de scénario où l'utilisation d'une liste Python serait plus appropriée que l'utilisation d'un tableau.Apr 29, 2025 am 12:17 AM

PythonlistsArebetterThanArraysformMagingDiversEDATATYPES.1) ListScan HoldingElementoSoFferentTypes, 2) Ils ont été aaredamique, permettant à la manière dont 4) ils ne sont pas entièrement efficaces et les opérations sont en train de les affirmer.

Comment accéder aux éléments dans un tableau Python?Apr 29, 2025 am 12:11 AM

ToaccesElementsInapythonArray, useIndexing: my_array [2] AccessEstheThirdElement, returning3.pythonusZero-basedIndexing.

La compréhension des tuples est-elle possible à Python? Si oui, comment et sinon pourquoi?Apr 28, 2025 pm 04:34 PM

L'article discute de l'impossibilité de la compréhension des tuples dans Python en raison de l'ambiguïté de la syntaxe. Des alternatives comme l'utilisation de Tuple () avec des expressions de générateur sont suggérées pour créer efficacement les tuples. (159 caractères)

Que sont les modules et les packages dans Python?Apr 28, 2025 pm 04:33 PM

L'article explique les modules et les packages dans Python, leurs différences et leur utilisation. Les modules sont des fichiers uniques, tandis que les packages sont des répertoires avec un fichier __init__.py, organisant des modules connexes hiérarchiquement.

Qu'est-ce que Docstring in Python?Apr 28, 2025 pm 04:30 PM

L'article traite des docstrings dans Python, de leur utilisation et des avantages. Problème principal: Importance des docstrings pour la documentation du code et l'accessibilité.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

3 Il y a quelques semainesByDDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

2 Il y a quelques semainesByDDD

Inzoi: Comment postuler à l'école et à l'université

3 Il y a quelques semainesByDDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

2 Il y a quelques semainesByDDD

Roblox: Dead Rails - Comment invoquer et vaincre Nikola Tesla

4 Il y a quelques semainesBy尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.