Maison >développement back-end >Tutoriel Python >Comment optimiser Pandas `read_csv` avec les options `dtype` et `low_memory` ?
Lors de l'utilisation de pd.read_csv('somefile.csv'), vous pouvez rencontrer un DtypeWarning indiquant que les colonnes ont des types mixtes. La spécification de l'option dtype peut éviter cette erreur et améliorer les performances.
L'option low_memory obsolète n'affecte pas réellement le comportement. Cependant, cela est lié à l'option dtype car deviner les types de données pour chaque colonne peut être gourmand en mémoire.
Si la dernière ligne de votre fichier contient des données inattendues, la spécification de types peut entraîner l'échec du processus de chargement. Par exemple, si une colonne spécifiée comme entier contient une valeur de chaîne telle que "foobar", le chargement sera interrompu.
Pour éviter de telles erreurs, explicitement spécifiez les types lors de la lecture du fichier CSV. L'utilisation de l'option dtype attribue le type de données correct à chaque colonne, permettant une analyse efficace et réduisant la consommation de mémoire.
Pandas prend en charge divers dtypes, notamment :
Extensions Pandas :
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!