Maison >développement back-end >Tutoriel Python >Les pandas peuvent-ils gérer efficacement les séparateurs non uniformes dans une entrée CSV ?
Gestion des séparateurs non réguliers dans Pandas read_csv
Lors de la lecture des données d'un fichier à l'aide de la méthode read_csv dans Pandas, vous pouvez rencontrer différents séparateurs dans vos colonnes. Certains champs peuvent être séparés par des tabulations, tandis que d'autres ont une séparation des espaces incohérente (par exemple, 2-3 espaces, ou des espaces et des tabulations mixtes).
Les pandas peuvent-ils naviguer efficacement dans cette irrégularité ?
Contrairement à Python line.split(), read_csv() des pandas peut avoir du mal à s'adapter à de tels séparateurs non uniformes. Cependant, il existe des solutions pour résoudre ce problème :
Utilisation des délimiteurs Regex :
Le paramètre délimiteur dans read_csv() peut accepter une expression régulière. En utilisant "s", vous pouvez demander aux pandas de traiter n'importe quel caractère d'espacement (y compris les espaces et les tabulations) comme délimiteur :
<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
Utilisation delim_whitespace :
Pour les cas où les séparateurs sont strictement des espaces (espaces ou tabulations), vous pouvez simplifier votre code en utilisant le paramètre delim_whitespace :
<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!