Maison >développement back-end >Tutoriel Python >Comment puis-je filtrer un DataFrame Pandas en fonction de la correspondance de sous-chaînes ?
Filtrage de sous-chaînes Pandas DataFrame
Le filtrage d'un DataFrame pandas basé sur des correspondances de chaînes partielles est une tâche courante de manipulation de données. Pour atteindre cet objectif, les méthodes de chaînes vectorisées, introduites dans la version 0.8.1 de pandas, offrent une solution élégante.
Contrairement à l'approche traditionnelle consistant à utiliser des expressions régulières (par exemple, re.search() pour vérifier des cellules individuelles, les méthodes de chaînes vectorisées Les méthodes de chaîne permettent des opérations efficaces sur des colonnes entières. Par exemple, pour sélectionner les lignes où la colonne « A » contient la sous-chaîne « bonjour », vous pouvez utiliser ce qui suit. code:
df[df['A'].str.contains("hello")]
Cette syntaxe exploite l'attribut str de l'objet Series, qui fournit une gamme de fonctionnalités de manipulation de chaînes. La méthode contain() renvoie un masque booléen indiquant si chaque élément de la colonne « A ». contient la sous-chaîne spécifiée. Le masque résultant est ensuite utilisé pour filtrer le DataFrame, en sélectionnant uniquement les lignes qui répondent aux critères.
Cette méthode offre un moyen concis et efficace d'effectuer une correspondance de chaîne partielle dans les pandas. DataFrames, rationalisant les opérations de filtrage des données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!