Maison >développement back-end >Tutoriel Python >Comment filtrer efficacement les DataFrames et les séries Pandas à l'aide de plusieurs critères
Lorsque vous travaillez avec des données dans Pandas, il est souvent nécessaire de filtrer en fonction de plusieurs critères. Alors que l'approche traditionnelle consiste à enchaîner plusieurs opérations reindex(), cette technique crée de nouveaux objets et copie les données, ce qui entraîne une inefficacité.
Une approche alternative consiste à utiliser l'indexation booléenne, qui est nettement plus efficace. Pandas permet une indexation booléenne, permettant un sous-ensemble direct de données basé sur des évaluations Vrai/Faux.
<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>
Cette technique évite la création de nouveaux objets et les copies inutiles, offrant un moyen plus efficace de filtrer les données.
Pour améliorer encore l'efficacité, on peut écrire des fonctions d'assistance à cet effet :
<code class="python">def b(x, col, op, n): return op(x[col],n) def f(x, *b): return x[(np.logical_and(*b))]</code>
Avec ces fonctions d'assistance, l'application de plusieurs filtres devient simple :
<code class="python">b1 = b(df, 'col1', ge, 1) b2 = b(df, 'col1', le, 1) f(df, b1, b2)</code>
Pour les versions Pandas 0.13 et supérieur, une méthode de requête dédiée offre un moyen encore plus efficace d'appliquer plusieurs filtres, en tirant parti de numexpr pour les optimisations :
<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!