Maison >développement back-end >Tutoriel Python >Comment sélectionner des lignes spécifiques dans un DataFrame Pandas en fonction des valeurs de colonne ?
Dans Pandas, filtrer un DataFrame pour sélectionner des lignes spécifiques en fonction des valeurs de colonne peut être effectué à l'aide d'une combinaison d'opérateurs de comparaison et Indexation booléenne.
Pour sélectionner les lignes auxquelles une valeur de colonne correspond une valeur scalaire spécifique, utilisez l'opérateur == :
df.loc[df['column_name'] == some_value]
Pour sélectionner les lignes où une valeur de colonne se trouve dans une liste ou une autre valeur itérable, utilisez l'opérateur isin :
df.loc[df['column_name'].isin(some_values)]
Plusieurs conditions peuvent être combinées à l'aide de l'opérateur & pour sélectionner les lignes qui satisfont toutes conditions :
df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]
Notez que les parenthèses sont nécessaires pour garantir la bonne priorité des opérateurs.
Pour sélectionner les lignes qui ne correspondent pas à une certaine valeur ou qui ne sont pas dans une liste spécifique, annulez la condition en utilisant != ou ~:
df.loc[df['column_name'] != some_value] df = df.loc[~df['column_name'].isin(some_values)] # In-place replacement requires `loc`
Pour un filtrage efficace sur les critères fréquemment utilisés, il peut être intéressant de créer un index sur la colonne. Cela permet des recherches plus rapides à l'aide de df.loc :
df = df.set_index(['B']) df.loc['one']
Considérez le DataFrame suivant :
df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'], 'C': np.arange(8), 'D': np.arange(8) * 2})
Pour sélectionner les lignes où la colonne « A » est égale à « foo' :
print(df.loc[df['A'] == 'foo'])
Pour sélectionner les lignes dans lesquelles se trouve la colonne « B » ['un', 'trois'] :
print(df.loc[df['B'].isin(['one','three'])])
Pour sélectionner les lignes où la colonne "B" est "un" ou "deux" :
df = df.set_index(['B']) print(df.loc[df.index.isin(['one','two'])])
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!