Maison  >  Article  >  développement back-end  >  Méthodes et techniques de base de filtrage des données Pandas

Méthodes et techniques de base de filtrage des données Pandas

WBOY
WBOYoriginal
2024-01-24 09:11:201410parcourir

Méthodes et techniques de base de filtrage des données Pandas

Méthodes et techniques de base pour le filtrage des données Pandas, des exemples de code spécifiques sont requis

Introduction :
Avec le développement continu de l'analyse et du traitement des données, Pandas est devenu un outil puissant pour les scientifiques et les analystes de données. Pandas est une bibliothèque d'analyse de données open source basée sur NumPy, qui fournit une structure de données flexible et efficace adaptée à la lecture, au nettoyage, à l'analyse et à la visualisation des données. Dans le processus d'analyse des données, le filtrage des données est un lien très important. Cet article présentera les méthodes et techniques de base du filtrage des données Pandas et fournira des exemples de code spécifiques pour aider les lecteurs à mieux comprendre et appliquer.

1. Examen de la structure des données Pandas
Avant de commencer le filtrage spécifique des données, passons en revue les principales structures de données de Pandas - Series et DataFrame.

1.1 Series
Series est un objet similaire à un tableau unidimensionnel, composé d'un ensemble de données et d'index. Les données peuvent être de n'importe quel type, et un index est une étiquette qui nous aide à localiser et à accéder aux données. Nous pouvons créer une série de la manière suivante :

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

1.2 DataFrame
DataFrame est la structure de données la plus couramment utilisée dans Pandas et peut être considérée comme un objet similaire à un tableau ou un tableau à deux dimensions. Il se compose d'un ensemble ordonné de colonnes, chacune pouvant être d'un type de données différent (entier, flottant, chaîne, etc.). Nous pouvons créer un DataFrame des manières suivantes :

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)

2. Méthodes et techniques de filtrage des données Pandas
Pandas fournit une multitude de méthodes et techniques de filtrage des données. Ci-dessous, nous présenterons quelques méthodes couramment utilisées.

2.1 Filtrage par conditions de base
Le filtrage par conditions spécifiées est l'un des moyens les plus courants de filtrer les données. Pandas fournit des fonctionnalités similaires au mot-clé WHERE dans SQL Nous pouvons utiliser des opérateurs de comparaison (==, !=, >, =,

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]

2.2 Filtrage multi-conditions
En plus du filtrage par une seule condition, nous pouvons également combiner plusieurs conditions pour filtrer via des opérateurs logiques (et, ou, non) et des parenthèses. Un exemple est le suivant :

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]

2.3 Filtrage de la fonction isin()
La fonction isin() est une méthode de filtrage très utile, qui peut nous aider à filtrer les données qui remplissent certaines conditions. Un exemple est le suivant :

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]

2.4 Filtrage de la fonction query()
La fonction query() est une méthode de filtrage avancée fournie par Pandas, qui peut implémenter un filtrage de données complexe dans une seule ligne de code. Un exemple est le suivant :

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')

2.5 Filtrer par nom de colonne
Parfois, nous avons uniquement besoin de filtrer les données de certaines colonnes, et nous pouvons filtrer en spécifiant les noms de colonnes. Un exemple est le suivant :

# 筛选出名字和城市两列的数据
df[['Name', 'City']]

2.6 Filtrage utilisant loc et iloc
En plus des méthodes ci-dessus, Pandas fournit également deux attributs spéciaux, loc et iloc, pour le filtrage des données. loc est utilisé pour l'indexation basée sur l'étiquette, tandis qu'iloc est utilisé pour l'indexation basée sur la position. Un exemple est le suivant :

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]

3. Résumé
Cet article présente les méthodes et techniques de base du filtrage des données Pandas et fournit des exemples de code spécifiques. En maîtrisant ces méthodes, nous pouvons filtrer et traiter les données de manière flexible pour extraire les informations dont nous avons besoin. En plus des méthodes ci-dessus, Pandas fournit également de nombreuses autres fonctions et outils puissants pour un apprentissage et une exploration plus poussés en fonction des besoins réels. J'espère que cet article sera utile aux lecteurs dans le filtrage des données et pourra mieux utiliser Pandas pour l'analyse et le traitement des données dans des applications pratiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn