Maison >développement back-end >Tutoriel Python >Devenez un maître du nettoyage des données pandas : de l'entrée à la maîtrise
Du débutant au compétent : Maîtriser la méthode de nettoyage des données des pandas
Introduction :
Dans les domaines de la science des données et du machine learning, le nettoyage des données est une étape clé de l'analyse des données. En nettoyant les données, nous sommes en mesure de corriger les erreurs dans l'ensemble de données, de remplir les valeurs manquantes, de gérer les valeurs aberrantes et de garantir la cohérence et l'exactitude des données. Pandas est l'un des outils d'analyse de données les plus couramment utilisés en Python. Il fournit une série de fonctions et de méthodes puissantes pour rendre le processus de nettoyage des données plus concis et efficace. Cet article présentera progressivement la méthode de nettoyage des données dans les pandas et fournira des exemples de code spécifiques pour aider les lecteurs à maîtriser rapidement comment utiliser les pandas pour le nettoyage des données.
read_csv()
de pandas pour lire des fichiers CSV, ou utiliser la fonction read_excel()
pour lire des fichiers Excel. Voici un exemple de code pour lire un fichier CSV : read_csv()
函数读取CSV文件,或者使用read_excel()
函数读取Excel文件。以下是读取CSV文件的代码示例:import pandas as pd # 读取CSV文件 df = pd.read_csv('data.csv')
df.head()
:查看数据集的前几行,默认为前5行。df.tail()
:查看数据集的后几行,默认为后5行。df.info()
:查看数据集的基本信息,包括每列的数据类型和非空值的数量。df.describe()
:生成数据集的统计摘要,包括每列的均值、标准差、最小值、最大值等。df.shape
:查看数据集的形状,即行数和列数。这些命令能帮助我们快速了解数据集的结构和内容,为后续的数据清洗做好准备。
dropna()
函数删除包含缺失值的行或列。fillna()
函数填充缺失值。可以使用常数填充,如fillna(0)
将缺失值填充为0;也可以使用均值或中位数填充,如fillna(df.mean())
将缺失值填充为每列的均值。以下是处理缺失值的代码示例:
# 删除包含缺失值的行 df.dropna(inplace=True) # 将缺失值填充为0 df.fillna(0, inplace=True)
drop_duplicates()
函数删除重复值。该函数会保留第一个出现的值,将后续重复的值删除。以下是处理重复值的代码示例:
# 删除重复值 df.drop_duplicates(inplace=True)
df = df[df['column'] 删除某一列中大于100的异常值。
replace()
函数将异常值替换为合适的值。例如,可以使用df['column'].replace(100, df['column'].mean())
将某一列中的值100替换为该列的均值。以下是处理异常值的代码示例:
# 删除异常值 df = df[df['column'] < 100] # 将异常值替换为均值 df['column'].replace(100, df['column'].mean(), inplace=True)
astype()
函数将数据类型转换为正确的类型。例如,可以使用df['column'] = df['column'].astype(float)
将某一列的数据类型转换为浮点型。以下是数据类型转换的代码示例:
# 将某一列的数据类型转换为浮点型 df['column'] = df['column'].astype(float)
rename()
函数对列名进行重命名。以下是重命名数据列的代码示例:
# 对列名进行重命名 df.rename(columns={'old_name': 'new_name'}, inplace=True)
sort_values()
# 按照某一列的值对数据集进行升序排序 df.sort_values('column', ascending=True, inplace=True)
Avant de commencer le nettoyage des données, nous pouvons utiliser certaines commandes de base pour afficher les informations de présentation de l'ensemble de données. Voici quelques commandes couramment utilisées :
df.head()
: affichez les premières lignes de l'ensemble de données, la valeur par défaut est les 5 premières lignes. 🎜df.tail()
: affichez les dernières lignes de l'ensemble de données, la valeur par défaut est les 5 dernières lignes. 🎜🎜df.info()
: affichez les informations de base de l'ensemble de données, y compris le type de données de chaque colonne et le nombre de valeurs non nulles. 🎜🎜df.describe()
: Générez un résumé statistique de l'ensemble de données, y compris la moyenne, l'écart type, la valeur minimale, la valeur maximale, etc. de chaque colonne. 🎜🎜df.shape
: affichez la forme de l'ensemble de données, c'est-à-dire le nombre de lignes et de colonnes. 🎜dropna()
pour supprimer les lignes ou les colonnes qui contiennent des valeurs manquantes. 🎜🎜Remplir les valeurs manquantes : utilisez la fonction fillna()
pour remplir les valeurs manquantes. Vous pouvez utiliser un remplissage constant, tel que fillna(0)
pour remplir les valeurs manquantes avec 0, vous pouvez également utiliser un remplissage moyen ou médian, tel que fillna(df.mean()) ;
Remplissez les valeurs manquantes avec la moyenne de chaque colonne. 🎜drop_duplicates()
pour supprimer les valeurs en double. Cette fonction conservera la première occurrence de la valeur et supprimera les valeurs en double suivantes. 🎜🎜🎜Voici un exemple de code pour gérer les valeurs en double : 🎜rrreeedf = df[df['column'] pour supprimer les valeurs aberrantes supérieures à 100 dans une colonne. 🎜🎜Remplacer les valeurs aberrantes : utilisez la fonction <code>replace()
pour remplacer les valeurs aberrantes par des valeurs appropriées. Par exemple, vous pouvez utiliser df['column'].replace(100, df['column'].mean())
pour remplacer la valeur 100 dans une colonne par la moyenne de cette colonne. 🎜
astype()
. Par exemple, vous pouvez utiliser df['column'] = df['column'].astype(float)
pour convertir le type de données d'une colonne en type à virgule flottante. 🎜🎜🎜Ce qui suit est un exemple de code pour la conversion de type de données : 🎜rrreee rename() La fonction code> renomme les noms de colonnes. 🎜🎜🎜Ce qui suit est un exemple de code pour renommer des colonnes de données : 🎜rrreee<ol start="8">🎜Tri des données🎜Parfois, nous devons trier l'ensemble de données en fonction de la valeur d'une certaine colonne. Vous pouvez trier un ensemble de données à l'aide de la fonction <code>sort_values()
. 🎜🎜🎜Ce qui suit est un exemple de code pour le tri des données : 🎜rrreee🎜Conclusion : 🎜Cet article présente quelques méthodes courantes de nettoyage des données chez les pandas et fournit des exemples de code spécifiques. En maîtrisant ces méthodes, les lecteurs peuvent mieux gérer les valeurs manquantes, les valeurs en double et les valeurs aberrantes dans l'ensemble de données, et effectuer la conversion des types de données, le renommage des colonnes et le tri des données. Grâce à ces exemples de code, vous pouvez maîtriser la méthode de nettoyage des données Pandas de l'entrée à la maîtrise et l'appliquer dans des projets d'analyse de données réels. J'espère que cet article pourra aider les lecteurs à mieux comprendre et utiliser la bibliothèque pandas pour le nettoyage des données. 🎜Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!