Maison  >  Article  >  développement back-end  >  Devenez un maître du nettoyage des données pandas : de l'entrée à la maîtrise

Devenez un maître du nettoyage des données pandas : de l'entrée à la maîtrise

PHPz
PHPzoriginal
2024-01-24 09:29:06853parcourir

Devenez un maître du nettoyage des données pandas : de lentrée à la maîtrise

Du débutant au compétent : Maîtriser la méthode de nettoyage des données des pandas

Introduction :
Dans les domaines de la science des données et du machine learning, le nettoyage des données est une étape clé de l'analyse des données. En nettoyant les données, nous sommes en mesure de corriger les erreurs dans l'ensemble de données, de remplir les valeurs manquantes, de gérer les valeurs aberrantes et de garantir la cohérence et l'exactitude des données. Pandas est l'un des outils d'analyse de données les plus couramment utilisés en Python. Il fournit une série de fonctions et de méthodes puissantes pour rendre le processus de nettoyage des données plus concis et efficace. Cet article présentera progressivement la méthode de nettoyage des données dans les pandas et fournira des exemples de code spécifiques pour aider les lecteurs à maîtriser rapidement comment utiliser les pandas pour le nettoyage des données.

  1. Importer la bibliothèque pandas et l'ensemble de données
    Tout d'abord, nous devons importer la bibliothèque pandas et lire l'ensemble de données à nettoyer. Vous pouvez utiliser la fonction read_csv() de pandas pour lire des fichiers CSV, ou utiliser la fonction read_excel() pour lire des fichiers Excel. Voici un exemple de code pour lire un fichier CSV : read_csv()函数读取CSV文件,或者使用read_excel()函数读取Excel文件。以下是读取CSV文件的代码示例:
import pandas as pd

# 读取CSV文件
df = pd.read_csv('data.csv')
  1. 查看数据集概览
    在开始数据清洗之前,我们可以使用一些基本的命令来查看数据集的概览信息。以下是一些常用的命令:
  • df.head():查看数据集的前几行,默认为前5行。
  • df.tail():查看数据集的后几行,默认为后5行。
  • df.info():查看数据集的基本信息,包括每列的数据类型和非空值的数量。
  • df.describe():生成数据集的统计摘要,包括每列的均值、标准差、最小值、最大值等。
  • df.shape:查看数据集的形状,即行数和列数。

这些命令能帮助我们快速了解数据集的结构和内容,为后续的数据清洗做好准备。

  1. 处理缺失值
    在实际的数据集中,经常会遇到一些缺失值。处理缺失值的方法有很多种,以下是几种常见的方法:
  • 删除缺失值:使用dropna()函数删除包含缺失值的行或列。
  • 填充缺失值:使用fillna()函数填充缺失值。可以使用常数填充,如fillna(0)将缺失值填充为0;也可以使用均值或中位数填充,如fillna(df.mean())将缺失值填充为每列的均值。

以下是处理缺失值的代码示例:

# 删除包含缺失值的行
df.dropna(inplace=True)

# 将缺失值填充为0
df.fillna(0, inplace=True)
  1. 处理重复值
    除了缺失值,数据集中还可能存在重复值。处理重复值是数据清洗的重要步骤之一,可以使用drop_duplicates()函数删除重复值。该函数会保留第一个出现的值,将后续重复的值删除。

以下是处理重复值的代码示例:

# 删除重复值
df.drop_duplicates(inplace=True)
  1. 处理异常值
    在数据集中,有时候会存在一些异常值。处理异常值可以通过以下方法进行:
  • 删除异常值:使用布尔索引删除异常值。例如,可以使用df = df[df['column'] 删除某一列中大于100的异常值。
  • 替换异常值:使用replace()函数将异常值替换为合适的值。例如,可以使用df['column'].replace(100, df['column'].mean())将某一列中的值100替换为该列的均值。

以下是处理异常值的代码示例:

# 删除异常值
df = df[df['column'] < 100]

# 将异常值替换为均值
df['column'].replace(100, df['column'].mean(), inplace=True)
  1. 数据类型转换
    有时候,数据集的某些列的数据类型不正确。可以使用astype()函数将数据类型转换为正确的类型。例如,可以使用df['column'] = df['column'].astype(float)将某一列的数据类型转换为浮点型。

以下是数据类型转换的代码示例:

# 将某一列的数据类型转换为浮点型
df['column'] = df['column'].astype(float)
  1. 数据列的重命名
    当数据集中的列名不符合要求时,可以使用rename()函数对列名进行重命名。

以下是重命名数据列的代码示例:

# 对列名进行重命名
df.rename(columns={'old_name': 'new_name'}, inplace=True)
  1. 数据排序
    有时候,我们需要按照某一列的值对数据集进行排序。可以使用sort_values()
  2. # 按照某一列的值对数据集进行升序排序
    df.sort_values('column', ascending=True, inplace=True)
      Afficher la présentation de l'ensemble de données

      Avant de commencer le nettoyage des données, nous pouvons utiliser certaines commandes de base pour afficher les informations de présentation de l'ensemble de données. Voici quelques commandes couramment utilisées :


      df.head() : affichez les premières lignes de l'ensemble de données, la valeur par défaut est les 5 premières lignes. 🎜df.tail() : affichez les dernières lignes de l'ensemble de données, la valeur par défaut est les 5 dernières lignes. 🎜🎜df.info() : affichez les informations de base de l'ensemble de données, y compris le type de données de chaque colonne et le nombre de valeurs non nulles. 🎜🎜df.describe() : Générez un résumé statistique de l'ensemble de données, y compris la moyenne, l'écart type, la valeur minimale, la valeur maximale, etc. de chaque colonne. 🎜🎜df.shape : affichez la forme de l'ensemble de données, c'est-à-dire le nombre de lignes et de colonnes. 🎜
    🎜Ces commandes peuvent nous aider à comprendre rapidement la structure et le contenu de l'ensemble de données et à préparer le nettoyage ultérieur des données. 🎜
      🎜Gestion des valeurs manquantes🎜Dans les ensembles de données réels, nous rencontrons souvent des valeurs manquantes. Il existe de nombreuses façons de gérer les valeurs manquantes, voici quelques méthodes courantes : 🎜🎜
      🎜Supprimer les valeurs manquantes : utilisez la fonction dropna() pour supprimer les lignes ou les colonnes qui contiennent des valeurs manquantes. 🎜🎜Remplir les valeurs manquantes : utilisez la fonction fillna() pour remplir les valeurs manquantes. Vous pouvez utiliser un remplissage constant, tel que fillna(0) pour remplir les valeurs manquantes avec 0, vous pouvez également utiliser un remplissage moyen ou médian, tel que fillna(df.mean()) ; Remplissez les valeurs manquantes avec la moyenne de chaque colonne. 🎜
    🎜Ce qui suit est un exemple de code pour gérer les valeurs manquantes : 🎜rrreee
      🎜Gestion des valeurs en double🎜En plus des valeurs manquantes, il peut également y avoir des valeurs en double dans l'ensemble de données . La gestion des valeurs en double est l'une des étapes importantes du nettoyage des données. Vous pouvez utiliser la fonction drop_duplicates() pour supprimer les valeurs en double. Cette fonction conservera la première occurrence de la valeur et supprimera les valeurs en double suivantes. 🎜🎜🎜Voici un exemple de code pour gérer les valeurs en double : 🎜rrreee
        🎜Gestion des valeurs aberrantes🎜Dans un ensemble de données, il y aura parfois des valeurs aberrantes. La gestion des valeurs aberrantes peut être effectuée en : 🎜🎜
      🎜Supprimer les valeurs aberrantes : utilisez l'indexation booléenne pour supprimer les valeurs aberrantes. Par exemple, vous pouvez utiliser df = df[df['column'] pour supprimer les valeurs aberrantes supérieures à 100 dans une colonne. 🎜🎜Remplacer les valeurs aberrantes : utilisez la fonction <code>replace() pour remplacer les valeurs aberrantes par des valeurs appropriées. Par exemple, vous pouvez utiliser df['column'].replace(100, df['column'].mean()) pour remplacer la valeur 100 dans une colonne par la moyenne de cette colonne. 🎜
    🎜Voici un exemple de code pour gérer les valeurs aberrantes : 🎜rrreee
      🎜Conversion de type de données🎜Parfois, certaines colonnes d'un ensemble de données ont des types de données incorrects. Le type de données peut être converti en type correct à l'aide de la fonction astype(). Par exemple, vous pouvez utiliser df['column'] = df['column'].astype(float) pour convertir le type de données d'une colonne en type à virgule flottante. 🎜🎜🎜Ce qui suit est un exemple de code pour la conversion de type de données : 🎜rrreee
        🎜Renommage des colonnes de données🎜Lorsque les noms de colonnes dans l'ensemble de données ne répondent pas aux exigences, vous pouvez utiliser rename() La fonction code> renomme les noms de colonnes. 🎜🎜🎜Ce qui suit est un exemple de code pour renommer des colonnes de données : 🎜rrreee<ol start="8">🎜Tri des données🎜Parfois, nous devons trier l'ensemble de données en fonction de la valeur d'une certaine colonne. Vous pouvez trier un ensemble de données à l'aide de la fonction <code>sort_values(). 🎜🎜🎜Ce qui suit est un exemple de code pour le tri des données : 🎜rrreee🎜Conclusion : 🎜Cet article présente quelques méthodes courantes de nettoyage des données chez les pandas et fournit des exemples de code spécifiques. En maîtrisant ces méthodes, les lecteurs peuvent mieux gérer les valeurs manquantes, les valeurs en double et les valeurs aberrantes dans l'ensemble de données, et effectuer la conversion des types de données, le renommage des colonnes et le tri des données. Grâce à ces exemples de code, vous pouvez maîtriser la méthode de nettoyage des données Pandas de l'entrée à la maîtrise et l'appliquer dans des projets d'analyse de données réels. J'espère que cet article pourra aider les lecteurs à mieux comprendre et utiliser la bibliothèque pandas pour le nettoyage des données. 🎜

    Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

    Déclaration:
    Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn