Maison  >  Article  >  développement back-end  >  Comment utiliser Pandas pour l'analyse de données en Python

Comment utiliser Pandas pour l'analyse de données en Python

WBOY
WBOYavant
2023-05-16 18:29:26921parcourir

Tout d’abord, assurez-vous que la bibliothèque Pandas est installée. Sinon, veuillez utiliser la commande suivante pour l'installer :

pip install pandas

1. Importez la bibliothèque Pandas

import pandas as pd

2. Lire les données

En utilisant Pandas, vous pouvez facilement lire plusieurs formats de données, notamment CSV, Excel, JSON et HTML, etc. Voici un exemple de lecture d'un fichier CSV :

data = pd.read_csv('data.csv')

La méthode de lecture d'autres formats de données est similaire, comme la lecture de fichiers Excel :

data = pd.read_excel('data.xlsx')

3. Afficher les données

Vous pouvez utiliser le head(). Fonction pour afficher les premières lignes de données (5 lignes par défaut) : head()函数查看数据的前几行(默认为5行):

print(data.head())

还可以使用tail()函数查看数据的后几行,以及info()describe()函数查看数据的统计信息:

print(data.tail())
print(data.info())
print(data.describe())

四. 选择数据

选择数据的方式有很多,以下是一些常用方法:

  • 选择某列:data['column_name']

  • 选择多列:data[['column1', 'column2']]

  • 选择某行:data.loc[row_index]

  • 选择某个值:data.loc[row_index, 'column_name']

  • 通过条件选择:data[data['column_name'] > value]

五. 数据清洗

在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:

  • 去除空值:data.dropna()

  • 替换空值:data.fillna(value)

  • 重命名列名:data.rename(columns={'old_name': 'new_name'})

  • 数据类型转换:data['column_name'].astype(new_type)

  • 去除重复值:data.drop_duplicates()

六. 数据分析

Pandas提供了丰富的数据分析功能,以下是一些常用方法:

  • 计算平均值:data['column_name'].mean()

  • 计算中位数:data['column_name'].median()

  • 计算众数:data['column_name'].mode()

  • 计算标准差:data['column_name'].std()

  • 计算相关性:data.corr()

  • 数据分组:data.groupby('column_name')

    pip install matplotlib

    Vous pouvez également utiliser la fonction tail() pour afficher également les dernières lignes de données. comme fonction info() et describe() pour afficher les informations statistiques des données :
  • import matplotlib.pyplot as plt
    
    data['column_name'].plot(kind='bar')
    plt.show()
IV Sélectionner les données

Il existe de nombreuses façons de sélectionner des données. méthodes courantes :

  • Sélectionnez une colonne : data['column_name']

  • Sélectionnez plusieurs colonnes : data[['column1', 'column2']]

  • Sélectionnez une ligne : data.loc[row_index]

  • Sélectionnez une valeur : data.loc[row_index, 'column_name']

  • Sélectionner par condition : data[data['column_name'] > value]

    5 . Nettoyage des données

    Avant l'analyse des données, les données doivent généralement être propres. Voici quelques méthodes de nettoyage de données couramment utilisées :

    • Supprimez les valeurs nulles : data.dropna()🎜🎜
    • 🎜Remplacez valeurs nulles Valeur : data.fillna(value)🎜🎜
    • 🎜Renommer le nom de la colonne : data.rename(columns={'old_name': 'new_name'}) 🎜 🎜
    • 🎜Conversion de type de données : data['column_name'].astype(new_type)🎜🎜
    • 🎜Supprimer les valeurs en double : data.drop_duplicates() 🎜 🎜🎜🎜 6. Analyse des données 🎜🎜Pandas fournit une multitude de fonctions d'analyse des données. Voici quelques méthodes courantes : 🎜
      • 🎜Calculez la moyenne : . data[ 'column_name'].mean()🎜🎜
      • 🎜Calculez la médiane : data['column_name'].median()🎜🎜
      • 🎜Calculez le mode : data['column_name'].mode()🎜🎜
      • 🎜Calculer l'écart type : data['column_name'].std()🎜🎜
      • 🎜 Calculer la corrélation : data.corr()🎜🎜
      • 🎜Regroupement de données : data.groupby('column_name')🎜🎜🎜🎜7. Pandas facilite la transformation des données en graphiques visuels. Tout d'abord, vous devez installer la bibliothèque Matplotlib :🎜
        data['column_name'].plot(kind='line')
        data['column_name'].plot(kind='pie')
        data['column_name'].plot(kind='hist')
        plt.show()
        🎜Ensuite, utilisez le code suivant pour créer un graphique :🎜
        data.to_csv('output.csv', index=False)
        🎜Les autres types de graphiques visuels incluent les graphiques linéaires, les diagrammes circulaires, les histogrammes, etc. :🎜
        data.to_excel('output.xlsx', index=False)
        🎜Exportez des données. 🎜🎜Les pandas peuvent exporter des données dans différents formats, tels que CSV, Excel, JSON, HTML, etc. Voici un exemple d'exportation de données vers un fichier CSV : 🎜
        import pandas as pd
        
        data = pd.read_csv('sales_data.csv')
        🎜La méthode d'exportation pour les autres formats de données est similaire, comme l'exportation vers un fichier Excel : 🎜
        data['sales_amount'] = data['quantity'] * data['price']
        🎜Cas pratique 🎜🎜Nous supposons que nous disposons déjà d'un fichier CSV. copie des données de vente (sales_data.csv ), l'objectif suivant est d'analyser les données. Tout d'abord, nous devons lire les données : 🎜
        max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax()
        print(f'最高销售额的产品是:{max_sales}')
        🎜 Ensuite, nous pouvons nettoyer et analyser les données. Par exemple, nous pouvons calculer les ventes de chaque produit : 🎜
        data.to_csv('sales_analysis.csv', index=False)
        🎜 Ensuite, nous pouvons analyser quel produit a les ventes les plus élevées : 🎜rrreee🎜Enfin, nous pouvons exporter les résultats sous forme de fichier CSV : 🎜rrreee

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Cet article est reproduit dans:. en cas de violation, veuillez contacter admin@php.cn Supprimer