Maison >développement back-end >Tutoriel Python >Comment utiliser Pandas pour l'analyse de données en Python
Tout d’abord, assurez-vous que la bibliothèque Pandas est installée. Sinon, veuillez utiliser la commande suivante pour l'installer :
pip install pandas
import pandas as pd
En utilisant Pandas, vous pouvez facilement lire plusieurs formats de données, notamment CSV, Excel, JSON et HTML, etc. Voici un exemple de lecture d'un fichier CSV :
data = pd.read_csv('data.csv')
La méthode de lecture d'autres formats de données est similaire, comme la lecture de fichiers Excel :
data = pd.read_excel('data.xlsx')
Vous pouvez utiliser le head(). Fonction
pour afficher les premières lignes de données (5 lignes par défaut) : head()
函数查看数据的前几行(默认为5行):
print(data.head())
还可以使用tail()
函数查看数据的后几行,以及info()
和describe()
函数查看数据的统计信息:
print(data.tail()) print(data.info()) print(data.describe())
选择数据的方式有很多,以下是一些常用方法:
选择某列:data['column_name']
选择多列:data[['column1', 'column2']]
选择某行:data.loc[row_index]
选择某个值:data.loc[row_index, 'column_name']
通过条件选择:data[data['column_name'] > value]
在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:
去除空值:data.dropna()
替换空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
数据类型转换:data['column_name'].astype(new_type)
去除重复值:data.drop_duplicates()
Pandas提供了丰富的数据分析功能,以下是一些常用方法:
计算平均值:data['column_name'].mean()
计算中位数:data['column_name'].median()
计算众数:data['column_name'].mode()
计算标准差:data['column_name'].std()
计算相关性:data.corr()
数据分组:data.groupby('column_name')
pip install matplotlibVous pouvez également utiliser la fonction
tail()
pour afficher également les dernières lignes de données. comme fonction info()
et describe()
pour afficher les informations statistiques des données : import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()IV Sélectionner les données Il existe de nombreuses façons de sélectionner des données. méthodes courantes :
data['column_name']
Sélectionnez plusieurs colonnes : data[['column1', 'column2']]
data.loc[row_index]
Sélectionnez une valeur : data.loc[row_index, 'column_name']
data[data['column_name'] > value]
5 . Nettoyage des donnéesAvant l'analyse des données, les données doivent généralement être propres. Voici quelques méthodes de nettoyage de données couramment utilisées :
data.dropna()
🎜🎜data.fillna(value)
🎜🎜data.rename(columns={'old_name': 'new_name'})
🎜 🎜data['column_name'].astype(new_type)
🎜🎜data.drop_duplicates()
🎜 🎜🎜🎜 6. Analyse des données 🎜🎜Pandas fournit une multitude de fonctions d'analyse des données. Voici quelques méthodes courantes : 🎜. data[ 'column_name'].mean()
🎜🎜data['column_name'].median()
🎜🎜data['column_name'].mode()
🎜🎜data['column_name'].std()
🎜🎜data.corr()
🎜🎜data.groupby('column_name')
🎜🎜🎜🎜7. Pandas facilite la transformation des données en graphiques visuels. Tout d'abord, vous devez installer la bibliothèque Matplotlib :🎜data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()🎜Ensuite, utilisez le code suivant pour créer un graphique :🎜
data.to_csv('output.csv', index=False)🎜Les autres types de graphiques visuels incluent les graphiques linéaires, les diagrammes circulaires, les histogrammes, etc. :🎜
data.to_excel('output.xlsx', index=False)🎜Exportez des données. 🎜🎜Les pandas peuvent exporter des données dans différents formats, tels que CSV, Excel, JSON, HTML, etc. Voici un exemple d'exportation de données vers un fichier CSV : 🎜
import pandas as pd data = pd.read_csv('sales_data.csv')🎜La méthode d'exportation pour les autres formats de données est similaire, comme l'exportation vers un fichier Excel : 🎜
data['sales_amount'] = data['quantity'] * data['price']🎜Cas pratique 🎜🎜Nous supposons que nous disposons déjà d'un fichier CSV. copie des données de vente (sales_data.csv ), l'objectif suivant est d'analyser les données. Tout d'abord, nous devons lire les données : 🎜
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')🎜 Ensuite, nous pouvons nettoyer et analyser les données. Par exemple, nous pouvons calculer les ventes de chaque produit : 🎜
data.to_csv('sales_analysis.csv', index=False)🎜 Ensuite, nous pouvons analyser quel produit a les ventes les plus élevées : 🎜rrreee🎜Enfin, nous pouvons exporter les résultats sous forme de fichier CSV : 🎜rrreee
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!