Heim > Artikel > Backend-Entwicklung > So verwenden Sie Pandas für die Datenanalyse in Python
Stellen Sie zunächst sicher, dass Sie die Pandas-Bibliothek installiert haben. Wenn nicht, verwenden Sie bitte den folgenden Befehl, um es zu installieren:
pip install pandas
import pandas as pd
Mit Pandas kann bequem sein. Lesen Sie problemlos mehrere Datenformate, einschließlich CSV, Excel, JSON und HTML. Das Folgende ist ein Beispiel für das Lesen einer CSV-Datei:
data = pd.read_csv('data.csv')
Die Lesemethode anderer Datenformate ist ähnlich, z. B. beim Lesen von Excel-Dateien:
data = pd.read_excel('data.xlsx')
head()
verwenden, um die ersten Datenzeilen anzuzeigen (Standard sind 5 Zeilen): print(data.head())
head()
函数查看数据的前几行(默认为5行):print(data.tail()) print(data.info()) print(data.describe())
还可以使用tail()
函数查看数据的后几行,以及info()
和describe()
函数查看数据的统计信息:
pip install matplotlib
选择数据的方式有很多,以下是一些常用方法:
选择某列:data['column_name']
选择多列:data[['column1', 'column2']]
选择某行:data.loc[row_index]
选择某个值:data.loc[row_index, 'column_name']
通过条件选择:data[data['column_name'] > value]
在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:
去除空值:data.dropna()
替换空值:data.fillna(value)
重命名列名:data.rename(columns={'old_name': 'new_name'})
数据类型转换:data['column_name'].astype(new_type)
去除重复值:data.drop_duplicates()
Pandas提供了丰富的数据分析功能,以下是一些常用方法:
计算平均值:data['column_name'].mean()
计算中位数:data['column_name'].median()
计算众数:data['column_name'].mode()
计算标准差:data['column_name'].std()
计算相关性:data.corr()
数据分组:data.groupby('column_name')
Sie können auch verwenden tail() Die Funktion code> prüft die letzten Zeilen der Daten, und die Funktionen <code>info()
und describe()
prüfen die statistischen Informationen von die Daten:
import matplotlib.pyplot as plt data['column_name'].plot(kind='bar') plt.show()
Wählen Sie eine Spalte aus: data['column_name']
data[['column1', 'column2']]
data.loc[row_index]
# 🎜🎜#Wählen Sie eine Zeile aus. Werte: data.loc[row_index, 'column_name']
data['column_name'] > value]
5 🎜#Vor der Datenanalyse müssen die Daten normalerweise bereinigt werden. Im Folgenden sind einige häufig verwendete Datenbereinigungsmethoden aufgeführt:
Nullwerte entfernen: data.dropna()
# 🎜 🎜#
Leeren Wert ersetzen: data.fillna(value)
data.rename(columns={'old_name': 'new_name'})
#🎜🎜##🎜🎜#data['column_name' ].astype(new_type)
#🎜🎜##🎜🎜#data.drop_duplicates()
#🎜🎜##🎜🎜## 🎜🎜##🎜🎜#6. Datenanalyse#🎜🎜##🎜🎜#Pandas bietet umfangreiche Datenanalysefunktionen: #🎜🎜#data['column_name'].mean()
#🎜🎜##🎜🎜#data ['column_name'].median()
#🎜🎜##🎜🎜#data['column_name'].mode()
# 🎜🎜##🎜🎜#data['column_name'].std()
#🎜🎜##🎜🎜#data.corr()
#🎜🎜##🎜🎜#data.groupby('column_name')
#🎜 🎜##🎜🎜##🎜🎜##🎜🎜#7. Datenvisualisierung#🎜🎜##🎜🎜#Pandas können Daten problemlos in visuelle Diagramme umwandeln. Zuerst müssen Sie die Matplotlib-Bibliothek installieren: #🎜🎜#data['column_name'].plot(kind='line') data['column_name'].plot(kind='pie') data['column_name'].plot(kind='hist') plt.show()#🎜🎜#Dann verwenden Sie den folgenden Code, um ein Diagramm zu erstellen: #🎜🎜#
data.to_csv('output.csv', index=False)#🎜🎜#Andere Visualisierungsdiagrammtypen umfassen Liniendiagramme, Kreisdiagramme, Histogramme usw.: #🎜 🎜#
data.to_excel('output.xlsx', index=False)#🎜🎜#8. Daten exportieren#🎜🎜##🎜🎜#Pandas kann Daten in verschiedene Formate exportieren, wie CSV, Excel, JSON, HTML usw. Das Folgende ist ein Beispiel für den Export von Daten in eine CSV-Datei: #🎜🎜#
import pandas as pd data = pd.read_csv('sales_data.csv')#🎜🎜#Die Exportmethode für andere Datenformate ist ähnlich, beispielsweise für den Export in eine Excel-Datei: #🎜🎜#
data['sales_amount'] = data['quantity'] * data['price']#🎜🎜#9 . Praktischer Fall#🎜🎜 ##🎜🎜#Wir gehen davon aus, dass wir bereits über eine Kopie der Verkaufsdaten (sales_data.csv) verfügen und das nächste Ziel darin besteht, die Daten zu analysieren. Zuerst müssen wir die Daten lesen: #🎜🎜#
max_sales = data.groupby('product_name')['sales_amount'].sum().idxmax() print(f'最高销售额的产品是:{max_sales}')#🎜🎜# Dann können wir die Daten bereinigen und analysieren. Wir können zum Beispiel den Umsatz jedes Produkts berechnen: #🎜🎜#
data.to_csv('sales_analysis.csv', index=False)#🎜🎜# Als nächstes können wir analysieren, welches Produkt den höchsten Umsatz hat: #🎜🎜#rrreee#🎜🎜#Schließlich können wir die Ergebnisse exportieren CSV-Datei: #🎜🎜#rrreee
Das obige ist der detaillierte Inhalt vonSo verwenden Sie Pandas für die Datenanalyse in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!