Heim  >  Artikel  >  Backend-Entwicklung  >  So verwenden Sie Pandas für die Datenanalyse in Python

So verwenden Sie Pandas für die Datenanalyse in Python

WBOY
WBOYnach vorne
2023-05-16 18:29:26970Durchsuche

Stellen Sie zunächst sicher, dass Sie die Pandas-Bibliothek installiert haben. Wenn nicht, verwenden Sie bitte den folgenden Befehl, um es zu installieren:

pip install pandas

1. Importieren Sie die Pandas-Bibliothek

import pandas as pd

2. Lesen Sie Daten

Mit Pandas kann bequem sein. Lesen Sie problemlos mehrere Datenformate, einschließlich CSV, Excel, JSON und HTML. Das Folgende ist ein Beispiel für das Lesen einer CSV-Datei:

data = pd.read_csv('data.csv')

Die Lesemethode anderer Datenformate ist ähnlich, z. B. beim Lesen von Excel-Dateien:

data = pd.read_excel('data.xlsx')

3 Daten anzeigen# 🎜🎜#

Sie können die Funktion head() verwenden, um die ersten Datenzeilen anzuzeigen (Standard sind 5 Zeilen):

print(data.head())
head()函数查看数据的前几行(默认为5行):

print(data.tail())
print(data.info())
print(data.describe())

还可以使用tail()函数查看数据的后几行,以及info()describe()函数查看数据的统计信息:

pip install matplotlib

四. 选择数据

选择数据的方式有很多,以下是一些常用方法:

  • 选择某列:data['column_name']

  • 选择多列:data[['column1', 'column2']]

  • 选择某行:data.loc[row_index]

  • 选择某个值:data.loc[row_index, 'column_name']

  • 通过条件选择:data[data['column_name'] > value]

五. 数据清洗

在数据分析之前,通常需要对数据进行清洗。以下是一些常用的数据清洗方法:

  • 去除空值:data.dropna()

  • 替换空值:data.fillna(value)

  • 重命名列名:data.rename(columns={'old_name': 'new_name'})

  • 数据类型转换:data['column_name'].astype(new_type)

  • 去除重复值:data.drop_duplicates()

六. 数据分析

Pandas提供了丰富的数据分析功能,以下是一些常用方法:

  • 计算平均值:data['column_name'].mean()

  • 计算中位数:data['column_name'].median()

  • 计算众数:data['column_name'].mode()

  • 计算标准差:data['column_name'].std()

  • 计算相关性:data.corr()

  • 数据分组:data.groupby('column_name')Sie können auch verwenden tail() Die Funktion code> prüft die letzten Zeilen der Daten, und die Funktionen <code>info() und describe() prüfen die statistischen Informationen von die Daten:

    import matplotlib.pyplot as plt
    
    data[&#39;column_name&#39;].plot(kind=&#39;bar&#39;)
    plt.show()
  • IV Daten auswählen

Es gibt viele Möglichkeiten, Daten auszuwählen. Im Folgenden sind einige gängige Methoden aufgeführt:

  • Wählen Sie eine Spalte aus: data['column_name']

  • Wählen Sie mehrere Spalten aus: data[['column1', 'column2']]

  • Wählen Sie eine Zeile aus: data.loc[row_index]# 🎜🎜#

  • Wählen Sie eine Zeile aus. Werte: data.loc[row_index, 'column_name']

  • #🎜🎜 #Nach Bedingung auswählen: data['column_name'] > value]

    5 🎜#Vor der Datenanalyse müssen die Daten normalerweise bereinigt werden. Im Folgenden sind einige häufig verwendete Datenbereinigungsmethoden aufgeführt:

    • Nullwerte entfernen: data.dropna()# 🎜 🎜#

    • Leeren Wert ersetzen: data.fillna(value)

    • Spaltennamen umbenennen: data.rename(columns={'old_name': 'new_name'})#🎜🎜##🎜🎜#
    • #🎜🎜#Datentypkonvertierung: data['column_name' ].astype(new_type)#🎜🎜##🎜🎜#
    • #🎜🎜#Doppelte Werte entfernen: data.drop_duplicates()#🎜🎜##🎜🎜## 🎜🎜##🎜🎜#6. Datenanalyse#🎜🎜##🎜🎜#Pandas bietet umfangreiche Datenanalysefunktionen: #🎜🎜#
        #🎜🎜#Berechnen Sie den Mittelwert: data['column_name'].mean()#🎜🎜##🎜🎜#
      • #🎜🎜#Berechnen Sie den Median: data ['column_name'].median()#🎜🎜##🎜🎜#
      • #🎜🎜#Berechnen Sie den Modus: data['column_name'].mode()# 🎜🎜##🎜🎜#
      • #🎜🎜#Standardabweichung berechnen: data['column_name'].std()#🎜🎜##🎜🎜#
      • #🎜 🎜# Korrelation berechnen: data.corr()#🎜🎜##🎜🎜#
      • #🎜🎜#Datengruppierung: data.groupby('column_name')#🎜 🎜##🎜🎜##🎜🎜##🎜🎜#7. Datenvisualisierung#🎜🎜##🎜🎜#Pandas können Daten problemlos in visuelle Diagramme umwandeln. Zuerst müssen Sie die Matplotlib-Bibliothek installieren: #🎜🎜#
        data[&#39;column_name&#39;].plot(kind=&#39;line&#39;)
        data[&#39;column_name&#39;].plot(kind=&#39;pie&#39;)
        data[&#39;column_name&#39;].plot(kind=&#39;hist&#39;)
        plt.show()
        #🎜🎜#Dann verwenden Sie den folgenden Code, um ein Diagramm zu erstellen: #🎜🎜#
        data.to_csv(&#39;output.csv&#39;, index=False)
        #🎜🎜#Andere Visualisierungsdiagrammtypen umfassen Liniendiagramme, Kreisdiagramme, Histogramme usw.: #🎜 🎜#
        data.to_excel(&#39;output.xlsx&#39;, index=False)
        #🎜🎜#8. Daten exportieren#🎜🎜##🎜🎜#Pandas kann Daten in verschiedene Formate exportieren, wie CSV, Excel, JSON, HTML usw. Das Folgende ist ein Beispiel für den Export von Daten in eine CSV-Datei: #🎜🎜#
        import pandas as pd
        
        data = pd.read_csv(&#39;sales_data.csv&#39;)
        #🎜🎜#Die Exportmethode für andere Datenformate ist ähnlich, beispielsweise für den Export in eine Excel-Datei: #🎜🎜#
        data[&#39;sales_amount&#39;] = data[&#39;quantity&#39;] * data[&#39;price&#39;]
        #🎜🎜#9 . Praktischer Fall#🎜🎜 ##🎜🎜#Wir gehen davon aus, dass wir bereits über eine Kopie der Verkaufsdaten (sales_data.csv) verfügen und das nächste Ziel darin besteht, die Daten zu analysieren. Zuerst müssen wir die Daten lesen: #🎜🎜#
        max_sales = data.groupby(&#39;product_name&#39;)[&#39;sales_amount&#39;].sum().idxmax()
        print(f&#39;最高销售额的产品是:{max_sales}&#39;)
        #🎜🎜# Dann können wir die Daten bereinigen und analysieren. Wir können zum Beispiel den Umsatz jedes Produkts berechnen: #🎜🎜#
        data.to_csv(&#39;sales_analysis.csv&#39;, index=False)
        #🎜🎜# Als nächstes können wir analysieren, welches Produkt den höchsten Umsatz hat: #🎜🎜#rrreee#🎜🎜#Schließlich können wir die Ergebnisse exportieren CSV-Datei: #🎜🎜#rrreee

Das obige ist der detaillierte Inhalt vonSo verwenden Sie Pandas für die Datenanalyse in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen