Heim > Artikel > Backend-Entwicklung > Detaillierte Erläuterung der Einführung und Verwendung häufig verwendeter Funktionen in der Pandas-Bibliothek
Einführung in die allgemeinen Funktionen der Pandas-Bibliothek und detaillierte Verwendung
Einführung:
pandas ist ein Open-Source-, flexibles und effizientes Datenanalyse- und Betriebstool, das in den Bereichen Datenwissenschaft, maschinelles Lernen, Finanzen, Statistik und anderen Bereichen weit verbreitet ist . In diesem Artikel werden häufig verwendete Funktionen und ihre Verwendung in der Pandas-Bibliothek vorgestellt, um den Lesern dabei zu helfen, Pandas besser zu verstehen und zu verwenden.
1. Einführung in Datenstrukturen
Serien sind eine der grundlegendsten Datenstrukturen in Pandas. Es handelt sich um einen eindimensionalen Datentyp, der jeden Datentyp (Ganzzahl, Gleitkommazahl) enthalten kann , Schnur usw.). Die Erstellungsmethode lautet wie folgt:
import pandas as pd data = [1, 2, 3, 4, 5] s = pd.Series(data) print(s)
Ausgabeergebnis:
0 1 1 2 2 3 3 4 4 5 dtype: int64
DataFrame ist die am häufigsten verwendete Datenstruktur in Pandas. Es handelt sich um eine zweidimensionale tabellarische Datenstruktur, die als angesehen werden kann bestehend aus mehreren Bestehend aus Serien. Die Erstellungsmethode ist wie folgt:
import pandas as pd data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'city': ['New York', 'London', 'Tokyo']} df = pd.DataFrame(data) print(df)
Ausgabeergebnis:
name age city 0 Alice 25 New York 1 Bob 30 London 2 Charlie 35 Tokyo
2. Einführung und detaillierte Verwendung allgemeiner Funktionen
head()-Funktion wird zum Anzeigen der ersten Zeilen verwendet des DataFrame, und die Standardansicht ist vor 5 Zeilen; die Funktion tail() wird verwendet, um die letzten paar Zeilen des DataFrame anzuzeigen, und die letzten 5 Zeilen werden standardmäßig angezeigt. Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') print(df.head()) print(df.tail())
Shape-Attribut gibt die Form des DataFrame zurück, also die Anzahl der Zeilen und Spalten. Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') print(df.shape)
info()-Funktion wird verwendet, um die Gesamtinformationen des DataFrame anzuzeigen, einschließlich Spaltennamen, Anzahl der Nicht-Null-Werte, Datentyp usw. Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') print(df.info())
describe()-Funktion wird verwendet, um statistische Informationen numerischer Spalten in DataFrame zu zählen, wie z. B. Anzahl, Mittelwert, Standardabweichung, Minimalwert, Maximalwert usw . Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') print(df.describe())
sort_values()-Funktion wird verwendet, um den DataFrame basierend auf dem Wert der angegebenen Spalte zu sortieren. Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') df_sorted = df.sort_values(by='age', ascending=False) # 按照age列的值进行降序排序 print(df_sorted)
groupby()-Funktion wird zum Gruppieren nach angegebenen Spalten und zum Aggregieren der gruppierten Ergebnisse verwendet. Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') grouped = df.groupby('city') mean_age = grouped['age'].mean() # 计算每个城市的平均年龄 print(mean_age)
merge()-Funktion wird verwendet, um zwei DataFrames gemäß angegebenen Spalten zusammenzuführen. Der Beispielcode lautet wie folgt:
import pandas as pd df1 = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c']}) df2 = pd.DataFrame({'A': [2, 3, 4], 'C': ['x', 'y', 'z']}) merged = pd.merge(df1, df2, on='A') # 按照列A合并 print(merged)
apply()-Funktion wird verwendet, um eine benutzerdefinierte Funktion auf jedes Element im DataFrame anzuwenden. Der Beispielcode lautet wie folgt:
import pandas as pd df = pd.read_csv('data.csv') # 定义一个自定义函数:将年龄加上10 def add_ten(age): return age + 10 df['age'] = df['age'].apply(add_ten) # 对age列的每个元素应用add_ten函数 print(df)
Fazit:
In diesem Artikel werden die häufig verwendeten Funktionen der Pandas-Bibliothek und ihre Verwendung kurz vorgestellt, einschließlich grundlegender Operationen von Serien und DataFrame, Datenstatistiken, Sortieren, Gruppieren, Zusammenführen und benutzerdefinierten Funktionsanwendungen , usw. Wir hoffen, dass die Einführung in diesem Artikel den Lesern helfen kann, die Pandas-Bibliothek besser zu verstehen und zu nutzen und eine größere Rolle bei der Datenanalyse und -verarbeitung zu spielen.
Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Einführung und Verwendung häufig verwendeter Funktionen in der Pandas-Bibliothek. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!