Heim  >  Artikel  >  Backend-Entwicklung  >  Detaillierte Erläuterung der Einführung und Verwendung häufig verwendeter Funktionen in der Pandas-Bibliothek

Detaillierte Erläuterung der Einführung und Verwendung häufig verwendeter Funktionen in der Pandas-Bibliothek

WBOY
WBOYOriginal
2024-01-24 10:19:171397Durchsuche

Detaillierte Erläuterung der Einführung und Verwendung häufig verwendeter Funktionen in der Pandas-Bibliothek

Einführung in die allgemeinen Funktionen der Pandas-Bibliothek und detaillierte Verwendung

Einführung:

pandas ist ein Open-Source-, flexibles und effizientes Datenanalyse- und Betriebstool, das in den Bereichen Datenwissenschaft, maschinelles Lernen, Finanzen, Statistik und anderen Bereichen weit verbreitet ist . In diesem Artikel werden häufig verwendete Funktionen und ihre Verwendung in der Pandas-Bibliothek vorgestellt, um den Lesern dabei zu helfen, Pandas besser zu verstehen und zu verwenden.

1. Einführung in Datenstrukturen

  1. Serien (Sequenz)

Serien sind eine der grundlegendsten Datenstrukturen in Pandas. Es handelt sich um einen eindimensionalen Datentyp, der jeden Datentyp (Ganzzahl, Gleitkommazahl) enthalten kann , Schnur usw.). Die Erstellungsmethode lautet wie folgt:

import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

Ausgabeergebnis:

0    1
1    2
2    3
3    4
4    5
dtype: int64
  1. DataFrame (Datenrahmen)

DataFrame ist die am häufigsten verwendete Datenstruktur in Pandas. Es handelt sich um eine zweidimensionale tabellarische Datenstruktur, die als angesehen werden kann bestehend aus mehreren Bestehend aus Serien. Die Erstellungsmethode ist wie folgt:

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'city': ['New York', 'London', 'Tokyo']}
df = pd.DataFrame(data)
print(df)

Ausgabeergebnis:

      name  age      city
0    Alice   25  New York
1      Bob   30    London
2  Charlie   35     Tokyo

2. Einführung und detaillierte Verwendung allgemeiner Funktionen

  1. head() und tail()

head()-Funktion wird zum Anzeigen der ersten Zeilen verwendet des DataFrame, und die Standardansicht ist vor 5 Zeilen; die Funktion tail() wird verwendet, um die letzten paar Zeilen des DataFrame anzuzeigen, und die letzten 5 Zeilen werden standardmäßig angezeigt. Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.head())
print(df.tail())
  1. Shape-Attribut

Shape-Attribut gibt die Form des DataFrame zurück, also die Anzahl der Zeilen und Spalten. Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.shape)
  1. info()-Funktion

info()-Funktion wird verwendet, um die Gesamtinformationen des DataFrame anzuzeigen, einschließlich Spaltennamen, Anzahl der Nicht-Null-Werte, Datentyp usw. Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.info())
  1. describe()-Funktion

describe()-Funktion wird verwendet, um statistische Informationen numerischer Spalten in DataFrame zu zählen, wie z. B. Anzahl, Mittelwert, Standardabweichung, Minimalwert, Maximalwert usw . Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')
print(df.describe())
  1. sort_values()-Funktion

sort_values()-Funktion wird verwendet, um den DataFrame basierend auf dem Wert der angegebenen Spalte zu sortieren. Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')
df_sorted = df.sort_values(by='age', ascending=False)  # 按照age列的值进行降序排序
print(df_sorted)
  1. groupby()-Funktion

groupby()-Funktion wird zum Gruppieren nach angegebenen Spalten und zum Aggregieren der gruppierten Ergebnisse verwendet. Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')
grouped = df.groupby('city')
mean_age = grouped['age'].mean()  # 计算每个城市的平均年龄
print(mean_age)
  1. merge()-Funktion

merge()-Funktion wird verwendet, um zwei DataFrames gemäß angegebenen Spalten zusammenzuführen. Der Beispielcode lautet wie folgt:

import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3],
                    'B': ['a', 'b', 'c']})
df2 = pd.DataFrame({'A': [2, 3, 4],
                    'C': ['x', 'y', 'z']})
merged = pd.merge(df1, df2, on='A')  # 按照列A合并
print(merged)
  1. apply()-Funktion

apply()-Funktion wird verwendet, um eine benutzerdefinierte Funktion auf jedes Element im DataFrame anzuwenden. Der Beispielcode lautet wie folgt:

import pandas as pd

df = pd.read_csv('data.csv')

# 定义一个自定义函数:将年龄加上10
def add_ten(age):
    return age + 10

df['age'] = df['age'].apply(add_ten)  # 对age列的每个元素应用add_ten函数
print(df)

Fazit:

In diesem Artikel werden die häufig verwendeten Funktionen der Pandas-Bibliothek und ihre Verwendung kurz vorgestellt, einschließlich grundlegender Operationen von Serien und DataFrame, Datenstatistiken, Sortieren, Gruppieren, Zusammenführen und benutzerdefinierten Funktionsanwendungen , usw. Wir hoffen, dass die Einführung in diesem Artikel den Lesern helfen kann, die Pandas-Bibliothek besser zu verstehen und zu nutzen und eine größere Rolle bei der Datenanalyse und -verarbeitung zu spielen.

Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Einführung und Verwendung häufig verwendeter Funktionen in der Pandas-Bibliothek. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn