Heim > Artikel > Backend-Entwicklung > Eine kurze Analyse der Python-Datenverarbeitung
Dieser Artikel teilt Ihnen den relevanten Inhalt und die wichtigsten Erklärungen zur Python-Datenverarbeitung mit. Freunde, die sich für diesen Wissenspunkt interessieren, können darauf verweisen.
Numpy und Pandas sind zwei Frameworks, die häufig in der Python-Datenverarbeitung verwendet werden. Sie sind beide in der Sprache C geschrieben, sodass die Betriebsgeschwindigkeit hoch ist. Matplotlib ist ein Python-Zeichentool, das zuvor verarbeitete Daten durch Bilder zeichnen kann. Ich habe die Syntax bisher nur gesehen und sie nicht systematisch untersucht und zusammengefasst. Dieser Blog-Beitrag fasst die APIs dieser drei Frameworks zusammen.
Das Folgende ist eine kurze Einführung und der Unterschied zwischen diesen drei Frameworks:
Numpy: Wird häufig für die Datengenerierung und einige Vorgänge verwendet
Pandas: Basierend auf Numpy ist es eine aktualisierte Version von Numpy
Matplotlib: ein leistungsstarkes Zeichenwerkzeug in Python
Numpy
Numpy-Schnellstart-Tutorial kann sich beziehen auf: Numpy-Tutorial
Numpy-Eigenschaften
ndarray.ndim: Dimension
ndarray.shape: Anzahl der Zeilen und Spalten, z. B. (3, 5)
ndarray.size: Anzahl der Elemente
ndarray. dtype: Elementtyp
Numpy erstellt
array(object, dtype=None): verwendet Pythons Liste oder Tupel, um Daten zu erstellen
zeors(shape, dtype=float): Daten mit allen Nullen erstellen
ones(shape, dtype=None): Daten mit allen 1en erstellen
empty( shape, dtype=float): Nicht initialisierte Daten erstellen
arange([start, ]stop, [step, ]dtype=None): Datensegmente mit festem Intervall erstellen
linspace(start, stop, num=50, dtype=None): Daten gleichmäßig innerhalb eines bestimmten Bereichs erstellen
Numpy-Operation
Addieren, Subtrahieren: a + b , a - b
Multiplikation: b*2, 10*np.sin(a)
Potenz: b**2
Beurteilung: ace88550aa3a4a8133df333aefea01603 0]
Pandas behandelt fehlende Daten
Zeilen mit fehlenden Daten löschen: df.dropna(how='any')
Fehlende Daten ergänzen:df.fillna(value=5)
Ob der Datenwert NaN ist: pd.isna(df1)
Pandas zusammengeführte Daten
pd.concat([df1, df2, df3], axis=0): merge df
pd.merge(left, right, on=' key'): Zusammenführung basierend auf dem Schlüsselfeld
df.append(s,ignore_index=True): Daten hinzufügen
Pandas-Import und -Export
df.to_csv('foo.csv'): In CSV-Datei speichern
pd.read_csv('foo.csv'): Aus CSV-Datei lesen
df.to_excel('foo.xlsx', sheet_name='Sheet1'): in Excel-Datei speichern
pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values =['NA']): aus Excel-Datei Lesen
Matplotlib
Hier stellen wir nur die einfachste Art des Plots vor:
import pandas as pd import numpy as np import matplotlib.pyplot as plt # 随机生成1000个数据 data = pd.Series(np.random.randn(1000),index=np.arange(1000)) # 为了方便观看效果, 我们累加这个数据 data.cumsum() # pandas 数据可以直接观看其可视化形式 data.plot() plt.show()
Verwandte Empfehlungen:
Eine kurze Diskussion zum Konfigurationsdateipfadproblem von Python-Protokollen
Das obige ist der detaillierte Inhalt vonEine kurze Analyse der Python-Datenverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!