Heim  >  Artikel  >  Backend-Entwicklung  >  Eine kurze Analyse der Python-Datenverarbeitung

Eine kurze Analyse der Python-Datenverarbeitung

不言
不言Original
2018-05-02 13:46:241745Durchsuche

Dieser Artikel teilt Ihnen den relevanten Inhalt und die wichtigsten Erklärungen zur Python-Datenverarbeitung mit. Freunde, die sich für diesen Wissenspunkt interessieren, können darauf verweisen.

Numpy und Pandas sind zwei Frameworks, die häufig in der Python-Datenverarbeitung verwendet werden. Sie sind beide in der Sprache C geschrieben, sodass die Betriebsgeschwindigkeit hoch ist. Matplotlib ist ein Python-Zeichentool, das zuvor verarbeitete Daten durch Bilder zeichnen kann. Ich habe die Syntax bisher nur gesehen und sie nicht systematisch untersucht und zusammengefasst. Dieser Blog-Beitrag fasst die APIs dieser drei Frameworks zusammen.

Das Folgende ist eine kurze Einführung und der Unterschied zwischen diesen drei Frameworks:

  • Numpy: Wird häufig für die Datengenerierung und einige Vorgänge verwendet

  • Pandas: Basierend auf Numpy ist es eine aktualisierte Version von Numpy

  • Matplotlib: ein leistungsstarkes Zeichenwerkzeug in Python

Numpy

Numpy-Schnellstart-Tutorial kann sich beziehen auf: Numpy-Tutorial

Numpy-Eigenschaften

ndarray.ndim: Dimension

ndarray.shape: Anzahl der Zeilen und Spalten, z. B. (3, 5)

ndarray.size: Anzahl der Elemente

ndarray. dtype: Elementtyp

Numpy erstellt

array(object, dtype=None): verwendet Pythons Liste oder Tupel, um Daten zu erstellen

zeors(shape, dtype=float): Daten mit allen Nullen erstellen

ones(shape, dtype=None): Daten mit allen 1en erstellen

empty( shape, dtype=float): Nicht initialisierte Daten erstellen

arange([start, ]stop, [step, ]dtype=None): Datensegmente mit festem Intervall erstellen

linspace(start, stop, num=50, dtype=None): Daten gleichmäßig innerhalb eines bestimmten Bereichs erstellen

Numpy-Operation

Addieren, Subtrahieren: a + b , a - b

Multiplikation: b*2, 10*np.sin(a)

Potenz: b**2

Beurteilung: ace88550aa3a4a8133df333aefea01603 0]

Pandas behandelt fehlende Daten

Zeilen mit fehlenden Daten löschen: df.dropna(how='any')

Fehlende Daten ergänzen:df.fillna(value=5)

Ob der Datenwert NaN ist: pd.isna(df1)

Pandas zusammengeführte Daten

pd.concat([df1, df2, df3], axis=0): merge df

pd.merge(left, right, on=' key'): Zusammenführung basierend auf dem Schlüsselfeld

df.append(s,ignore_index=True): Daten hinzufügen

Pandas-Import und -Export

df.to_csv('foo.csv'): In CSV-Datei speichern

pd.read_csv('foo.csv'): Aus CSV-Datei lesen

df.to_excel('foo.xlsx', sheet_name='Sheet1'): in Excel-Datei speichern

pd.read_excel('foo.xlsx', 'Sheet1', index_col=None, na_values =['NA']): aus Excel-Datei Lesen

Matplotlib

Hier stellen wir nur die einfachste Art des Plots vor:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))
# 为了方便观看效果, 我们累加这个数据
data.cumsum()
# pandas 数据可以直接观看其可视化形式
data.plot()
plt.show()

Verwandte Empfehlungen:

Eine kurze Diskussion zum Konfigurationsdateipfadproblem von Python-Protokollen

Das obige ist der detaillierte Inhalt vonEine kurze Analyse der Python-Datenverarbeitung. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn