Heim >Backend-Entwicklung >Python-Tutorial >Beherrschen Sie die acht Datenimportmethoden von Python?
In den meisten Fällen werden NumPy oder Pandas zum Importieren von Daten verwendet. Führen Sie daher vor dem Start Folgendes aus:
import numpy as np import pandas as pd
Oft wissen Sie derzeit nicht viel über einige Funktionsmethoden. Python bietet einige Hilfeinformationen zur schnellen Verwendung von Python-Objekten.
rrree
2. Formulardaten: Flatfiles
Verwenden Sie Numpy zum Lesen von FlatfilesNumpys integrierte Funktionen verarbeiten Daten auf der C-Sprachebene. Flachdatei ist eine Datei, die Datensätze ohne relative Beziehungsstruktur enthält. (Unterstützt Excel-, CSV- und Tabulator-Trennzeichendateien)Dateien mit einem Datentyp
np.info(np.ndarray.dtype)
Zwei harte Anforderungen:
Header-Informationen überspringen Unterscheiden Sie zwischen horizontalen und vertikalen Koordinatenhelp(pd.read_csv)
Verwenden Sie Pandas, um Flatfiles zu lesen
filename = 'demo.txt' file = open(filename, mode='r') # 打开文件进行读取 text = file.read() # 读取文件的内容 print(file.closed) # 检查文件是否关闭 file.close() # 关闭文件 print(text)
with open('demo.txt', 'r') as file: print(file.readline()) # 一行一行读取 print(file.readline()) print(file.readline())
filename = 'mnist.txt' data = np.loadtxt(filename, delimiter=',', skiprows=2, usecols=[0,2], dtype=str)
filename = 'titanic.csv' data = np.genfromtxt(filename, delimiter=',', names=True, dtype=None)
4. Stata-Dateien
Stata ist eine vollständige und integrierte Statistiksoftware, die ihren Benutzern Datenanalyse, Datenverwaltung und professionelles Diagrammzeichnen bietet. Die gespeicherte Datei ist eine Stata-Datei mit der Erweiterung .dta.
filename = 'demo.csv' data = pd.read_csv(filename, nrows=5,# 要读取的文件的行数 header=None,# 作为列名的行号 sep='t', # 分隔符使用 comment='#',# 分隔注释的字符 na_values=[""]) # 可以识别为NA/NaN的字符串
5. Pickled-Dateien
Fast alle Datentypen in Python (Listen, Wörterbücher, Mengen, Klassen usw.) können mit Pickle serialisiert werden. Das Pickle-Modul von Python implementiert die grundlegende Datensequenzierung und Deserialisierung. Durch die Serialisierungsoperation des Pickle-Moduls können wir die im Programm ausgeführten Objektinformationen in einer Datei speichern und durch die Deserialisierungsoperation des Pickle-Moduls das vom letzten Programm gespeicherte Objekt aus der Datei erstellen.
file = 'demo.xlsx' data = pd.ExcelFile(file) df_sheet2 = data.parse(sheet_name='1960-1966', skiprows=[0], names=['Country', 'AAM: War(2002)']) df_sheet1 = pd.read_excel(data, sheet_name=0, parse_cols=[0], skiprows=[0], names=['Country'])
Die entsprechende Operation ist die Schreibmethode pickle.dump().
HDF5-Datei ist eine gängige plattformübergreifende Datenspeicherdatei. Sie kann verschiedene Arten von Bildern und digitalen Daten speichern und diese Dateiformate einheitlich verarbeiten Bibliothek.
HDF5-Dateien haben im Allgemeinen .h5 oder .hdf5 als Suffix und es ist spezielle Software erforderlich, um den Inhalt der Vorschaudatei zu öffnen.
data.sheet_names
7. Matlab-Datei
Es handelt sich um eine Datei mit der Endung .mat, in der Matlab die Daten in seinem Arbeitsbereich speichert. 8. Relationale Datenbank Manager -- mit
from sas7bdat import SAS7BDAT with SAS7BDAT('demo.sas7bdat') as file: df_sas = file.to_data_frame()
2. Verwenden Sie Pandas, um die relationale Datenbank abzufragen
data = pd.read_stata('demo.dta')
Datenerkundung
1, NumPy-Arrays
import pickle with open('pickled_demo.pkl', 'rb') as file: pickled_data = pickle.load(file) # 下载被打开被读取到的数据
2, Pandas DataFrames
import h5py filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5' data = h5py.File(filename, 'r')
Das obige ist der detaillierte Inhalt vonBeherrschen Sie die acht Datenimportmethoden von Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!