Heim >Backend-Entwicklung >Python-Tutorial >Beherrschen Sie die acht Datenimportmethoden von Python?

Beherrschen Sie die acht Datenimportmethoden von Python?

WBOY
WBOYnach vorne
2023-04-19 12:52:031724Durchsuche

In den meisten Fällen werden NumPy oder Pandas zum Importieren von Daten verwendet. Führen Sie daher vor dem Start Folgendes aus:

import numpy as np
import pandas as pd

Zwei Möglichkeiten, Hilfe zu erhalten

Oft wissen Sie derzeit nicht viel über einige Funktionsmethoden. Python bietet einige Hilfeinformationen zur schnellen Verwendung von Python-Objekten.

Verwenden Sie die Info-Methode in Numpy. „Integrierte Python-Funktion“

rrree

2. Formulardaten: FlatfilesBeherrschen Sie die acht Datenimportmethoden von Python?

Verwenden Sie Numpy zum Lesen von Flatfiles

Numpys integrierte Funktionen verarbeiten Daten auf der C-Sprachebene.

Flachdatei ist eine Datei, die Datensätze ohne relative Beziehungsstruktur enthält. (Unterstützt Excel-, CSV- und Tabulator-Trennzeichendateien)

Beherrschen Sie die acht Datenimportmethoden von Python?Dateien mit einem Datentyp

Die zum Trennen von Werten verwendete Zeichenfolge überspringt die ersten beiden Zeilen. Lesen Sie den Typ des resultierenden Arrays in der ersten und dritten Spalte.

np.info(np.ndarray.dtype)

Dateien mit gemischten Datentypen

Zwei harte Anforderungen:

Header-Informationen überspringen

Unterscheiden Sie zwischen horizontalen und vertikalen Koordinaten

help(pd.read_csv)

Verwenden Sie Pandas, um Flatfiles zu lesen

filename = 'demo.txt'
file = open(filename, mode='r') # 打开文件进行读取
text = file.read() # 读取文件的内容
print(file.closed) # 检查文件是否关闭
file.close() # 关闭文件
print(text)
  • 2. Excel-Tabelle
ExcelFile() in Pandas ist eine sehr praktische und schnelle Klasse in Pandas zum Lesen von Excel-Tabellendateien, insbesondere beim Bearbeiten von Excel-Dateien mit mehreren Tabellenblättern. Sehr praktisch.

with open('demo.txt', 'r') as file:
print(file.readline()) # 一行一行读取
print(file.readline())
print(file.readline())
  • Verwenden Sie die Eigenschaft sheet_names, um den Namen des zu lesenden Blatts abzurufen.
  • filename = 'mnist.txt'
    data = np.loadtxt(filename,
    delimiter=',',
    skiprows=2,
    usecols=[0,2],
    dtype=str)
3. SAS-Datei

SAS (Statistical Analysis System) ist ein modulares und integriertes umfangreiches Anwendungssoftwaresystem. Die gespeicherte Datei sas ist eine statistische Analysedatei.

Beherrschen Sie die acht Datenimportmethoden von Python?

filename = 'titanic.csv'
data = np.genfromtxt(filename,
 delimiter=',',
 names=True,
 dtype=None)

4. Stata-Dateien

Stata ist eine vollständige und integrierte Statistiksoftware, die ihren Benutzern Datenanalyse, Datenverwaltung und professionelles Diagrammzeichnen bietet. Die gespeicherte Datei ist eine Stata-Datei mit der Erweiterung .dta.

filename = 'demo.csv' 
data = pd.read_csv(filename, 
 nrows=5,# 要读取的文件的行数
 header=None,# 作为列名的行号
 sep='t', # 分隔符使用
 comment='#',# 分隔注释的字符
 na_values=[""]) # 可以识别为NA/NaN的字符串

5. Pickled-Dateien

Fast alle Datentypen in Python (Listen, Wörterbücher, Mengen, Klassen usw.) können mit Pickle serialisiert werden. Das Pickle-Modul von Python implementiert die grundlegende Datensequenzierung und Deserialisierung. Durch die Serialisierungsoperation des Pickle-Moduls können wir die im Programm ausgeführten Objektinformationen in einer Datei speichern und durch die Deserialisierungsoperation des Pickle-Moduls das vom letzten Programm gespeicherte Objekt aus der Datei erstellen.

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
 skiprows=[0],
 names=['Country',
'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
sheet_name=0,
parse_cols=[0],
skiprows=[0],
names=['Country'])

Die entsprechende Operation ist die Schreibmethode pickle.dump().

6. HDF5-Datei

HDF5-Datei ist eine gängige plattformübergreifende Datenspeicherdatei. Sie kann verschiedene Arten von Bildern und digitalen Daten speichern und diese Dateiformate einheitlich verarbeiten Bibliothek.

HDF5-Dateien haben im Allgemeinen .h5​ oder .hdf5 als Suffix und es ist spezielle Software erforderlich, um den Inhalt der Vorschaudatei zu öffnen.

data.sheet_names

7. Matlab-Datei

Es handelt sich um eine Datei mit der Endung .mat, in der Matlab die Daten in seinem Arbeitsbereich speichert. 8. Relationale Datenbank Manager -- mit

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
df_sas = file.to_data_frame()

2. Verwenden Sie Pandas, um die relationale Datenbank abzufragen

data = pd.read_stata('demo.dta')

Datenerkundung

Nachdem die Daten importiert wurden, werden die Daten zunächst untersucht, z grundlegende Informationen. Hier eine kurze Zusammenfassung.

1, NumPy-Arrays

import pickle
with open('pickled_demo.pkl', 'rb') as file:
 pickled_data = pickle.load(file) # 下载被打开被读取到的数据

2, Pandas DataFrames

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

Das obige ist der detaillierte Inhalt vonBeherrschen Sie die acht Datenimportmethoden von Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:51cto.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen