Rumah  >  Artikel  >  pembangunan bahagian belakang  >  Lapan kaedah import data Python, adakah anda telah menguasainya?

Lapan kaedah import data Python, adakah anda telah menguasainya?

WBOY
WBOYke hadapan
2023-04-19 12:52:031691semak imbas

Dalam kebanyakan kes, NumPy atau Pandas akan digunakan untuk mengimport data, jadi sebelum memulakan, laksanakan:

import numpy as np
import pandas as pd

Dua cara untuk mendapatkan bantuan

Banyak kali anda tidak tahu banyak tentang beberapa kaedah fungsi Pada masa ini, Python menyediakan beberapa maklumat bantuan untuk menggunakan objek Python dengan cepat.

Gunakan kaedah maklumat dalam Numpy.

np.info(np.ndarray.dtype)

Lapan kaedah import data Python, adakah anda telah menguasainya?

Fungsi terbina dalam Python

help(pd.read_csv)

Lapan kaedah import data Python, adakah anda telah menguasainya?

1. Fail teks

1. Fail teks biasa

filename = 'demo.txt'
file = open(filename, mode='r') # 打开文件进行读取
text = file.read() # 读取文件的内容
print(file.closed) # 检查文件是否关闭
file.close() # 关闭文件
print(text)

Gunakan pengurus konteks -- dengan

with open('demo.txt', 'r') as file:
print(file.readline()) # 一行一行读取
print(file.readline())
print(file.readline())

2. Data jadual: Fail rata

Gunakan Numpy untuk membaca fail Rata

Fungsi terbina dalam Numpy memproses data pada tahap bahasa C.

Fail rata ialah fail yang mengandungi rekod tanpa struktur perhubungan relatif. (Fail Excel, CSV dan pembatas Tab disokong)

Fail dengan satu jenis data

Rentetan yang digunakan untuk memisahkan nilai melangkau dua baris pertama. Baca jenis tatasusunan yang terhasil dalam lajur pertama dan ketiga.

filename = 'mnist.txt'
data = np.loadtxt(filename,
delimiter=',',
skiprows=2,
usecols=[0,2],
dtype=str)

  • Fail dengan jenis data bercampur

Dua keperluan sukar:

  • Langkau maklumat Pengepala
  • Bezakan antara koordinat mendatar dan menegak

filename = 'titanic.csv'
data = np.genfromtxt(filename,
 delimiter=',',
 names=True,
 dtype=None)

Lapan kaedah import data Python, adakah anda telah menguasainya?

Gunakan Panda untuk membaca fail Flat

filename = 'demo.csv' 
data = pd.read_csv(filename, 
 nrows=5,# 要读取的文件的行数
 header=None,# 作为列名的行号
 sep='t', # 分隔符使用
 comment='#',# 分隔注释的字符
 na_values=[""]) # 可以识别为NA/NaN的字符串

2. Hamparan Excel

ExcelFile() dalam Pandas ialah kelas yang sangat mudah dan pantas dalam panda untuk membaca fail jadual excel, terutamanya apabila sangat mudah untuk memanipulasi fail excel yang mengandungi berbilang cadar.

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
 skiprows=[0],
 names=['Country',
'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
sheet_name=0,
parse_cols=[0],
skiprows=[0],
names=['Country'])

Gunakan sifat sheet_names untuk mendapatkan nama helaian untuk dibaca.

data.sheet_names

3. Fail SAS

SAS (Sistem Analisis Statistik) ialah sistem perisian aplikasi berskala besar modular dan bersepadu. Fail yang disimpannya, sas, ialah fail analisis statistik.

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
df_sas = file.to_data_frame()

4. Fail Stata

Stata ialah perisian statistik yang lengkap dan bersepadu yang menyediakan penggunanya dengan analisis data, pengurusan data dan lukisan carta profesional. Fail yang disimpan ialah fail Stata dengan sambungan .dta.

data = pd.read_stata('demo.dta')

5. Fail jeruk

Hampir semua jenis data dalam python (senarai, kamus, set, kelas, dll.) boleh disiri menggunakan jeruk. Modul acar Python melaksanakan penjujukan data asas dan penyahserialisasian. Melalui operasi bersiri modul jeruk, kita boleh menyimpan maklumat objek yang berjalan dalam program ke fail dan menyimpannya secara kekal melalui operasi penyahserian modul jeruk, kita boleh mencipta objek yang disimpan oleh program terakhir daripada fail.

import pickle
with open('pickled_demo.pkl', 'rb') as file:
 pickled_data = pickle.load(file) # 下载被打开被读取到的数据

Operasi yang sepadan ialah menulis kaedah pickle.dump().

6. Fail HDF5

Fail HDF5 ialah fail storan data merentas platform yang boleh menyimpan pelbagai jenis imej dan data digital serta boleh dipindahkan pada jenis mesin yang berbeza perpustakaan fungsi yang mengendalikan format fail ini secara seragam.

Fail HDF5 biasanya mempunyai .h5​ atau .hdf5 sebagai akhiran dan perisian khas diperlukan untuk membuka kandungan fail pratonton.

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

7. Fail Matlab

Ia ialah fail dengan akhiran .mat di mana matlab menyimpan data dalam ruang kerjanya.

import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)

8 Pangkalan data perhubungan

from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')

Gunakan kaedah table_names() untuk mendapatkan senarai nama jadual

table_names = engine.table_names()

1 Tanya terus pangkalan data hubungan

con = engine.connect()
rs = con.execute("SELECT * FROM Orders")
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()

Gunakan pengurus konteks -- dengan

with engine.connect() as con:
rs = con.execute("SELECT OrderID FROM Orders")
df = pd.DataFrame(rs.fetchmany(size=5))
df.columns = rs.keys()

2. Gunakan Panda untuk menanyakan pangkalan data hubungan

df = pd.read_sql_query("SELECT * FROM Orders", engine)

Penerokaan data

Selepas data diimport, data akan diterokai pada mulanya , seperti menyemak jenis data Beberapa maklumat asas seperti saiz dan panjang data. Berikut adalah ringkasan ringkas.

1. Tatasusunan NumPy

data_array.dtype# 数组元素的数据类型
data_array.shape# 阵列尺寸
len(data_array) # 数组的长度

2.

Atas ialah kandungan terperinci Lapan kaedah import data Python, adakah anda telah menguasainya?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan:
Artikel ini dikembalikan pada:51cto.com. Jika ada pelanggaran, sila hubungi admin@php.cn Padam