대부분의 경우 NumPy 또는 Pandas를 사용하여 데이터를 가져오므로 시작하기 전에 다음을 실행하세요.
import numpy as np import pandas as pd
현재로서는 일부 함수 메서드에 대해 잘 모르는 경우가 많습니다. Python은 Python 객체를 빠르게 사용하기 위한 몇 가지 도움말 정보를 제공합니다.
np.info(np.ndarray.dtype)
help(pd.read_csv)
filename = 'demo.txt' file = open(filename, mode='r') # 打开文件进行读取 text = file.read() # 读取文件的内容 print(file.closed) # 检查文件是否关闭 file.close() # 关闭文件 print(text)
컨텍스트 관리자 사용 - with
rrre 에에
Numpy의 내장 기능은 C 언어 수준에서 데이터를 처리합니다.
플랫 파일은 상대적인 관계 구조 없이 기록을 담고 있는 파일입니다. (Excel, CSV 및 Tab 구분 기호 파일 지원)
하나의 데이터 유형을 가진 파일
값을 구분하는 데 사용되는 문자열은 처음 두 줄을 건너뜁니다. 첫 번째와 세 번째 열에서 결과 배열의 유형을 읽습니다.
with open('demo.txt', 'r') as file: print(file.readline()) # 一行一行读取 print(file.readline()) print(file.readline())
두 가지 엄격한 요구 사항:
filename = 'mnist.txt' data = np.loadtxt(filename, delimiter=',', skiprows=2, usecols=[0,2], dtype=str)
Pandas 사용 플랫 파일을 읽으려면
filename = 'titanic.csv' data = np.genfromtxt(filename, delimiter=',', names=True, dtype=None)
Pandas의 ExcelFile()은 Excel 테이블 파일을 읽기 위한 Pandas의 매우 편리하고 빠른 클래스입니다. 특히 여러 시트가 포함된 Excel 파일을 조작할 때 매우 편리합니다.
filename = 'demo.csv' data = pd.read_csv(filename, nrows=5,# 要读取的文件的行数 header=None,# 作为列名的行号 sep='t', # 分隔符使用 comment='#',# 分隔注释的字符 na_values=[""]) # 可以识别为NA/NaN的字符串
읽을 시트의 이름을 얻으려면 sheet_names 속성을 사용하세요.
file = 'demo.xlsx' data = pd.ExcelFile(file) df_sheet2 = data.parse(sheet_name='1960-1966', skiprows=[0], names=['Country', 'AAM: War(2002)']) df_sheet1 = pd.read_excel(data, sheet_name=0, parse_cols=[0], skiprows=[0], names=['Country'])
SAS(Statistical Analysis System)는 모듈식 통합형 대규모 응용 소프트웨어 시스템입니다. 저장되는 파일인 sas는 통계 분석 파일입니다.
data.sheet_names
Stata는 사용자에게 데이터 분석, 데이터 관리 및 전문적인 차트 그리기 기능을 제공하는 완전하고 통합된 통계 소프트웨어입니다. 저장된 파일은 확장자가 .dta인 Stata 파일입니다.
from sas7bdat import SAS7BDAT with SAS7BDAT('demo.sas7bdat') as file: df_sas = file.to_data_frame()
파이썬의 거의 모든 데이터 유형(목록, 사전, 세트, 클래스 등)은 피클을 사용하여 직렬화할 수 있습니다. Python의 피클 모듈은 기본 데이터 순서화 및 역직렬화를 구현합니다. 피클 모듈의 직렬화 연산을 통해 프로그램에서 실행 중인 객체 정보를 파일로 저장할 수 있으며, 피클 모듈의 역직렬화 연산을 통해 파일에서 마지막 프로그램이 저장한 객체를 생성할 수 있다.
data = pd.read_stata('demo.dta')
해당 작업은 쓰기 메서드 pickle.dump()입니다.
HDF5 파일은 다양한 유형의 이미지와 디지털 데이터를 저장할 수 있으며 이 파일 형식을 균일하게 처리할 수 있습니다. 도서관.
HDF5 파일의 접미사는 일반적으로 .h5 또는 .hdf5이며, 미리보기 파일의 콘텐츠를 열려면 특수 소프트웨어가 필요합니다.
import pickle with open('pickled_demo.pkl', 'rb') as file: pickled_data = pickle.load(file) # 下载被打开被读取到的数据
MATLAB이 작업 공간에 데이터를 저장하는 접미사가 .mat인 파일입니다.
import h5py filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5' data = h5py.File(filename, 'r')
import scipy.io filename = 'workspace.mat' mat = scipy.io.loadmat(filename)
table_names() 메서드를 사용하여 테이블 이름 목록 가져오기
from sqlalchemy import create_engine engine = create_engine('sqlite://Northwind.sqlite')
table_names = engine.table_names()
컨텍스트 관리자 사용 -- with
con = engine.connect() rs = con.execute("SELECT * FROM Orders") df = pd.DataFrame(rs.fetchall()) df.columns = rs.keys() con.close()
with engine.connect() as con: rs = con.execute("SELECT OrderID FROM Orders") df = pd.DataFrame(rs.fetchmany(size=5)) df.columns = rs.keys()
데이터를 가져온 후 데이터 유형, 데이터 크기, 길이 등을 확인하는 등 데이터를 처음 탐색합니다. 기본 정보. 다음은 간략한 요약입니다.
df = pd.read_sql_query("SELECT * FROM Orders", engine)
data_array.dtype# 数组元素的数据类型 data_array.shape# 阵列尺寸 len(data_array) # 数组的长度
위 내용은 Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!