>백엔드 개발 >파이썬 튜토리얼 >Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?

Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?

WBOY
WBOY앞으로
2023-04-19 12:52:031740검색

대부분의 경우 NumPy 또는 Pandas를 사용하여 데이터를 가져오므로 시작하기 전에 다음을 실행하세요.

import numpy as np
import pandas as pd

도움을 받는 두 가지 방법

현재로서는 일부 함수 메서드에 대해 잘 모르는 경우가 많습니다. Python은 Python 객체를 빠르게 사용하기 위한 몇 가지 도움말 정보를 제공합니다.

Numpy에서 info 메소드를 사용하세요.

np.info(np.ndarray.dtype)

Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?

Python 내장 기능

help(pd.read_csv)

Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?

1. 텍스트 파일

1. 일반 텍스트 파일

filename = 'demo.txt'
file = open(filename, mode='r') # 打开文件进行读取
text = file.read() # 读取文件的内容
print(file.closed) # 检查文件是否关闭
file.close() # 关闭文件
print(text)

컨텍스트 관리자 사용 - with

rrre 에에

2. 양식 데이터: 플랫 파일

Numpy를 사용하여 플랫 파일 읽기

Numpy의 내장 기능은 C 언어 수준에서 데이터를 처리합니다.

플랫 파일은 상대적인 관계 구조 없이 기록을 담고 있는 파일입니다. (Excel, CSV 및 Tab 구분 기호 파일 지원)

하나의 데이터 유형을 가진 파일

값을 구분하는 데 사용되는 문자열은 처음 두 줄을 건너뜁니다. 첫 번째와 세 번째 열에서 결과 배열의 유형을 읽습니다.

with open('demo.txt', 'r') as file:
print(file.readline()) # 一行一行读取
print(file.readline())
print(file.readline())

  • 데이터 유형이 혼합된 파일

두 가지 엄격한 요구 사항:

  • 헤더 정보 건너뛰기
  • 수평 좌표와 수직 좌표 구별

filename = 'mnist.txt'
data = np.loadtxt(filename,
delimiter=',',
skiprows=2,
usecols=[0,2],
dtype=str)

Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?

Pandas 사용 플랫 파일을 읽으려면

filename = 'titanic.csv'
data = np.genfromtxt(filename,
 delimiter=',',
 names=True,
 dtype=None)

2. Excel 스프레드시트

Pandas의 ExcelFile()은 Excel 테이블 파일을 읽기 위한 Pandas의 매우 편리하고 빠른 클래스입니다. 특히 여러 시트가 포함된 Excel 파일을 조작할 때 매우 편리합니다.

filename = 'demo.csv' 
data = pd.read_csv(filename, 
 nrows=5,# 要读取的文件的行数
 header=None,# 作为列名的行号
 sep='t', # 分隔符使用
 comment='#',# 分隔注释的字符
 na_values=[""]) # 可以识别为NA/NaN的字符串

읽을 시트의 이름을 얻으려면 sheet_names 속성을 사용하세요.

file = 'demo.xlsx'
data = pd.ExcelFile(file)
df_sheet2 = data.parse(sheet_name='1960-1966',
 skiprows=[0],
 names=['Country',
'AAM: War(2002)'])
df_sheet1 = pd.read_excel(data,
sheet_name=0,
parse_cols=[0],
skiprows=[0],
names=['Country'])

3.SAS 파일

SAS(Statistical Analysis System)는 모듈식 통합형 대규모 응용 소프트웨어 시스템입니다. 저장되는 파일인 sas는 통계 분석 파일입니다.

data.sheet_names

4. Stata 파일

Stata는 사용자에게 데이터 분석, 데이터 관리 및 전문적인 차트 그리기 기능을 제공하는 완전하고 통합된 통계 소프트웨어입니다. 저장된 파일은 확장자가 .dta인 Stata 파일입니다.

from sas7bdat import SAS7BDAT
with SAS7BDAT('demo.sas7bdat') as file:
df_sas = file.to_data_frame()

5. 피클된 파일

파이썬의 거의 모든 데이터 유형(목록, 사전, 세트, ​​클래스 등)은 피클을 사용하여 직렬화할 수 있습니다. Python의 피클 모듈은 기본 데이터 순서화 및 역직렬화를 구현합니다. 피클 모듈의 직렬화 연산을 통해 프로그램에서 실행 중인 객체 정보를 파일로 저장할 수 있으며, 피클 모듈의 역직렬화 연산을 통해 파일에서 마지막 프로그램이 저장한 객체를 생성할 수 있다.

data = pd.read_stata('demo.dta')

해당 작업은 쓰기 메서드 pickle.dump()입니다.

6. HDF5 파일

HDF5 파일은 다양한 유형의 이미지와 디지털 데이터를 저장할 수 있으며 이 파일 형식을 균일하게 처리할 수 있습니다. 도서관.

HDF5 파일의 접미사는 일반적으로 .h5​ 또는 .hdf5이며, 미리보기 파일의 콘텐츠를 열려면 특수 소프트웨어가 필요합니다.

import pickle
with open('pickled_demo.pkl', 'rb') as file:
 pickled_data = pickle.load(file) # 下载被打开被读取到的数据

7. Matlab 파일

MATLAB이 작업 공간에 데이터를 저장하는 접미사가 .mat인 파일입니다.

import h5py
filename = 'H-H1_LOSC_4_v1-815411200-4096.hdf5'
data = h5py.File(filename, 'r')

8. 관계형 데이터베이스

import scipy.io
filename = 'workspace.mat'
mat = scipy.io.loadmat(filename)

table_names() 메서드를 사용하여 테이블 이름 목록 가져오기

from sqlalchemy import create_engine
engine = create_engine('sqlite://Northwind.sqlite')

1 관계형 데이터베이스를 직접 쿼리

table_names = engine.table_names()

컨텍스트 관리자 사용 -- with

con = engine.connect()
rs = con.execute("SELECT * FROM Orders")
df = pd.DataFrame(rs.fetchall())
df.columns = rs.keys()
con.close()

2. Pandas를 사용하여 관계형 데이터베이스 쿼리

with engine.connect() as con:
rs = con.execute("SELECT OrderID FROM Orders")
df = pd.DataFrame(rs.fetchmany(size=5))
df.columns = rs.keys()

데이터 탐색

데이터를 가져온 후 데이터 유형, 데이터 크기, 길이 등을 확인하는 등 데이터를 처음 탐색합니다. 기본 정보. 다음은 간략한 요약입니다.

1, NumPy 배열

df = pd.read_sql_query("SELECT * FROM Orders", engine)

2, Pandas DataFrames

data_array.dtype# 数组元素的数据类型
data_array.shape# 阵列尺寸
len(data_array) # 数组的长度

위 내용은 Python의 8가지 데이터 가져오기 방법을 마스터하셨나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제