>  기사  >  백엔드 개발  >  파이썬에서 csv 파일을 읽는 방법

파이썬에서 csv 파일을 읽는 방법

步履不停
步履不停원래의
2019-07-03 09:40:545390검색

파이썬에서 csv 파일을 읽는 방법

Python은 csv 파일을 읽고 씁니다

머리말#🎜 🎜 #

쉼표로 구분된 값 ​​(CSV, 구분 문자가 쉼표가 아닐 수도 있기 때문에 문자로 구분된 값이라고도 함), 해당 파일은 표 형식 데이터(숫자)를 저장합니다. ) 일반 텍스트 및 텍스트로). 일반 텍스트는 파일이 일련의 문자이며 이진수처럼 해석되어야 하는 데이터를 포함하지 않음을 의미합니다. CSV 파일은 일종의 개행 문자로 구분된 여러 개의 레코드로 구성됩니다. 각 레코드는 필드로 구성되며 필드 사이의 구분 기호는 다른 문자 또는 문자열(가장 일반적으로 쉼표 또는 탭)입니다. 일반적으로 모든 레코드는 정확히 동일한 필드 순서를 가지며, 숫자인 경우 수동으로 숫자로 변환해야 합니다.

행 단위로 데이터 읽기

The 열은 반자 쉼표 또는 탭으로 구분됩니다. 일반적으로 반자 쉼표#🎜 🎜# 일반적으로 각 줄의 시작 부분에는 공백이 없습니다. 첫 번째 줄은 속성 열 사이에 공백이 없습니다. 간격으로 구분 기호가 있는 데이터 열에는 행 사이에 빈 줄이 없습니다.

줄 사이에 빈 줄이 없는 것이 매우 중요합니다. 데이터 세트에서 빈 줄이 있거나 행 끝에 공백이 있으면 일반적으로 읽을 때 오류가 발생합니다. 데이터가 [목록 인덱스가 범위를 벗어났습니다.] 오류가 발생합니다. 추신: 저는 이 오류에 여러 번 속았습니다!

Python I/O를 사용하여 CSV 파일 쓰기 및 읽기

Python I/O를 사용하여 CSV 파일 쓰기#🎜 🎜#

다음은 작성자 소스에서 "birthweight.dat" 저출생체중 dat 파일을 다운로드 받아 가공하여 csv 파일로 저장하는 코드입니다.

import csv
import os
import numpy as np
import random
import requests
# name of data file
# 数据集名称
birth_weight_file = 'birth_weight.csv'
# download data and create data file if file does not exist in current directory
# 如果当前文件夹下没有birth_weight.csv数据集则下载dat文件并生成csv文件
if not os.path.exists(birth_weight_file):
    birthdata_url = 'https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat'
    birth_file = requests.get(birthdata_url)
    birth_data = birth_file.text.split('\r\n')
    # split分割函数,以一行作为分割函数,windows中换行符号为'\r\n',每一行后面都有一个'\r\n'符号。
    birth_header = birth_data[0].split('\t')
    # 每一列的标题,标在第一行,即是birth_data的第一个数据。并使用制表符作为划分。
    birth_data = [[float(x) for x in y.split('\t') if len(x) >= 1] for y in birth_data[1:] if len(y) >= 1]
    print(np.array(birth_data).shape)
    # (189, 9)
    # 此为list数据形式不是numpy数组不能使用np,shape函数,但是我们可以使用np.array函数将list对象转化为numpy数组后使用shape属性进行查看。
    with open(birth_weight_file, "w", newline='') as f:
    # with open(birth_weight_file, "w") as f:
        writer = csv.writer(f)
        writer.writerows([birth_header])
        writer.writerows(birth_data)
        f.close()

일반적인 실수 목록 색인이 범위를 벗어났습니다

우리가 해야 할 핵심 사항 f: 이 명령문은 open(birth_weight_file, "w", newline='')과 같습니다. csv 파일에 쓰는 것을 나타냅니다. newline='' 매개변수가 추가되지 않으면 공백을 개행 문자로 사용하는 것을 의미합니다. 대신 with open(birth_weight_file, "w")를 f: 문으로 사용하세요. 생성된 테이블에 빈 행이 나타납니다.

파이썬에서 csv 파일을 읽는 방법

python I/O를 사용하여 csv 데이터를 읽고 쓸 뿐만 아니라 다른 방법을 사용하여 csv 데이터를 읽고 쓰거나 인터넷에서 csv를 다운로드할 수도 있습니다. 각 데이터 세트 후에는 각 행 뒤에 공백이 있는지 또는 추가 빈 줄이 있는지 확인해야 합니다. 데이터 분석 중 판단에 영향을 미치는 불필요한 오류를 피하세요.

Python I/O를 사용하여 csv 파일 읽기

Python I/O 방법을 사용하여 읽을 때 새 목록을 만듭니다. 데이터는 행부터 열 순서로 빈 List 객체에 저장됩니다(C 언어의 2차원 배열과 유사). 이를 numpy 배열로 변환해야 하는 경우 np.array를 사용할 수도 있습니다. (목록 이름) 개체 간을 변환합니다.

birth_data = []
with open(birth_weight_file) as csvfile:
    csv_reader = csv.reader(csvfile)  # 使用csv.reader读取csvfile中的文件
    birth_header = next(csv_reader)  # 读取第一行每一列的标题
    for row in csv_reader:  # 将csv 文件中的数据保存到birth_data中
        birth_data.append(row)
birth_data = [[float(x) for x in row] for row in birth_data]  # 将数据从string形式转换为float形式
birth_data = np.array(birth_data)  # 将list数组转化成array数组便于查看数据结构
birth_header = np.array(birth_header)
print(birth_data.shape)  # 利用.shape查看结构。
print(birth_header.shape)
#
# (189, 9)
# (9,)
파이썬에서 csv 파일을 읽는 방법

Pandas를 사용하여 CSV 파일 읽기

import pandas as pd
csv_data = pd.read_csv('birth_weight.csv')  # 读取训练数据
print(csv_data.shape)  # (189, 9)
N = 5
csv_batch_data = csv_data.tail(N)  # 取后5条数据
print(csv_batch_data.shape)  # (5, 9)
train_batch_data = csv_batch_data[list(range(3, 6))]  # 取这20条数据的3到5列值(索引从0开始)
print(train_batch_data)
#      RACE  SMOKE  PTL
# 184   0.0    0.0  0.0
# 185   0.0    0.0  1.0
# 186   0.0    1.0  0.0
# 187   0.0    0.0  0.0
# 188   0.0    0.0  1.0

Tensorflow를 사용하여 CSV 파일 읽기

#🎜 🎜# 저는 다양한 유형의 데이터를 처리하기 위해 주로 Tensorflow를 사용하므로, Tensorflow를 사용하여 데이터를 읽는 것에 대해서는 길게 설명하지 않겠습니다. 아래에 코드를 붙여넣겠습니다.

'''使用Tensorflow读取csv数据'''
filename = 'birth_weight.csv'
file_queue = tf.train.string_input_producer([filename])  # 设置文件名队列,这样做能够批量读取文件夹中的文件
reader = tf.TextLineReader(skip_header_lines=1)  # 使用tensorflow文本行阅读器,并且设置忽略第一行
key, value = reader.read(file_queue)
defaults = [[0.], [0.], [0.], [0.], [0.], [0.], [0.], [0.], [0.]]  # 设置列属性的数据格式
LOW, AGE, LWT, RACE, SMOKE, PTL, HT, UI, BWT = tf.decode_csv(value, defaults)
# 将读取的数据编码为我们设置的默认格式
vertor_example = tf.stack([AGE, LWT, RACE, SMOKE, PTL, HT, UI])  # 读取得到的中间7列属性为训练特征
vertor_label = tf.stack([BWT])  # 读取得到的BWT值表示训练标签
# 用于给取出的数据添加上batch_size维度,以批处理的方式读出数据。可以设置批处理数据大小,是否重复读取数据,容量大小,队列末尾大小,读取线程等属性。
example_batch, label_batch = tf.train.shuffle_batch([vertor_example, vertor_label], batch_size=10, capacity=100, min_after_dequeue=10)
# 初始化Session
with tf.Session() as sess:
    coord = tf.train.Coordinator()  # 线程管理器
    threads = tf.train.start_queue_runners(coord=coord)
    print(sess.run(tf.shape(example_batch)))  # [10  7]
    print(sess.run(tf.shape(label_batch)))  # [10  1]
    print(sess.run(example_batch)[3])  # [ 19.  91.   0.   1.   1.   0.   1.]
    coord.request_stop()
    coord.join(threads)
'''
对于使用所有Tensorflow的I/O操作来说开启和关闭线程管理器都是必要的操作
with tf.Session() as sess:
    coord = tf.train.Coordinator()  # 线程管理器
    threads = tf.train.start_queue_runners(coord=coord)
    #  Your code here~
    coord.request_stop()
    coord.join(threads)
'''

파이썬을 사용하여 파일을 읽는 다른 방법이 있습니다. 여기서는 세 가지를 소개하고 수시로 보완할 예정입니다.

위 내용은 파이썬에서 csv 파일을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.