파이썬에서 csv 파일을 읽는 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

파이썬에서 csv 파일을 읽는 방법

步履不停

Jul 03, 2019 am 09:40 AM

csvpython

파이썬에서 csv 파일을 읽는 방법

Python은 csv 파일을 읽고 씁니다

머리말#🎜 🎜 #

쉼표로 구분된 값 (CSV, 구분 문자가 쉼표가 아닐 수도 있기 때문에 문자로 구분된 값이라고도 함), 해당 파일은 표 형식 데이터(숫자)를 저장합니다. ) 일반 텍스트 및 텍스트로). 일반 텍스트는 파일이 일련의 문자이며 이진수처럼 해석되어야 하는 데이터를 포함하지 않음을 의미합니다. CSV 파일은 일종의 개행 문자로 구분된 여러 개의 레코드로 구성됩니다. 각 레코드는 필드로 구성되며 필드 사이의 구분 기호는 다른 문자 또는 문자열(가장 일반적으로 쉼표 또는 탭)입니다. 일반적으로 모든 레코드는 정확히 동일한 필드 순서를 가지며, 숫자인 경우 수동으로 숫자로 변환해야 합니다.
행 단위로 데이터 읽기

The 열은 반자 쉼표 또는 탭으로 구분됩니다. 일반적으로 반자 쉼표#🎜 🎜# 일반적으로 각 줄의 시작 부분에는 공백이 없습니다. 첫 번째 줄은 속성 열 사이에 공백이 없습니다. 간격으로 구분 기호가 있는 데이터 열에는 행 사이에 빈 줄이 없습니다.

줄 사이에 빈 줄이 없는 것이 매우 중요합니다. 데이터 세트에서 빈 줄이 있거나 행 끝에 공백이 있으면 일반적으로 읽을 때 오류가 발생합니다. 데이터가 [목록 인덱스가 범위를 벗어났습니다.] 오류가 발생합니다. 추신: 저는 이 오류에 여러 번 속았습니다!

Python I/O를 사용하여 CSV 파일 쓰기 및 읽기

Python I/O를 사용하여 CSV 파일 쓰기#🎜 🎜#

다음은 작성자 소스에서 "birthweight.dat" 저출생체중 dat 파일을 다운로드 받아 가공하여 csv 파일로 저장하는 코드입니다.

import csv
import os
import numpy as np
import random
import requests
# name of data file
# 数据集名称
birth_weight_file = &#39;birth_weight.csv&#39;
# download data and create data file if file does not exist in current directory
# 如果当前文件夹下没有birth_weight.csv数据集则下载dat文件并生成csv文件
if not os.path.exists(birth_weight_file):
    birthdata_url = &#39;https://github.com/nfmcclure/tensorflow_cookbook/raw/master/01_Introduction/07_Working_with_Data_Sources/birthweight_data/birthweight.dat&#39;
    birth_file = requests.get(birthdata_url)
    birth_data = birth_file.text.split(&#39;\r\n&#39;)
    # split分割函数,以一行作为分割函数，windows中换行符号为&#39;\r\n&#39;,每一行后面都有一个&#39;\r\n&#39;符号。
    birth_header = birth_data[0].split(&#39;\t&#39;)
    # 每一列的标题，标在第一行，即是birth_data的第一个数据。并使用制表符作为划分。
    birth_data = [[float(x) for x in y.split(&#39;\t&#39;) if len(x) >= 1] for y in birth_data[1:] if len(y) >= 1]
    print(np.array(birth_data).shape)
    # (189, 9)
    # 此为list数据形式不是numpy数组不能使用np,shape函数,但是我们可以使用np.array函数将list对象转化为numpy数组后使用shape属性进行查看。
    with open(birth_weight_file, "w", newline=&#39;&#39;) as f:
    # with open(birth_weight_file, "w") as f:
        writer = csv.writer(f)
        writer.writerows([birth_header])
        writer.writerows(birth_data)
        f.close()

일반적인 실수 목록 색인이 범위를 벗어났습니다

우리가 해야 할 핵심 사항 f: 이 명령문은 open(birth_weight_file, "w", newline='')과 같습니다. csv 파일에 쓰는 것을 나타냅니다. newline='' 매개변수가 추가되지 않으면 공백을 개행 문자로 사용하는 것을 의미합니다. 대신 with open(birth_weight_file, "w")를 f: 문으로 사용하세요. 생성된 테이블에 빈 행이 나타납니다.

파이썬에서 csv 파일을 읽는 방법

python I/O를 사용하여 csv 데이터를 읽고 쓸 뿐만 아니라 다른 방법을 사용하여 csv 데이터를 읽고 쓰거나 인터넷에서 csv를 다운로드할 수도 있습니다. 각 데이터 세트 후에는 각 행 뒤에 공백이 있는지 또는 추가 빈 줄이 있는지 확인해야 합니다. 데이터 분석 중 판단에 영향을 미치는 불필요한 오류를 피하세요.

Python I/O를 사용하여 csv 파일 읽기

Python I/O 방법을 사용하여 읽을 때 새 목록을 만듭니다. 데이터는 행부터 열 순서로 빈 List 객체에 저장됩니다(C 언어의 2차원 배열과 유사). 이를 numpy 배열로 변환해야 하는 경우 np.array를 사용할 수도 있습니다. (목록 이름) 개체 간을 변환합니다.

birth_data = []
with open(birth_weight_file) as csvfile:
    csv_reader = csv.reader(csvfile)  # 使用csv.reader读取csvfile中的文件
    birth_header = next(csv_reader)  # 读取第一行每一列的标题
    for row in csv_reader:  # 将csv 文件中的数据保存到birth_data中
        birth_data.append(row)
birth_data = [[float(x) for x in row] for row in birth_data]  # 将数据从string形式转换为float形式
birth_data = np.array(birth_data)  # 将list数组转化成array数组便于查看数据结构
birth_header = np.array(birth_header)
print(birth_data.shape)  # 利用.shape查看结构。
print(birth_header.shape)
#
# (189, 9)
# (9,)

Pandas를 사용하여 CSV 파일 읽기

import pandas as pd
csv_data = pd.read_csv(&#39;birth_weight.csv&#39;)  # 读取训练数据
print(csv_data.shape)  # (189, 9)
N = 5
csv_batch_data = csv_data.tail(N)  # 取后5条数据
print(csv_batch_data.shape)  # (5, 9)
train_batch_data = csv_batch_data[list(range(3, 6))]  # 取这20条数据的3到5列值(索引从0开始)
print(train_batch_data)
#      RACE  SMOKE  PTL
# 184   0.0    0.0  0.0
# 185   0.0    0.0  1.0
# 186   0.0    1.0  0.0
# 187   0.0    0.0  0.0
# 188   0.0    0.0  1.0

Tensorflow를 사용하여 CSV 파일 읽기

#🎜 🎜# 저는 다양한 유형의 데이터를 처리하기 위해 주로 Tensorflow를 사용하므로, Tensorflow를 사용하여 데이터를 읽는 것에 대해서는 길게 설명하지 않겠습니다. 아래에 코드를 붙여넣겠습니다.

&#39;&#39;&#39;使用Tensorflow读取csv数据&#39;&#39;&#39;
filename = &#39;birth_weight.csv&#39;
file_queue = tf.train.string_input_producer([filename])  # 设置文件名队列，这样做能够批量读取文件夹中的文件
reader = tf.TextLineReader(skip_header_lines=1)  # 使用tensorflow文本行阅读器，并且设置忽略第一行
key, value = reader.read(file_queue)
defaults = [[0.], [0.], [0.], [0.], [0.], [0.], [0.], [0.], [0.]]  # 设置列属性的数据格式
LOW, AGE, LWT, RACE, SMOKE, PTL, HT, UI, BWT = tf.decode_csv(value, defaults)
# 将读取的数据编码为我们设置的默认格式
vertor_example = tf.stack([AGE, LWT, RACE, SMOKE, PTL, HT, UI])  # 读取得到的中间7列属性为训练特征
vertor_label = tf.stack([BWT])  # 读取得到的BWT值表示训练标签
# 用于给取出的数据添加上batch_size维度，以批处理的方式读出数据。可以设置批处理数据大小，是否重复读取数据，容量大小，队列末尾大小，读取线程等属性。
example_batch, label_batch = tf.train.shuffle_batch([vertor_example, vertor_label], batch_size=10, capacity=100, min_after_dequeue=10)
# 初始化Session
with tf.Session() as sess:
    coord = tf.train.Coordinator()  # 线程管理器
    threads = tf.train.start_queue_runners(coord=coord)
    print(sess.run(tf.shape(example_batch)))  # [10  7]
    print(sess.run(tf.shape(label_batch)))  # [10  1]
    print(sess.run(example_batch)[3])  # [ 19.  91.   0.   1.   1.   0.   1.]
    coord.request_stop()
    coord.join(threads)
&#39;&#39;&#39;
对于使用所有Tensorflow的I/O操作来说开启和关闭线程管理器都是必要的操作
with tf.Session() as sess:
    coord = tf.train.Coordinator()  # 线程管理器
    threads = tf.train.start_queue_runners(coord=coord)
    #  Your code here~
    coord.request_stop()
    coord.join(threads)
&#39;&#39;&#39;

파이썬을 사용하여 파일을 읽는 다른 방법이 있습니다. 여기서는 세 가지를 소개하고 수시로 보완할 예정입니다.

위 내용은 파이썬에서 csv 파일을 읽는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

파이썬 스크립트가 UNIX에서 실행되지 않는 일반적인 이유는 무엇입니까?Apr 28, 2025 am 12:18 AM

Python 스크립트가 UNIX 시스템에서 실행할 수없는 이유는 다음과 같습니다. 1) CHMOD XYOUR_SCRIPT.PY를 사용하여 실행 권한을 부여하는 권한이 불충분합니다. 2) 잘못되거나 누락 된 Shebang 라인은 #!/usr/bin/envpython을 사용해야합니다. 3) 잘못된 환경 변수 설정, os.environ 디버깅을 인쇄 할 수 있습니다. 4) 잘못된 Python 버전을 사용하여 Shebang 행 또는 명령 줄에 버전을 지정할 수 있습니다. 5) 가상 환경을 사용하여 종속성을 분리하는 의존성 문제; 6) 구문 오류, python-mpy_compileyour_script.py를 사용하여 감지하십시오.

파이썬 어레이를 사용하는 것이 목록을 사용하는 것보다 더 적절한 시나리오의 예를 제시하십시오.Apr 28, 2025 am 12:15 AM

파이썬 어레이를 사용하는 것은 목록보다 많은 양의 숫자 데이터를 처리하는 데 더 적합합니다. 1) 배열 더 많은 메모리를 저장, 2) 배열은 숫자 값으로 작동하는 것이 더 빠르며, 3) 배열 힘 유형 일관성, 4) 배열은 C 배열과 호환되지만 목록만큼 유연하고 편리하지 않습니다.

Python에서 목록 대 배열 사용의 성능은 무엇입니까?Apr 28, 2025 am 12:10 AM

더 나은 orfelexibility 및 mixdatatatatytys, 탁월한 정비 계산 모래 데이터 세트.

Numpy는 대형 배열의 메모리 관리를 어떻게 처리합니까?Apr 28, 2025 am 12:07 AM

numpymanagesmemoryforlargearraysefficiedviews, 사본 및 메모리-맵핑 파일

모듈 가져와 목록 또는 배열을 가져와야합니까?Apr 28, 2025 am 12:06 AM

ListSinpythondonoTrequireimportingAmodule, whilearraysfromtheArrayModuledOneedAnimport.1) ListSareBuilt-in, Versatile, andCanholdixedDatatypes.2) arraysarraysaremorememorememeMorememeMorememeMorememeMorememeMorememeMorememeMoremeMoremeTeverTopeTeveTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeTeveTeTeTeTeTeTeTeTete가 필요합니다.

파이썬 어레이에 어떤 데이터 유형을 저장할 수 있습니까?Apr 27, 2025 am 12:11 AM

PythonlistsCanstoreAnyDatAtype, ArrayModuLearRaysStoreOneType 및 NUMPYARRAYSAREFORNUMERICALPUTATION.1) LISTSAREVERSATILEBUTLESSMEMORY-EFFICENT.2) ARRAYMODUERRAYRAYRAYSARRYSARESARESARESARESARESARESAREDOREDORY-UNFICEDONOUNEOUSDATA.3) NumpyArraysUraysOrcepperperperperperperperperperperperperperperperferperferperferferpercient

파이썬 어레이에 잘못된 데이터 유형의 값을 저장하려고하면 어떻게됩니까?Apr 27, 2025 am 12:10 AM

whenyouattempttoreavalueofthewrongdatatypeinapythonaphonarray, thisiSdueTotheArrayModule의 stricttyPeenforcement, theAllElementStobeofthesAmetypecified bythetypecode.forperformancersassion, arraysaremoreficats the thraysaremoreficats thetheperfication the thraysaremorefications는

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까?Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

See all articles