집 >백엔드 개발 >파이썬 튜토리얼 >Python 데이터 처리 팬더에서 읽기 및 쓰기 작업을 위한 IO 도구로 CSV 사용

Python 데이터 처리 팬더에서 읽기 및 쓰기 작업을 위한 IO 도구로 CSV 사용

王林앞으로: 2023-05-08 16:10:181729검색

Preface

pandas의 IO API는 최상위 reader세트입니다. > 함수. 예를 들어 pandas.read_csv()는 pandas 객체를 반환합니다. pandas 的 IO API 是一组顶层的 reader 函数，比如 pandas.read_csv()，会返回一个 pandas 对象。

而相应的 writer 函数是对象方法，如 DataFrame.to_csv()。

注意：后面会用到 StringIO，请确保导入

# python3
from io import StringIO
# python2
from StringIO import StringIO

1 CSV 和文本文件

读取文本文件的主要函数是 read_csv()

1 参数解析

read_csv() 接受以下常用参数:

1.1 基础

filepath_or_buffer: 变量

可以是文件路径、文件 URL 或任何带有 read() 函数的对象

sep: str，默认 ,，对于 read_table 是 t

文件分隔符，如果设置为 None，则 C 引擎无法自动检测分隔符，而 Python 引擎可以通过内置的嗅探器工具自动检测分隔符。
此外，如果设置的字符长度大于 1，且不是 's+'，那么该字符串会被解析为正则表达式，且强制使用 Python 解析引擎。
例如 '\r\t'，但是正则表达式容易忽略文本中的引用数据。

delimiter: str, 默认为 None

sep 的替代参数，功能一致

1.2 列、索引、名称

header: int 或 list, 默认为 'infer'

用作列名的行号，默认行为是对列名进行推断：

如果未指定 names 参数其行为类似于 header=0，即从读取的第一行开始推断。
如果设置了 names，则行为与 header=None 相同。

也可以为 header 设置列表，表示多级列名。如 [0,1,3]，未指定的行（这里是 2）将会被跳过，如果 skip_blank_lines=True，则会跳过空行和注释的行。因此 header=0 并不是代表文件的第一行

names: array-like, 默认为 None

需要设置的列名列表，如果文件中不包含标题行，则应显式传递 header=None，且此列表中不允许有重复值。

index_col: int, str, sequence of int/str, False, 默认为 None

用作 DataFrame 的索引的列，可以字符串名称或列索引的形式给出。如果指定了列表，则使用 MultiIndex
注意：index_col=False 可用于强制 pandas 不要将第一列用作索引。例如，当您的文件是每行末尾都带有一个分隔符的错误文件时。

usecols: 列表或函数, 默认为 None

只读取指定的列。如果是列表，则所有元素都必须是位置（即文件列中的整数索引）或字符串，这些字符串必须与 names 参数提供的或从文档标题行推断出的列名相对应。
列表中的顺序会被忽略，即 usecols=[0, 1] 等价于 [1, 0]
如果是可调用函数，将会根据列名计算，返回可调用函数计算为 True 的名称

In [1]: import pandas as pd
In [2]: from io import StringIO
In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [4]: pd.read_csv(StringIO(data))
Out[4]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])
Out[5]: 
  col1  col3
0    a     1
1    a     2
2    c     3

使用此参数可以大大加快解析时间并降低内存使用

squeeze: boolean, 默认为 False

如果解析的数据只包含一列，那么返回一个 Series

prefix: str, 默认为 None

当没有标题时，添加到自动生成的列号的前缀，例如 'X' 表示 X0, X1...

mangle_dupe_cols: boolean, 默认为 True

해당 writer 함수는 DataFrame.to_csv()와 같은 객체 메서드입니다. 🎜🎜참고: StringIO는 나중에 사용됩니다. 🎜

In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [7]: pd.read_csv(StringIO(data))
Out[7]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)
Out[8]: 
  col1 col2  col3
0    a    b     2

🎜1개의 CSV 및 텍스트 파일을 가져와야 합니다. 🎜🎜텍스트 파일을 읽는 주요 기능은 read_csv()입니다. 🎜1 매개변수 분석🎜read_csv()는 다음과 같은 공통 매개변수를 허용합니다.🎜

1.1 기본

🎜filepath_or_buffer: 변수🎜

🎜파일 경로, 파일 URL 또는 read() 함수가 있는 모든 개체가 될 수 있습니다🎜 li>🎜 🎜sep: str, 기본값 ,, read_table의 경우 t🎜
- 🎜파일 구분 기호, None으로 설정하면 C 엔진이 자동으로 구분 기호를 감지할 수 없습니다. Python 엔진은 내장된 스니퍼 도구를 통해 구분 기호를 자동으로 감지할 수 있습니다. 🎜
- 🎜또한 설정된 문자 길이가 1보다 크고 's+'가 아닌 경우 문자열은 다음과 같이 구문 분석됩니다. 정규 표현식 및 Python 구문 분석 엔진이 강제로 사용됩니다. 🎜
- 🎜예를 들어 '\r\t'이지만 정규 표현식은 텍스트의 참조 데이터를 무시하는 경향이 있습니다. 🎜

위 내용은 Python 데이터 처리 팬더에서 읽기 및 쓰기 작업을 위한 IO 도구로 CSV 사용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python 正则表达式 pandas 数据类型 String Boolean Array 字符串 int 对象 column

성명：

이 기사는 yisu.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제

이전 기사：Python 음성 합성 가젯을 구현하는 방법다음 기사：Python 음성 합성 가젯을 구현하는 방법

Python 데이터 처리 팬더에서 읽기 및 쓰기 작업을 위한 IO 도구로 CSV 사용

Preface

1 CSV 和文本文件

1 参数解析

1.1 基础

1.2 列、索引、名称

1.1 기본

1.2 열, 인덱스, 이름

1.3 常规解析配置

1.4 NA 和缺失数据处理

1.5 日期时间处理

1.6 迭代

1.7 引用、压缩和文件格式

1.8 错误处理

2. 指定数据列的类型

관련 기사