Heim >Backend-Entwicklung >Python-Tutorial >Verwendung von CSV als E/A-Tool für Lese- und Schreibvorgänge in Python-Datenverarbeitungs-Pandas

Verwendung von CSV als E/A-Tool für Lese- und Schreibvorgänge in Python-Datenverarbeitungs-Pandas

王林nach vorne: 2023-05-08 16:10:181693Durchsuche

Vorwort

pandass IO API ist ein Satz von Readernder obersten Ebene > Funktionen. Beispielsweise gibt pandas.read_csv() ein pandas-Objekt zurück. pandas 的 IO API 是一组顶层的 reader 函数，比如 pandas.read_csv()，会返回一个 pandas 对象。

而相应的 writer 函数是对象方法，如 DataFrame.to_csv()。

注意：后面会用到 StringIO，请确保导入

# python3
from io import StringIO
# python2
from StringIO import StringIO

1 CSV 和文本文件

读取文本文件的主要函数是 read_csv()

1 参数解析

read_csv() 接受以下常用参数:

1.1 基础

filepath_or_buffer: 变量

可以是文件路径、文件 URL 或任何带有 read() 函数的对象

sep: str，默认 ,，对于 read_table 是 t

文件分隔符，如果设置为 None，则 C 引擎无法自动检测分隔符，而 Python 引擎可以通过内置的嗅探器工具自动检测分隔符。
此外，如果设置的字符长度大于 1，且不是 's+'，那么该字符串会被解析为正则表达式，且强制使用 Python 解析引擎。
例如 '\r\t'，但是正则表达式容易忽略文本中的引用数据。

delimiter: str, 默认为 None

sep 的替代参数，功能一致

1.2 列、索引、名称

header: int 或 list, 默认为 'infer'

用作列名的行号，默认行为是对列名进行推断：

如果未指定 names 参数其行为类似于 header=0，即从读取的第一行开始推断。
如果设置了 names，则行为与 header=None 相同。

也可以为 header 设置列表，表示多级列名。如 [0,1,3]，未指定的行（这里是 2）将会被跳过，如果 skip_blank_lines=True，则会跳过空行和注释的行。因此 header=0 并不是代表文件的第一行

names: array-like, 默认为 None

需要设置的列名列表，如果文件中不包含标题行，则应显式传递 header=None，且此列表中不允许有重复值。

index_col: int, str, sequence of int/str, False, 默认为 None

用作 DataFrame 的索引的列，可以字符串名称或列索引的形式给出。如果指定了列表，则使用 MultiIndex
注意：index_col=False 可用于强制 pandas 不要将第一列用作索引。例如，当您的文件是每行末尾都带有一个分隔符的错误文件时。

usecols: 列表或函数, 默认为 None

只读取指定的列。如果是列表，则所有元素都必须是位置（即文件列中的整数索引）或字符串，这些字符串必须与 names 参数提供的或从文档标题行推断出的列名相对应。
列表中的顺序会被忽略，即 usecols=[0, 1] 等价于 [1, 0]
如果是可调用函数，将会根据列名计算，返回可调用函数计算为 True 的名称

In [1]: import pandas as pd
In [2]: from io import StringIO
In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [4]: pd.read_csv(StringIO(data))
Out[4]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"])
Out[5]: 
  col1  col3
0    a     1
1    a     2
2    c     3

使用此参数可以大大加快解析时间并降低内存使用

squeeze: boolean, 默认为 False

如果解析的数据只包含一列，那么返回一个 Series

prefix: str, 默认为 None

当没有标题时，添加到自动生成的列号的前缀，例如 'X' 表示 X0, X1...

mangle_dupe_cols: boolean, 默认为 True

Die entsprechende writer-Funktion ist eine Objektmethode, wie zum Beispiel DataFrame.to_csv(). 🎜🎜Hinweis: StringIO wird später verwendet. Bitte stellen Sie sicher, dass Sie 🎜

In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3"
In [7]: pd.read_csv(StringIO(data))
Out[7]: 
  col1 col2  col3
0    a    b     1
1    a    b     2
2    c    d     3
In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0)
Out[8]: 
  col1 col2  col3
0    a    b     2

🎜1 CSV- und Textdateien importieren. 🎜🎜Die Hauptfunktion zum Lesen von Textdateien ist read_csv() 🎜1 Parameteranalyse🎜read_csv() akzeptiert die folgenden allgemeinen Parameter:🎜

1.1 Grundlagen

🎜filepath_or_buffer: Variable🎜

🎜Kann ein Dateipfad, eine Datei-URL oder ein beliebiges Objekt mit einer read()-Funktion sein🎜 li>🎜 🎜sep: str, Standard ,, für read_table ist es t🎜
- 🎜Dateitrennzeichen, wenn es auf Keine eingestellt ist, kann die C-Engine das Trennzeichen nicht automatisch erkennen Die Python-Engine kann Trennzeichen mithilfe des integrierten Sniffer-Tools automatisch erkennen. 🎜
- 🎜Wenn außerdem die festgelegte Zeichenlänge größer als 1 ist und nicht 's+' ist, wird die Zeichenfolge als geparst regulärer Ausdruck und die Verwendung der Python-Parsing-Engine wird erzwungen. 🎜
- 🎜Zum Beispiel '\r\t', aber reguläre Ausdrücke neigen dazu, Referenzdaten im Text zu ignorieren. 🎜

Das obige ist der detaillierte Inhalt vonVerwendung von CSV als E/A-Tool für Lese- und Schreibvorgänge in Python-Datenverarbeitungs-Pandas. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Python 正则表达式 pandas 数据类型 String Boolean Array 字符串 int 对象 column

Stellungnahme：

Dieser Artikel ist reproduziert unter:yisu.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen

Vorheriger Artikel：So implementieren Sie das Python-Sprachsynthese-GadgetNächster Artikel：So implementieren Sie das Python-Sprachsynthese-Gadget

In Verbindung stehende Artikel

Mehr sehen

Verwendung von CSV als E/A-Tool für Lese- und Schreibvorgänge in Python-Datenverarbeitungs-Pandas

Vorwort

1 CSV 和文本文件

1 参数解析

1.1 基础

1.2 列、索引、名称

1.1 Grundlagen

1.2 Spalte, Index, Name

1.3 常规解析配置

1.4 NA 和缺失数据处理

1.5 日期时间处理

1.6 迭代

1.7 引用、压缩和文件格式

1.8 错误处理

2. 指定数据列的类型

In Verbindung stehende Artikel