ホームページ >バックエンド開発 >Python チュートリアル >Python データ処理パンダでの読み取りおよび書き込み操作のための IO ツールとして CSV を使用する
pandas
IO
API
それpandas.read_csv()
などのトップレベルの reader
関数のセットで、pandas
オブジェクトを返します。
対応する writer
関数は、DataFrame.to_csv()
などのオブジェクト メソッドです。
注: StringIO
は後で使用します。必ず
# python3 from io import StringIO # python2 from StringIO import StringIO
テキスト ファイルを読み取るメイン関数isread_csv()
read_csv()
次の共通パラメータを受け入れます:
filepath_or_buffer
: 変数
には、ファイル パス、ファイル URL
、または read() を使用するものを指定できます。
関数オブジェクト
sep
: str
、デフォルト ,
、read_table
用これは \t
ファイル区切り文字です。None
に設定すると、C
エンジンは区切り文字を自動的に検出できません。および Python
エンジンは、組み込みのスニファー ツールを通じて自動的に区切り文字を検出できます。
さらに、設定された文字長が 1
より大きく、'\s '
でない場合、文字列は解析されます。正規表現として使用し、Python
解析エンジンの使用を強制します。
たとえば、'\\r\\t'
ですが、正規表現ではテキスト内の参照データが無視される傾向があります。
delimiter
: str
、デフォルトは None
sep
の代替パラメータ、機能は同じです
header
: int
または list
、デフォルトは 'infer'
列名として使用される行番号。デフォルトの動作は次のとおりです。列名を推測します:
names
パラメータが指定されていない場合、動作は header=0
と同様になります。つまり、最初の行から読んでください。
names
が設定されている場合、動作は header=None
と同じです。
header
のリストを設定して、複数レベルの列名を表すこともできます。たとえば、[0,1,3]
、未指定の行 (ここでは 2
) はスキップされます。skip_blank_lines=True
の場合、それらはスキップされます。空白行とコメント行。したがって、header=0
は、ファイル
names
: array-like
の最初の行を表しません。デフォルトは None
設定する必要がある列名のリストです。ファイルにヘッダー行が含まれていない場合、header=None
は明示的に渡す必要があり、このリストでは重複する値は許可されません。
index_col
: int
, str
, int/str
のシーケンス, False
、デフォルトは None
DataFrame
のインデックスとして使用される列。指定された文字列名または列インデックス。リストが指定されている場合は、MultiIndex
注: index_col=False
を使用すると、pandas
を強制的に無効にすることができます。 to 1 つの列がインデックスとして使用されます。たとえば、ファイルが各行の末尾に区切り文字がある不正なファイルである場合です。
usecols
: リストまたは関数、デフォルトは None
指定されたリストのみを読み取ります。リストの場合、すべての要素は位置指定 (つまり、ファイルの列への整数インデックス) であるか、names
パラメーターで指定された列名、またはドキュメントのヘッダー行から推測された列名と一致する文字列である必要があります。
リスト内の順序は無視されます。つまり、usecols=[0, 1]
は [1, 0]## と同等です。
True
In [1]: import pandas as pd In [2]: from io import StringIO In [3]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [4]: pd.read_csv(StringIO(data)) Out[4]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [5]: pd.read_csv(StringIO(data), usecols=lambda x: x.upper() in ["COL1", "COL3"]) Out[5]: col1 col3 0 a 1 1 a 2 2 c 3このパラメータを使用すると、解析時間が大幅に短縮され、メモリ使用量が削減されます。
squeeze:
boolean、デフォルトは
False
Series
str、デフォルトは
None## タイトルがない場合、自動生成された列番号にプレフィックスが追加されます (例: ##)。 #'X'
X1...
mangle_dupe_cols
True です
重复的列将被指定为 'X'
,'X.1'
…'X.N'
,而不是 'X'
... 。如果在列中有重复的名称,传递 False
将导致数据被覆盖
dtype
: 类型名或类型字典(column -> type
), 默认为 None
数据或列的数据类型。例如。 {'a':np.float64,'b':np.int32}
engine
: {'c', 'python'}
要使用的解析器引擎。C
引擎更快,而 Python
引擎目前功能更完整
converters
: dict
, 默认为 None
用于在某些列中对值进行转换的函数字典。键可以是整数,也可以是列名
true_values
: list
, 默认为 None
数据值解析为 True
false_values
: list
, 默认为 None
数据值解析为 False
skipinitialspace
: boolean
, 默认为 False
跳过分隔符之后的空格
skiprows
: 整数或整数列表, 默认为 None
在文件开头要跳过的行号(索引为 0
)或要跳过的行数
如果可调用函数,则对索引应用函数,如果返回 True
,则应跳过该行,否则返回 False
In [6]: data = "col1,col2,col3\na,b,1\na,b,2\nc,d,3" In [7]: pd.read_csv(StringIO(data)) Out[7]: col1 col2 col3 0 a b 1 1 a b 2 2 c d 3 In [8]: pd.read_csv(StringIO(data), skiprows=lambda x: x % 2 != 0) Out[8]: col1 col2 col3 0 a b 2
skipfooter
: int
, 默认为 0
需要跳过文件末尾的行数(不支持 C
引擎)
nrows
: int
, 默认为 None
要读取的文件行数,对于读取大文件很有用
memory_map
: boolean
, 默认为 False
如果为 filepath_or_buffer
参数指定了文件路径,则将文件对象直接映射到内存中,然后直接从那里访问数据。使用此选项可以提高性能,因为不再有任何 I/O
开销
na_values
: scalar
, str
, list-like
, dict
, 默认为 None
需要转换为 NA
值的字符串
keep_default_na
: boolean
, 默认为 True
解析数据时是否包含默认的 NaN
值。根据是否传入 na_values
,其行为如下
keep_default_na=True
, 且指定了 na_values
, na_values
将会与默认的 NaN
一起被解析
keep_default_na=True
, 且未指定 na_values
, 只解析默认的 NaN
keep_default_na=False
, 且指定了 na_values
, 只解析 na_values
指定的 NaN
keep_default_na=False
, 且未指定 na_values
, 字符串不会被解析为 NaN
注意:如果 na_filter=False
,那么 keep_default_na
和 na_values
参数将被忽略
na_filter
: boolean
, 默认为 True
检测缺失值标记(空字符串和 na_values
的值)。在没有任何 NA
的数据中,设置 na_filter=False
可以提高读取大文件的性能
skip_blank_lines
: boolean
, 默认为 True
如果为 True
,则跳过空行,而不是解释为 NaN
值
parse_dates
: 布尔值、列表或嵌套列表、字典, 默认为 False
.
如果为 True
-> 尝试解析索引
如果为 [1, 2, 3]
-> 尝试将 1, 2, 3
列解析为分隔的日期
如果为 [[1, 3]]
-> 将 1, 3
列解析为单个日期列
如果为 {'foo': [1, 3]}
-> 将 1, 3
列作为日期并设置列名为 foo
infer_datetime_format
: 布尔值, 默认为 False
如果设置为 True
且设置了 parse_dates
,则尝试推断 datetime
格式以加快处理速度
date_parser
: 函数, 默认为 None
用于将字符串序列转换为日期时间实例数组的函数。默认使用 dateutil.parser.parser
进行转换,pandas
将尝试以三种不同的方式调用 date_parser
传递一个或多个数组(parse_dates
定义的列)作为参数;
将 parse_dates
定义的列中的字符串值连接到单个数组中,并将其传递;
使用一个或多个字符串(对应于 parse_dates
定义的列)作为参数,对每一行调用 date_parser
一次。
dayfirst
: 布尔值, 默认为 False
DD/MM
格式的日期
cache_dates
: 布尔值, 默认为 True
如果为 True
,则使用唯一的、经过转换的日期缓存来应用 datetime
转换。
在解析重复的日期字符串,特别是带有时区偏移量的日期字符串时,可能会显著提高速度。
iterator
: boolean
, 默认为 False
返回 TextFileReader
对象以进行迭代或使用 get_chunk()
来获取块
compression
: {'infer', 'gzip', 'bz2', 'zip', 'xz', None, dict}
, 默认为 'infer'
用于对磁盘数据进行即时解压缩。如果为 "infer"
,则如果 filepath_or_buffer
是文件路径且以 ".gz"
,".bz2"
,".zip"
或 ".xz"
结尾,则分别使用 gzip
,bz2
,zip
或 xz
解压,否则不进行解压缩。
如果使用 "zip"
,则 ZIP
文件必须仅包含一个要读取的数据文件。设置为 None
表示不解压
也可以使用字典的方式,键为 method
的值从 {'zip', 'gzip', 'bz2'}
中选择。例如
compression={'method': 'gzip', 'compresslevel': 1, 'mtime': 1}
thousandsstr
, 默认为 None
数值在千位的分隔符
decimal
: str
, 默认为 '.'
小数点
float_precision
: string
, 默认为 None
指定 C
引擎应该使用哪个转换器来处理浮点值。普通转换器的选项为 None
,高精度转换器的选项为 high
,双向转换器的选项为 round_trip
。
quotechar
: str
(长度为 1
)
用于表示被引用数据的开始和结束的字符。带引号的数据里的分隔符将被忽略
comment
: str
, 默认为 None
用于跳过该字符开头的行,例如,如果 comment='#'
,将会跳过 #
开头的行
encoding
: str
, 默认为 None
设置编码格式
error_bad_linesboolean
, 默认为 True
默认情况下,字段太多的行(例如,带有太多逗号的 csv
文件)会引发异常,并且不会返回任何 DataFrame
。
如果设置为 False
,则这些坏行将会被删除
warn_bad_linesboolean
, 默认为 True
如果 error_bad_lines=False
且 warn_bad_lines=True
,每个坏行都会输出一个警告
您可以指示整个 DataFrame
或各列的数据类型
In [9]: import numpy as np In [10]: data = "a,b,c,d\n1,2,3,4\n5,6,7,8\n9,10,11" In [11]: print(data) a,b,c,d 1,2,3,4 5,6,7,8 9,10,11 In [12]: df = pd.read_csv(StringIO(data), dtype=object) In [13]: df Out[13]: a b c d 0 1 2 3 4 1 5 6 7 8 2 9 10 11 NaN In [14]: df["a"][0] Out[14]: '1' In [15]: df = pd.read_csv(StringIO(data), dtype={"b": object, "c": np.float64, "d": "Int64"}) In [16]: df.dtypes Out[16]: a int64 b object c float64 d Int64 dtype: object
你可以使用 read_csv()
的 converters
参数,统一某列的数据类型
In [17]: data = "col_1\n1\n2\n'A'\n4.22" In [18]: df = pd.read_csv(StringIO(data), converters={"col_1": str}) In [19]: df Out[19]: col_1 0 1 1 2 2 'A' 3 4.22 In [20]: df["col_1"].apply(type).value_counts() Out[20]: <class 'str'> 4 Name: col_1, dtype: int64
或者,您可以在读取数据后使用 to_numeric()
函数强制转换类型
In [21]: df2 = pd.read_csv(StringIO(data)) In [22]: df2["col_1"] = pd.to_numeric(df2["col_1"], errors="coerce") In [23]: df2 Out[23]: col_1 0 1.00 1 2.00 2 NaN 3 4.22 In [24]: df2["col_1"].apply(type).value_counts() Out[24]: <class 'float'> 4 Name: col_1, dtype: int64
它将所有有效的数值转换为浮点数,而将无效的解析为 NaN
最后,如何处理包含混合类型的列取决于你的具体需要。在上面的例子中,如果您只想要将异常的数据转换为 NaN
,那么 to_numeric()
可能是您的最佳选择。
然而,如果您想要强制转换所有数据,而无论类型如何,那么使用 read_csv()
的 converters
参数会更好
注意
在某些情况下,读取包含混合类型列的异常数据将导致数据集不一致。
如果您依赖 pandas
来推断列的类型,解析引擎将继续推断数据块的类型,而不是一次推断整个数据集。
In [25]: col_1 = list(range(500000)) + ["a", "b"] + list(range(500000)) In [26]: df = pd.DataFrame({"col_1": col_1}) In [27]: df.to_csv("foo.csv") In [28]: mixed_df = pd.read_csv("foo.csv") In [29]: mixed_df["col_1"].apply(type).value_counts() Out[29]: <class 'int'> 737858 <class 'str'> 262144 Name: col_1, dtype: int64 In [30]: mixed_df["col_1"].dtype Out[30]: dtype('O')
这就导致 mixed_df
对于列的某些块包含 int
类型,而对于其他块则包含 str
,这是由于读取的数据是混合类型。
以上がPython データ処理パンダでの読み取りおよび書き込み操作のための IO ツールとして CSV を使用するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。