首页 >后端开发 >Python教程 >如何使用'dtype”和'low_memory”选项优化 Pandas'read_csv”?

如何使用'dtype”和'low_memory”选项优化 Pandas'read_csv”?

Susan Sarandon
Susan Sarandon原创
2024-11-08 18:08:02374浏览

How to Optimize Pandas `read_csv` with `dtype` and `low_memory` Options?

Pandas read_csv: low_memory 和 dtype 选项

使用 pd.read_csv('somefile.csv') 时,您可能会遇到DtypeWarning 指示列具有混合类型。指定 dtype 选项可以防止此错误并提高性能。

了解 low_memory 选项

已弃用的 low_memory 选项实际上不会影响行为。但是,它与 dtype 选项相关,因为猜测每列的 dtypes 可能会占用大量内存。

防止数据不匹配

如果最后一行您的文件包含意外数据,指定数据类型可能会导致加载过程失败。例如,如果指定为整数的列包含类似“foobar”的字符串值,则加载将中断。

指定 dtypes

要避免此类错误,请显式读取 CSV 文件时指定 dtypes。使用 dtype 选项为每一列分配正确的数据类型,从而实现高效解析并减少内存消耗。

可用的 dtypes

Pandas 支持各种 dtypes,包括:

  • Numpy 类型:float、int、 bool, timedelta64[ns], datetime64[ns]
  • Pandas 扩展:

    • datetime64[ns, ](时区感知时间戳)
    • 类别(枚举)
    • 期间[](时间period)
    • 稀疏(有漏洞的数据)
    • 间隔(索引)
    • 可空整数(Int8、Int16、Int32、Int64、UInt8、UInt16、UInt32、UInt64)
    • 字符串(对于字符串操作)
    • 布尔值(可空布尔)

陷阱

  • 设置 dtype=object消除警告但不会增强记忆效率。
  • 设置 dtype=unicode 没有任何效果,因为 numpy 将 unicode 表示为对象。
  • 转换器可用于处理意外数据,但由于 Pandas 的单进程性质,它们效率低下。

以上是如何使用'dtype”和'low_memory”选项优化 Pandas'read_csv”?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn