使用工作流处理 Pandas 中的大型数据集
许多实际应用程序涉及的数据集太大而无法容纳在内存中。 Pandas 为有效处理此类数据提供了核外支持。本文讨论使用 Pandas 完成核心工作流程的最佳实践。
1.将平面文件加载到永久的磁盘数据库结构
使用 HDFStore 在磁盘上存储大型数据集。迭代文件并将它们附加到 HDFStore,使用逐块读取来避免内存问题。定义一个连接字段组和数据列的组图,以便以后高效选择。
2.查询数据库以检索数据
要检索 Pandas 数据结构的数据,请根据组映射从 HDFStore 中选择一个组。 (可选)指定所需的列或使用“where”应用过滤条件。
3.在 Pandas 中操作片段后更新数据库
通过对选定列执行操作来创建新列。要将这些新列添加到数据库中,请在 HDFStore 中创建一个新组并附加新列,确保数据列定义。
以上是Pandas 如何有效处理内存无法容纳的大型数据集?的详细内容。更多信息请关注PHP中文网其他相关文章!