首页 >后端开发 >Python教程 >Pandas 如何处理超出可用内存的大型数据集?

Pandas 如何处理超出可用内存的大型数据集?

Linda Hamilton
Linda Hamilton原创
2024-12-10 19:49:11709浏览

How Can Pandas Handle Large Datasets That Exceed Available Memory?

使用 Pandas 的大数据工作流程

处理太大而无法放入内存的数据集时,核心外工作流程至关重要。在此背景下,我们探索使用 pandas 处理大数据的最佳实践。

要有效管理大型数据集,请考虑以下最佳实践工作流程:

  1. 将平面文件加载到磁盘数据库结构中:

    • 利用 HDFStore以结构化格式在磁盘上存储大型数据集。
    • 定义组映射以根据字段分组组织表。
    • 将数据分组附加到每个表,确保定义数据列以实现快速行子集。
  2. 查询数据库以检索数据Pandas 数据结构:

    • 选择特定字段分组以高效检索数据。
    • 使用函数从多个表中无缝选择和连接数据。
    • 在数据列上创建索引以改进行子集设置
  3. 操作 Pandas 中的片段后更新数据库:

    • 创建新组来存储从中创建的新列数据操作。
    • 确保 data_columns 在 new 中正确定义组。
    • 启用压缩以最小化存储空间。

示例:

import pandas as pd

# Group mappings for logical field grouping
group_map = {
    "A": {"fields": ["field_1", "field_2"], "dc": ["field_1"]},
    "B": {"fields": ["field_10"], "dc": ["field_10"]},
    ...
}

# Iterate over flat files and append data to tables
for file in files:
    chunk = pd.read_table(file, chunksize=50000)
    for group, info in group_map.items():
        frame = chunk.reindex(columns=info["fields"], copy=False)
        store.append(group, frame, data_columns=info["dc"])

# Retrieve specific columns
selected_columns = ["field_1", "field_10"]
group_1 = "A"
group_2 = "B"
data = store.select_as_multiple([group_1, group_2], columns=selected_columns)

以上是Pandas 如何处理超出可用内存的大型数据集?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn