處理太大而無法放入記憶體的資料集時,核心外工作流程至關重要。在此背景下,我們探索使用 pandas 處理大數據的最佳實踐。
要有效管理大型資料集,請考慮以下最佳實務工作流程:
將平面檔案載入磁碟資料庫結構:
查詢資料庫以擷取資料Pandas 資料結構:
操作Pandas 中的片段後更新資料庫:
範例:
import pandas as pd # Group mappings for logical field grouping group_map = { "A": {"fields": ["field_1", "field_2"], "dc": ["field_1"]}, "B": {"fields": ["field_10"], "dc": ["field_10"]}, ... } # Iterate over flat files and append data to tables for file in files: chunk = pd.read_table(file, chunksize=50000) for group, info in group_map.items(): frame = chunk.reindex(columns=info["fields"], copy=False) store.append(group, frame, data_columns=info["dc"]) # Retrieve specific columns selected_columns = ["field_1", "field_10"] group_1 = "A" group_2 = "B" data = store.select_as_multiple([group_1, group_2], columns=selected_columns)
以上是Pandas 如何處理超出可用記憶體的大型資料集?的詳細內容。更多資訊請關注PHP中文網其他相關文章!