DataFrame 的指数级缓慢串联
处理大型数据集时,通常将数据划分为较小的块以进行高效处理。然而,随着块数量的增加,将这些块重新连接在一起可能会变得指数级变慢。
速度变慢的原因
速度变慢归因于 pd.concat() 的方式已实施。当在循环中调用时,它会为每个串联创建一个新的 DataFrame,从而导致大量数据复制。这种复制成本随着迭代次数呈二次方增长,导致处理时间呈指数增长。
避免速度下降
要规避此性能瓶颈,至关重要以避免在 for 循环内调用 pd.concat() 。相反,将块存储在列表中,并在处理后立即将它们连接起来:
super_x = [] for i, df_chunk in enumerate(df_list): [x, y] = preprocess_data(df_chunk) super_x.append(x) super_x = pd.concat(super_x, axis=0)
使用这种方法,复制仅发生一次,从而显着减少总体处理时间。
以上是为什么连接许多 Pandas DataFrame 的速度呈指数级缓慢,我该如何避免它?的详细内容。更多信息请关注PHP中文网其他相关文章!