在大型 Pandas DataFrame 中取消嵌套(也称为爆炸)多个列表列可能是一项计算密集型任务,尤其是当数据集规模很大。为了应对这一挑战,我们探索了两种适合不同 Pandas 版本的有效方法。
对于 Pandas 1.3 及更高版本,DataFrame.explode 方法提供了一种简单的方法同时爆炸多个列。此方法要求所选列中的所有值都具有相同大小的列表。只需将列名称传递给explode方法,如下所示:
df.explode(['B', 'C', 'D', 'E']).reset_index(drop=True)
对于较旧的Pandas版本,我们可以在每列上使用Series.explode。我们首先将不应该分解的列设置为索引,然后在操作后重置索引。
df.set_index(['A']).apply(pd.Series.explode).reset_index()
两种方法都提供了高效的性能,如下所示大型数据集上的计时:
%timeit df2.explode(['B', 'C', 'D', 'E']).reset_index(drop=True) %timeit df2.set_index(['A']).apply(pd.Series.explode).reset_index() # Pandas >= 1.3 (fastest) 2.59 ms ± 112 µs per loop # Pandas >= 0.25 1.27 ms ± 239 µs per loop
通过利用这些有效的方法,我们可以有效地取消 Pandas 中多个列表列的嵌套任何大小的数据帧,实现无缝数据分析和操作。
以上是如何有效地解除 Pandas DataFrame 中多个列表列的嵌套?的详细内容。更多信息请关注PHP中文网其他相关文章!