分割大型 Pandas DataFrame
考虑一个由 423244 行组成的大型 Pandas DataFrame。需要将此 DataFrame 分成四个相等的部分。但是,尝试使用 np.split(df, 4) 会抛出“ValueError:数组分割不会导致均分”错误。
要解决此问题,应使用 np.array_split。与np.split不同,np.array_split允许indices_or_sections是一个不产生等轴划分的整数。
<code class="python">import pandas as pd import numpy as np # Create a DataFrame df = pd.DataFrame({'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'], 'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'], 'C': np.random.randn(8), 'D': np.random.randn(8)}) # Split the DataFrame into three equal parts result = np.array_split(df, 3) # Print the results for i in range(len(result)): print(f"Part {i + 1}:") print(result[i]) print()</code>
此代码将把DataFrame分成三个近似相等的部分。零件数量可根据需要调整。
以上是如何将大型 Pandas DataFrame 分成相等的部分?的详细内容。更多信息请关注PHP中文网其他相关文章!