首页 >后端开发 >Python教程 >创建 Pandas DataFrame 最有效的方法是什么?

创建 Pandas DataFrame 最有效的方法是什么?

Susan Sarandon
Susan Sarandon原创
2024-11-27 16:49:11821浏览

What's the Most Efficient Way to Create a Pandas DataFrame?

创建空 DataFrame:方法比较

创建空 pandas DataFrame 并逐渐填充它的传统方法可能效率低下且占用内存-密集的。更优化的方法是在列表中累积数据,必要时将其转换为DataFrame

列表累积的优点:

  • 内存效率:列表是轻量级数据结构,与相比,它消耗的内存更少DataFrames。
  • 性能:追加到列表比重复追加到DataFrame要快得多。
  • 自动数据类型推断:当列表转换为DataFrame,pandas会自动判断合适的数据
  • 自动创建索引: 自动为数据创建 RangeIndex,无需手动分配索引。

示例代码列表累积:

data = []
for row in some_function_that_yields_data():
    data.append(row)

df = pd.DataFrame(data)

注意应避免的方法:

  • 迭代追加到 DataFrame: 出于性能原因,避免在循环中使用 df.append 或 pd.concat。这种方法会导致二次复杂度运算。
  • 在循环中使用 loc:使用 df.loc[len(df)] 追加也会导致内存分配效率低下。
  • 空的 NaN DataFrame: 创建一个充满 NaN 的 DataFrame 可以创建对象列,这可能会阻碍

基准结果:

基准结果表明列表累积明显快于传统的迭代追加方法。随着 DataFrame 变大,时间差异变得更加明显。

以上是创建 Pandas DataFrame 最有效的方法是什么?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn