首页 >后端开发 >Python教程 >如何基于公共列高效合并多个 Pandas DataFrame?

如何基于公共列高效合并多个 Pandas DataFrame?

Barbara Streisand
Barbara Streisand原创
2024-11-25 15:25:16893浏览

How to Efficiently Merge Multiple Pandas DataFrames Based on a Common Column?

通过三向联接合并 Pandas 中列上的多个 DataFrame

数据合并是数据分析中的一项基本任务,允许您将来自多个来源的数据。在 Pandas 中, join() 函数是合并数据帧的强大工具。但是,在连接多个数据帧时,您可能会遇到与分层索引方案相关的挑战。

使用公共列的三向连接

考虑您有三个数据帧的场景CSV 文件,每个文件都包含有关同一组人员的信息。每个文件中的第一列是人员的姓名,而后续列代表他们的属性。您的目标是将这些文件合并到一个 CSV 中,每行包含每个独特人员的所有属性。

分层索引和多索引

在 Pandas 中,多索引是指每个索引级别代表不同列的索引方案。连接数据帧时,使用多索引根据共享值对齐数据。在您的情况下,“join”函数可能会指定您需要多索引,因为您要连接单个列(名称),这是每个数据帧中的索引。

合并数据帧而不需要分层索引

但是,某些场景可能不需要分层索引。如果数据帧具有公共列,则可以使用 lambda 函数和 functools 包来简化合并过程。这是一个示例:

import pandas as pd
import functools as ft

dfs = [df1, df2, df3, ..., dfN]

df_final = ft.reduce(lambda left, right: pd.merge(left, right, on='name'), dfs)

在此代码中:

  • dfs 是包含要合并的数据帧的列表。
  • ft.reduce 应用 lambda 函数对于每对数据帧,根据“名称”合并它们
  • df_final 是生成的数据帧,包含每个唯一人员的所有属性。

这种方法可以方便地合并多个数据帧,而无需指定复杂的分层索引方案。

以上是如何基于公共列高效合并多个 Pandas DataFrame?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn