比较两个 DataFrame 时如何有效识别 Pandas DataFrame 中的唯一行？-Python教程-PHP中文网

首页

后端开发

Python教程

比较两个 DataFrame 时如何有效识别 Pandas DataFrame 中的唯一行？

Barbara Streisand

Dec 15, 2024 pm 09:07 PM

How to Efficiently Identify Unique Rows in Pandas DataFrames When Comparing Two DataFrames?

获取 Pandas DataFrame 中的唯一行

给定两个 Pandas 数据帧，通常需要识别仅存在于其中一个数据帧中的行。这可以通过利用合并操作来有效地实现。

例如，考虑以下数据帧：

df1 = pd.DataFrame(data={'col1': [1, 2, 3, 4, 5, 3], 'col2': [10, 11, 12, 13, 14, 10]})
df2 = pd.DataFrame(data={'col1': [1, 2, 3], 'col2': [10, 11, 12]})

要从 df1 获取 df2 中不存在的行，我们可以执行df1 和 df2 之间的左连接。为了确保 df1 中的每一行与 df2 中的一行完全匹配，我们需要首先从 df2 中删除重复的行。我们可以使用 drop_duplicates() 函数来做到这一点。

df_all = df1.merge(df2.drop_duplicates(), on=['col1', 'col2'], how='left', indicator=True)

生成的 df_all 数据帧将有一个名为 _merge 的附加列，指示每一行是否来自 df1 和 df2（“两者”），来自仅 df1（'left_only'），或仅来自 df2 ('right_only').

   col1  col2     _merge
0     1    10       both
1     2    11       both
2     3    12       both
3     4    13  left_only
4     5    14  left_only
5     3    10  left_only

要从 df1 中提取 df2 中不存在的行，我们只需选择 _merge 等于 'left_only' 的行即可：

rows_not_in_df2 = df_all[df_all['_merge'] == 'left_only']

   col1  col2
0     4    13
1     5    14
2     3    10

避免错误方法

重要的是要避免无法将行视为一个整体的错误解决方案。一些解决方案仅检查一行中的每个单独值是否存在于另一个数据框中，这可能会导致不正确的结果。

例如，如果我们向 df1 添加了另一行数据 [3, 10]，其中也存在于 df2 中，不正确的方法仍会将其识别为不存在于 df2 中，因为它在两列中具有不同的值。但是，我们的方法将正确地将其识别为不存在，因为它已经在 df2 中，并且两列的值相同。

以上是比较两个 DataFrame 时如何有效识别 Pandas DataFrame 中的唯一行？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

我如何使用美丽的汤来解析HTML？Mar 10, 2025 pm 06:54 PM

本文解释了如何使用美丽的汤库来解析html。它详细介绍了常见方法，例如find（），find_all（），select（）和get_text（），以用于数据提取，处理不同的HTML结构和错误以及替代方案（SEL）

Python中的数学模块：统计Mar 09, 2025 am 11:40 AM

Python的statistics模块提供强大的数据统计分析功能，帮助我们快速理解数据整体特征，例如生物统计学和商业分析等领域。无需逐个查看数据点，只需查看均值或方差等统计量，即可发现原始数据中可能被忽略的趋势和特征，并更轻松、有效地比较大型数据集。本教程将介绍如何计算平均值和衡量数据集的离散程度。除非另有说明，本模块中的所有函数都支持使用mean()函数计算平均值，而非简单的求和平均。也可使用浮点数。 import random import statistics from fracti

python对象的序列化和避难所化：第1部分Mar 08, 2025 am 09:39 AM

Python 对象的序列化和反序列化是任何非平凡程序的关键方面。如果您将某些内容保存到 Python 文件中，如果您读取配置文件，或者如果您响应 HTTP 请求，您都会进行对象序列化和反序列化。从某种意义上说，序列化和反序列化是世界上最无聊的事情。谁会在乎所有这些格式和协议？您想持久化或流式传输一些 Python 对象，并在以后完整地取回它们。这是一种在概念层面上看待世界的好方法。但是，在实际层面上，您选择的序列化方案、格式或协议可能会决定程序运行的速度、安全性、维护状态的自由度以及与其他系