如何在 Python 中使用 Pandas 提取重复项的综合列表?
可能会遇到数据集包含以下内容的情况:潜在的出口问题,导致重复的项目。识别这些重复项对于进一步的手动比较至关重要。但是,默认的 pandas 重复方法仅返回重复项的第一个实例。
方法 1:打印具有重复 ID 的所有行
使用此方法,您可以识别并打印 ID 与重复系列中任何 ID 匹配的所有行。
<code class="python">import pandas as pd df = pd.read_csv("dup.csv") ids = df["ID"] df[ids.isin(ids[ids.duplicated()])].sort_values("ID")</code>
方法 2:按 ID 分组
或者,您可以将dataframe 的 ID 列,并将具有多于一行的组连接到一个新的 dataframe 中。
<code class="python">pd.concat(g for _, g in df.groupby("ID") if len(g) > 1)</code>
以上是以下是一些基于问题的标题,它们抓住了文章的精髓: **简短而有力:** * **如何查找 Pandas 中的所有重复行?** * **提取 Pandas 数据中的每个重复项的详细内容。更多信息请关注PHP中文网其他相关文章!