如何在 Python 中使用 Pandas 获取所有重复项的列表
在处理数据集时,经常会遇到重复的条目。在这种情况下,您希望使用 Pandas 识别数据集中的所有重复项。
要实现此目的,您可以使用以下方法:
方法 1(使用以下命令打印所有行)重复 ID):
<code class="python">import pandas as pd # Read the CSV data into a DataFrame df = pd.read_csv("dup.csv") # Extract the "ID" column ids = df["ID"] # Create a new DataFrame with only the duplicate values duplicates = df[ids.isin(ids[ids.duplicated()])] # Sort the DataFrame by the "ID" column duplicates.sort_values("ID", inplace=True) # Print the duplicate values print(duplicates)</code>
方法 2(分组并连接重复组):
此方法组合重复组,从而得到简洁的表示重复项目的数量:
<code class="python"># Group the DataFrame by the "ID" column grouped = df.groupby("ID") # Filter the grouped DataFrame to include only groups with more than one row duplicates = [g for _, g in grouped if len(g) > 1] # Concatenate the duplicate groups into a new DataFrame duplicates = pd.concat(duplicates) # Print the duplicate values print(duplicates)</code>
使用方法 1 或方法 2,您可以成功获取数据集中所有重复项目的列表,以便您直观地检查它们并调查差异。
以上是如何在 Python 中识别和检索 Pandas DataFrame 中的重复项?的详细内容。更多信息请关注PHP中文网其他相关文章!