Maison >développement back-end >Tutoriel Python >Comment identifier les différences entre deux dataframes en Python ?
Comparer deux dataframes pour identifier les différences
Pour comparer deux dataframes, df1 et df2, et déterminer les différences entre elles, les étapes suivantes peuvent être pris :
Comme le code fourni df1 != df2 n'est applicable qu'aux trames de données avec des lignes et des colonnes identiques, une approche alternative est nécessaire. La concaténation des deux dataframes en une seule dataframe, df, permettra une comparaison plus approfondie.
<code class="python">import pandas as pd df = pd.concat([df1, df2])</code>
Une fois concaténée, réinitialisez l'index de df pour éviter d'éventuels conflits d'index.
<code class="python">df = df.reset_index(drop=True)</code>
Regroupez le dataframe par chaque colonne pour identifier les enregistrements uniques.
<code class="python">df_gpby = df.groupby(list(df.columns))</code>
Extrayez l'index des enregistrements uniques, où la longueur du groupe est 1.
<code class="python">idx = [x[0] for x in df_gpby.groups.values() if len(x) == 1]</code>
Filtrez le dataframe en fonction sur l'index unique pour obtenir les différences entre df1 et df2.
<code class="python">result = df.reindex(idx)</code>
La trame de données résultante contiendra les lignes qui sont dans df2 mais pas dans df1.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!