Maison  >  Article  >  développement back-end  >  Comment compter la fréquence des lignes identiques dans un DataFrame Pandas ?

Comment compter la fréquence des lignes identiques dans un DataFrame Pandas ?

Barbara Streisand
Barbara Streisandoriginal
2024-10-25 08:01:02466parcourir

How to Count the Frequency of Identical Rows in a Pandas DataFrame?

Obtenir un décompte de fréquence basé sur plusieurs colonnes de dataframe

Pour déterminer la fréquence à laquelle des lignes identiques apparaissent dans une dataframe, nous pouvons utiliser le groupby de Pandas fonction. Prenons l'exemple suivant :

data = {'Group': ['Short', 'Short', 'Moderate', 'Moderate', 'Tall'], 'Size': ['Small', 'Small', 'Medium', 'Small', 'Large']}
df = pd.DataFrame(data)

Nous pouvons calculer le nombre de fréquences de trois manières :

Option 1 :

dfg = df.groupby(by=["Group", "Size"]).size()

Cela produit une série avec le résultat suivant :

Group     Size
Moderate  Medium    1
          Small     1
Short     Small     2
Tall      Large     1
dtype: int64

Option 2 :

dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time")

Cela donne un DataFrame avec une colonne "Time" ajoutée :

      Group    Size  Time
0  Moderate  Medium     1
1  Moderate   Small     1
2     Short   Small     2
3      Tall   Large     1

Option 3 :

dfg = df.groupby(by=["Group", "Size"], as_index=False).size()

Cela produit également un DataFrame, équivalent à la sortie de l'option 2.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn