Maison >développement back-end >Tutoriel Python >Comment puis-je compter la fréquence des lignes identiques dans un DataFrame pandas basé sur plusieurs colonnes ?
Obtenir le nombre de fréquences à partir de plusieurs colonnes de trames de données
Pour déterminer la fréquence des lignes identiques dans une trame de données, vous pouvez utiliser la méthode groupby() avec la fonction size(). Cette technique vous permet de compter les occurrences de combinaisons uniques de valeurs sur plusieurs colonnes.
Considérez le dataframe suivant :
Group | Size | ---------+------+ Short | Small | Short | Small | Moderate | Medium | Moderate | Small | Tall | Large |
Pour compter la fréquence de chaque ligne, nous pouvons regrouper le dataframe par les colonnes "Groupe" et "Taille" et utilisez la fonction size() pour déterminer le nombre de fois que chaque ligne apparaît :
<code class="python">import pandas as pd # Load the sample data data = {'Group': ['Short', 'Short', 'Moderate', 'Moderate', 'Tall'], 'Size': ['Small', 'Small', 'Medium', 'Small', 'Large']} df = pd.DataFrame(data) # Option 1: dfg = df.groupby(by=["Group", "Size"]).size() # Option 2: Reset the index to convert the Series to a DataFrame dfg = df.groupby(by=["Group", "Size"]).size().reset_index(name="Time") # Option 3: Use as_index=False to create a DataFrame without an index dfg = df.groupby(by=["Group", "Size"], as_index=False).size()</code>
Les trames de données résultantes fourniront le nombre de fréquences pour chaque combinaison de "Groupe" " et "Taille". Par exemple, le résultat peut apparaître comme suit :
Group | Size | Time --------+------+------ Moderate | Medium | 1 Moderate | Small | 1 Short | Small | 2 Tall | Large | 1
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!