Maison >développement back-end >Tutoriel Python >Comment compter efficacement les occurrences de termes dans les combinaisons de groupes ID dans un DataFrame Pandas ?
Vous devez regrouper la trame de données par les colonnes « id » et « group » et calculer le nombre de chacun valeur unique dans la colonne « terme » pour chaque paire unique de valeurs « id » et « groupe ». En d'autres termes, vous devez déterminer la fréquence à laquelle chaque terme apparaît dans chaque combinaison id-group.
Vous pouvez y parvenir en utilisant les fonctions groupby et size des pandas :
df.groupby(['id', 'group', 'term']).size().unstack(fill_value=0)
Cela produira une table avec l'identifiant et le groupe comme indices et le terme comme colonnes.
Cette méthode est très efficace, même pour les grands ensembles de données. Pour une trame de données de 1 000 000 de lignes, l'exécution du code ci-dessus ne prend que 6 secondes environ.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!