Maison  >  Article  >  développement back-end  >  Comment compter les valeurs distinctes regroupées par domaine dans Pandas ?

Comment compter les valeurs distinctes regroupées par domaine dans Pandas ?

DDD
DDDoriginal
2024-10-18 15:51:03415parcourir

How to Count Distinct Values Grouped by Domain in Pandas?

Comptage des valeurs distinctes regroupées par domaine dans Pandas

Pour déterminer les ID utilisateur uniques au sein de chaque domaine, vous pouvez utiliser la nunique() de Pandas fonction. Cette fonction compte le nombre de valeurs distinctes dans une colonne spécifiée regroupées par une ou plusieurs autres colonnes.

Dans votre cas, vous pouvez regrouper les données par domaine et utiliser nunique() pour compter les valeurs uniques dans l'ID column :

<code class="python">df.groupby('domain')['ID'].nunique()</code>

Cela produira un DataFrame avec les domaines comme index et le nombre d'identifiants uniques pour chaque domaine comme valeurs :

domain count
vk.com 3
twitter.com 2
facebook.com 1
google.com 1

Si les valeurs de votre domaine sont en tête ou des guillemets simples de fin ('), vous pouvez les supprimer avant de les regrouper à l'aide de la méthode str.strip("'") :

<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>

Vous pouvez également conserver le nom de la colonne de domaine dans le DataFrame de sortie en utilisant la fonction agg() avec as_index=False :

<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>

Cette approche renvoie un DataFrame avec la colonne de domaine et une nouvelle colonne nommée ID qui contient le nombre d'identifiants uniques pour chaque domaine.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration:
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn