Maison > Article > développement back-end > Comment compter les valeurs uniques regroupées par une colonne avec des pandas ?
Compter les valeurs uniques regroupées par une colonne spécifique est une tâche courante dans l'analyse des données. Pandas propose différentes méthodes pour y parvenir.
Dans votre cas, vous disposez d'un DataFrame avec des colonnes « ID » et « domaine » et devez compter les valeurs « ID » uniques pour chaque « domaine ».
Utilisation de df.groupby['domain', 'ID'].count()' :
Cette méthode renvoie un DataFrame avec des comptes pour les groupes 'ID' et 'domain' . Cependant, il compte le nombre de lignes dans chaque groupe, pas seulement les valeurs « ID » uniques.
Solution avec `nunique()' :
df.groupby ('domain')['ID'].nunique() calcule le nombre d'« ID » unique pour chaque groupe de « domaine ». Le DataFrame résultant aura la colonne « domaine » comme index et le nombre comme nouvelle colonne.
Suppression des guillemets simples :
Si votre colonne « domaine » contient guillemets simples, utilisez df.domain.str.strip("'") pour les supprimer avant le regroupement.
Conserver le nom de la colonne :
Pour conserver l'« ID » nom de la colonne dans le résultat, utilisez df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique}). Cela créera un DataFrame avec les colonnes « domaine » et « ID » (nombre unique).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!