Maison >développement back-end >Tutoriel Python >Comment puis-je regrouper efficacement une colonne Pandas à l'aide de Pandas.cut et NumPy.searchsorted ?

Comment puis-je regrouper efficacement une colonne Pandas à l'aide de Pandas.cut et NumPy.searchsorted ?

Barbara Streisandoriginal: 2024-12-09 11:17:041108parcourir

How Can I Effectively Bin a Pandas Column Using Pandas.cut and NumPy.searchsorted?

Regrouper une colonne Pandas

Le regroupement consiste à diviser une colonne de données continue en intervalles discrets pour analyser la distribution des données. Pour regrouper une colonne avec des valeurs numériques à l'aide de Pandas, nous pouvons explorer différentes méthodes.

Méthode Pandas.cut

Pandas fournit la fonction de coupe pour effectuer le regroupement. Il faut la série à regrouper et une liste de bords de bin comme arguments. Par défaut, il renvoie une colonne catégorielle avec des étiquettes de casier. Par exemple :

bins = [0, 1, 5, 10, 25, 50, 100]
df['binned'] = pd.cut(df['percentage'], bins)

Méthode NumPy.searchsorted

La fonction searchsorted de NumPy peut également être utilisée pour le regroupement. Il renvoie l'index du bac où se trouve chaque valeur de la série. Les valeurs résultantes peuvent ensuite être utilisées pour créer une catégorie regroupée :

df['binned'] = np.searchsorted(bins, df['percentage'].values)

Calcul du nombre de valeurs

Une fois la colonne regroupée créée, nous pouvons calculer le nombre de valeurs pour déterminer le nombre d'observations dans chaque bac. Ceci peut être réalisé en utilisant soit value_counts, soit groupby et global size :

s = pd.cut(df['percentage'], bins=bins).value_counts()

s = df.groupby(pd.cut(df['percentage'], bins=bins)).size()

En utilisant ces techniques, nous pouvons efficacement regrouper les colonnes de données numériques dans Pandas pour obtenir un aperçu de leur distribution.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

numpy pandas for using number function default this column

Déclaration：

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Article précédent：Comment les fonctions vectorisées de NumPy peuvent-elles justifier efficacement les tableaux ?Article suivant：Comment les fonctions vectorisées de NumPy peuvent-elles justifier efficacement les tableaux ?

Articles Liés

Voir plus