ホームページ  >  記事  >  バックエンド開発  >  Pandas でドメインごとにグループ化された個別の値をカウントするにはどうすればよいですか?

Pandas でドメインごとにグループ化された個別の値をカウントするにはどうすればよいですか?

DDD
DDDオリジナル
2024-10-18 15:51:03416ブラウズ

How to Count Distinct Values Grouped by Domain in Pandas?

Pandas でドメインごとにグループ化された個別の値をカウントする

各ドメイン内の一意のユーザー ID を決定するには、Pandas の nunique() を利用できます。関数。この関数は、1 つ以上の他の列でグループ化された指定された列内の個別の値の数をカウントします。

この場合、データをドメインごとにグループ化し、nunique() を使用して ID 内の固有の値をカウントできます。列:

<code class="python">df.groupby('domain')['ID'].nunique()</code>

これにより、インデックスとしてドメイン、値として各ドメインの一意の ID の数を含むデータフレームが生成されます:

domain count
vk.com 3
twitter.com 2
facebook.com 1
google.com 1

ドメイン値に先頭がある場合または末尾の一重引用符 (') がある場合は、str.strip("'") メソッドを使用してグループ化する前にそれらを削除できます。

<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>

または、次を使用して出力データフレームにドメイン列名を保持することもできます。 as_index=False を指定した agg() 関数:

<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>

このアプローチでは、ドメイン列と、各ドメインの一意の ID の数を含む ID という名前の新しい列を含む DataFrame が返されます。

以上がPandas でドメインごとにグループ化された個別の値をカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明:
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。