ホームページ >バックエンド開発 >Python チュートリアル >Pandas でドメインごとにグループ化された個別の値をカウントするにはどうすればよいですか?
Pandas でドメインごとにグループ化された個別の値をカウントする
各ドメイン内の一意のユーザー ID を決定するには、Pandas の nunique() を利用できます。関数。この関数は、1 つ以上の他の列でグループ化された指定された列内の個別の値の数をカウントします。
この場合、データをドメインごとにグループ化し、nunique() を使用して ID 内の固有の値をカウントできます。列:
<code class="python">df.groupby('domain')['ID'].nunique()</code>
これにより、インデックスとしてドメイン、値として各ドメインの一意の ID の数を含むデータフレームが生成されます:
domain | count |
---|---|
vk.com | 3 |
twitter.com | 2 |
facebook.com | 1 |
google.com | 1 |
ドメイン値に先頭がある場合または末尾の一重引用符 (') がある場合は、str.strip("'") メソッドを使用してグループ化する前にそれらを削除できます。
<code class="python">df.groupby(df.domain.str.strip("'"))['ID'].nunique()</code>
または、次を使用して出力データフレームにドメイン列名を保持することもできます。 as_index=False を指定した agg() 関数:
<code class="python">df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})</code>
このアプローチでは、ドメイン列と、各ドメインの一意の ID の数を含む ID という名前の新しい列を含む DataFrame が返されます。
以上がPandas でドメインごとにグループ化された個別の値をカウントするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。