使用自定义的 bin 和值计数对 pandas 列进行分组
处理数值数据时,将值分组到 bin 中通常很有用检测模式或趋势。这个过程称为分箱,可以使用 pandas 库轻松执行。
要对列进行分箱,您可以使用 pandas.cut 函数。以下是它在您提供的示例中的工作原理:
bins = [0, 1, 5, 10, 25, 50, 100] df['binned'] = pd.cut(df['percentage'], bins)
此代码在您的 DataFrame 中创建一个名为 binned 的新列。此列中的每个值代表百分比列中相应数值所属的 bin。 bins 参数指定 bin 的边界。
要可视化值在 bin 之间的分布,可以使用 value_counts 函数:
df['binned'].value_counts()
此代码将返回出现的次数每个 bin 的值,有效地提供 bin 的值计数。
例如,如果您有以下内容数据:
df['percentage'].head() 46.5 44.2 100.0 42.12
并且您使用以下容器:
bins = [0, 1, 5, 10, 25, 50, 100]
df['binned'].value_counts() 的输出将是:
(25, 50] 3 (50, 100] 1
这意味着三个值落在 bin (25, 50] 内,一个值落在 bin (50, 100].
以上是如何使用自定义 Bin 来对 Pandas 列进行 Bin 并获取值计数?的详细内容。更多信息请关注PHP中文网其他相关文章!