如何计算熊猫群体中的唯一值？-Python教程-PHP中文网

首页

后端开发

Python教程

如何计算熊猫群体中的唯一值？

Patricia Arquette

Oct 18, 2024 pm 03:52 PM

How to Count Unique Values in Groups with Pandas?

使用 Pandas 计算组中的唯一值

在处理包含分组到类别中的多个变量的数据集时，通常有必要确定数量与每个组相关的唯一值。 Pandas 是一种广泛使用的用于数据操作的 Python 库，它提供了多种方法来计算组内的唯一值。

一个常见的需求是计算每个域内唯一标识符的数量。给定一个包含 ID 和域列的数据框，我们寻求获得显示每个域的唯一 ID 计数的结果。

具体而言，考虑数据：

      ID   domain
0    123   vk.com
1    123   vk.com
2    123  twitter.com
3    456   vk.com
4    456  facebook.com
5    456   vk.com
6    456   google.com
7    789  twitter.com
8    789   vk.com

我们目标是实现以下输出：

domain  count
vk.com       3
twitter.com   2
facebook.com  1
google.com    1

为了实现这一点，我们可以在 Pandas groupby 操作中使用 nunique() 函数。通过按域列对数据框进行分组，然后将 nunique() 函数应用于 ID 列，我们可以获得每个域的唯一值的计数。生成的数据框将包含所需的结果：

df = df.groupby(['domain', 'ID']).nunique()

print(df)

但是，在某些情况下，数据可能包含域名中的单引号等字符。为了处理这种情况，我们可以利用 str.strip("'") 函数在分组和计数之前删除单引号。这可以实现为：

df = df.ID.groupby([df.domain.str.strip("'")]).nunique()

print(df)

或者，我们可以通过在 groupby 操作中链接 str.strip("'") 函数来简化代码：

df.groupby(df.domain.str.strip("'"))['ID'].nunique()

保留结果数据框中的域列，我们可以使用带有 as_index=False 参数的 agg() 函数：

df = df.groupby(by='domain', as_index=False).agg({'ID': pd.Series.nunique})

print(df)

此方法将返回一个包含域和计数列的数据框，其中 count表示与每个域关联的唯一 ID 的数量。

以上是如何计算熊猫群体中的唯一值？的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

您可以使用Python中的循环加入列表吗？May 10, 2025 am 12:14 AM

是的，YouCanconCatenatElistsusingAloopInpyThon.1）使用eparateLoopsForeachListToAppendIteMstoaresultList.2）useanestedlooptoiterateOverMultipliplipliplipliplipliplipliplipliplipliplistforamoreConciseApprace.3）

condenate列表python：使用，扩展（）等May 10, 2025 am 12:12 AM

ThemostefficientmethodsforconcatenatinglistsinPythonare:1)theextend()methodforin-placemodification,2)itertools.chain()formemoryefficiencywithlargedatasets.Theextend()methodmodifiestheoriginallist,makingitmemory-efficientbutrequirescautionifpreserving

Python循环：示例和最佳实践May 10, 2025 am 12:05 AM

pythonboopsincludeforandwhileloops，with forloopsidealforequencessand and whileloopsforcondition repetition.bestpracticesinvolve：1）使用listComprehensionsforshensionsforsimpletranspletransformations，2）obseringEnumerateForIndex-valuepairs，3）optingftingftingfortermornemoremoremoremore

Python的执行模型：编译，解释还是两者？May 10, 2025 am 12:04 AM

pythonisbothCompileDIntered。

Python是按线执行的吗？May 10, 2025 am 12:03 AM

Python不是严格的逐行执行，而是基于解释器的机制进行优化和条件执行。解释器将代码转换为字节码，由PVM执行，可能会预编译常量表达式或优化循环。理解这些机制有助于优化代码和提高效率。

python中两个列表的串联替代方案是什么？May 09, 2025 am 12:16 AM

可以使用多种方法在Python中连接两个列表：1.使用操作符，简单但在大列表中效率低；2.使用extend方法，效率高但会修改原列表；3.使用 =操作符，兼具效率和可读性；4.使用itertools.chain函数，内存效率高但需额外导入；5.使用列表解析，优雅但可能过于复杂。选择方法应根据代码上下文和需求。

Python：合并两个列表的有效方法May 09, 2025 am 12:15 AM

有多种方法可以合并Python列表：1.使用操作符，简单但对大列表不内存高效；2.使用extend方法，内存高效但会修改原列表；3.使用itertools.chain，适用于大数据集；4.使用*操作符，一行代码合并小到中型列表；5.使用numpy.concatenate，适用于大数据集和性能要求高的场景；6.使用append方法，适用于小列表但效率低。选择方法时需考虑列表大小和应用场景。

编译的与解释的语言：优点和缺点May 09, 2025 am 12:06 AM

CompiledLanguagesOffersPeedAndSecurity，而interneterpretledlanguages provideeaseafuseanDoctability.1）commiledlanguageslikec arefasterandSecureButhOnderDevevelmendeclementCyclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesclesandentency.2）cransportedeplatectentysenty

See all articles