pandas获取groupby分组里最大值所在的行方法-php教程-PHP中文网

首页

后端开发

php教程

pandas获取groupby分组里最大值所在的行方法

不言

Apr 20, 2018 pm 01:38 PM

groupbypandas最大值

下面为大家分享一篇pandas获取groupby分组里最大值所在的行方法，具有很好的参考价值，希望对大家有所帮助。一起过来看看吧

pandas获取groupby分组里最大值所在的行方法

如下面这个DataFrame,按照Mt分组，取出Count最大的那行

import pandas as pd
df = pd.DataFrame({&#39;Sp&#39;:[&#39;a&#39;,&#39;b&#39;,&#39;c&#39;,&#39;d&#39;,&#39;e&#39;,&#39;f&#39;], &#39;Mt&#39;:[&#39;s1&#39;, &#39;s1&#39;, &#39;s2&#39;,&#39;s2&#39;,&#39;s2&#39;,&#39;s3&#39;], &#39;Value&#39;:[1,2,3,4,5,6], &#39;Count&#39;:[3,2,5,10,10,6]})

df

	Count	Mt	Sp	Value
0	3	s1	a	1
1	2	s1	b	2
2	5	s2	c	3
3	10	s2	d	4
4	10	s2	e	5
5	6	s3	f	6

方法1：在分组中过滤出Count最大的行

df.groupby(&#39;Mt&#39;).apply(lambda t: t[t.Count==t.Count.max()])

		Count	Mt	Sp	Value
Mt
s1	0	3	s1	a	1
s2	3	10	s2	d	4
s2	4	10	s2	e	5
s3	5	6	s3	f	6

方法2：用transform获取原dataframe的index，然后过滤出需要的行

print df.groupby([&#39;Mt&#39;])[&#39;Count&#39;].agg(max)

idx=df.groupby([&#39;Mt&#39;])[&#39;Count&#39;].transform(max)
print idx
idx1 = idx == df[&#39;Count&#39;]
print idx1

df[idx1]

Mt
s1 3
s2 10
s3 6
Name: Count, dtype: int64
0 3
1 3
2 10
3 10
4 10
5 6
dtype: int64
0 True
1 False
2 False
3 True
4 True
5 True
dtype: bool

	Count	Mt	Sp	Value
0	3	s1	a	1
3	10	s2	d	4
4	10	s2	e	5
5	6	s3	f	6

上面的方法都有个问题是3、4行的值都是最大值，这样返回了多行，如果只要返回一行呢？

方法3：idmax（旧版本pandas是argmax）

idx = df.groupby(&#39;Mt&#39;)[&#39;Count&#39;].idxmax()
print idx

df.iloc[idx]
Mt
s1 0
s2 3
s3 5
Name: Count, dtype: int64

	Count	Mt	Sp	Value
0	3	s1	a	1
3	10	s2	d	4
5	6	s3	f	6

df.iloc[df.groupby([&#39;Mt&#39;]).apply(lambda x: x[&#39;Count&#39;].idxmax())]

	Count	Mt	Sp	Value
0	3	s1	a	1
3	10	s2	d	4
5	6	s3	f	6

def using_apply(df):
 return (df.groupby(&#39;Mt&#39;).apply(lambda subf: subf[&#39;Value&#39;][subf[&#39;Count&#39;].idxmax()]))

def using_idxmax_loc(df):
 idx = df.groupby(&#39;Mt&#39;)[&#39;Count&#39;].idxmax()
 return df.loc[idx, [&#39;Mt&#39;, &#39;Value&#39;]]

print using_apply(df)

using_idxmax_loc(df)

Mt
s1 1
s2 4
s3 6
dtype: int64

	Mt	Value
0	s1	1
3	s2	4
5	s3	6

方法4:先排好序，然后每组取第一个

df.sort(&#39;Count&#39;, ascending=False).groupby(&#39;Mt&#39;, as_index=False).first()

	Mt	Count	Sp	Value
0	s1	3	a	1
1	s2	10	d	4
2	s3	6	f	6

那问题又来了，如果不是要取出最大值所在的行，比如要中间值所在的那行呢？

思路还是类似，可能具体写法上要做一些修改，比如方法1和2要修改max算法，方法3要自己实现一个返回index的方法。不管怎样，groupby之后，每个分组都是一个dataframe。

相关推荐：

pandas+dataframe实现行列选择与切片操作

Python 数据处理库 pandas 入门

以上是pandas获取groupby分组里最大值所在的行方法的详细内容。更多信息请关注PHP中文网其他相关文章！

声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

解释负载平衡如何影响会话管理以及如何解决。Apr 29, 2025 am 12:42 AM

负载均衡会影响会话管理，但可以通过会话复制、会话粘性和集中式会话存储解决。1.会话复制在服务器间复制会话数据。2.会话粘性将用户请求定向到同一服务器。3.集中式会话存储使用独立服务器如Redis存储会话数据，确保数据共享。

说明会话锁定的概念。Apr 29, 2025 am 12:39 AM

Sessionlockingisatechniqueusedtoensureauser'ssessionremainsexclusivetooneuseratatime.Itiscrucialforpreventingdatacorruptionandsecuritybreachesinmulti-userapplications.Sessionlockingisimplementedusingserver-sidelockingmechanisms,suchasReentrantLockinJ

有其他PHP会议的选择吗？Apr 29, 2025 am 12:36 AM

PHP会话的替代方案包括Cookies、Token-basedAuthentication、Database-basedSessions和Redis/Memcached。1.Cookies通过在客户端存储数据来管理会话，简单但安全性低。2.Token-basedAuthentication使用令牌验证用户，安全性高但需额外逻辑。3.Database-basedSessions将数据存储在数据库中，扩展性好但可能影响性能。4.Redis/Memcached使用分布式缓存提高性能和扩展性，但需额外配