如何使用 pandas groupby().sum() 的输出填充新列
处理数据时,可以是根据特定计算的结果在 DataFrame 中创建新列非常有用。其中一种计算是使用 pandas 中的 groupby() 和 sum() 函数来查找列中特定组的值的总和。但是,当尝试使用此总和创建新列时,可能会遇到 NaN 值。
考虑以下代码:
df = pd.DataFrame({ 'Date' : ['2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05', '2015-05-08', '2015-05-07', '2015-05-06', '2015-05-05'], 'Sym' : ['aapl', 'aapl', 'aapl', 'aapl', 'aaww', 'aaww', 'aaww', 'aaww'], 'Data2': [11, 8, 10, 15, 110, 60, 100, 40], 'Data3': [5, 8, 6, 1, 50, 100, 60, 120] }) group = df['Data3'].groupby(df['Date']).sum() df['Data4'] = group
运行此代码时,您可能期望看到每个日期的正确计算值(如组变量中所示),但您在新创建的 Data4 列中得到 NaN 值。
要解决此问题问题,你需要使用转换功能。此函数返回一个 Series,其索引与 DataFrame 对齐,允许您将其添加为新列。以下是更正后的代码:
df['Data4'] = df['Data3'].groupby(df['Date']).transform('sum')
通过此修改,您将成功创建具有所需求和值的新 Data4 列。
以上是将 pandas groupby().sum() 结果添加到新列时如何避免 NaN 值?的详细内容。更多信息请关注PHP中文网其他相关文章!