首页 >后端开发 >Python教程 >如何在 Pandas 中将分类数据转换为数值索引?

如何在 Pandas 中将分类数据转换为数值索引?

Mary-Kate Olsen
Mary-Kate Olsen原创
2024-10-28 11:00:30905浏览

How to Convert Categorical Data to Numerical Indices in Pandas?

Pandas:将类别转换为数值索引

在 Pandas 中,您可能会遇到需要转换类别数据的情况,例如国家/地区、转化为数字索引。虽然 pd.get_dummies 可以将类别转换为 one-hot 编码,但它可能并不总是最有效的解决方案。以下是有关如何将类别转换为数字索引的分步指南:

第 1 步:对列进行分类

首先,将列的类型更改为categorical:

<code class="python">df.cc = pd.Categorical(df.cc)</code>

这会将国家/地区列转换为分类列,由 pd.Categorical(column_name) 表示。

步骤 2:为代码创建新列

接下来,创建一个新列来存储数字索引:

<code class="python">df['code'] = df.cc.codes</code>

分类列的代码属性为每个类别分配唯一的整数索引。

示例:

考虑以下 DataFrame:

   cc  temp
0  US  37.0
1  CA  12.0
2  US  35.0
3  AU  20.0

按照上述步骤操作后,您将拥有一个新的 DataFrame:

   cc  temp  code
0  US  37.0     2
1  CA  12.0     1
2  US  35.0     2
3  AU  20.0     0

其他选项:

  • 在不修改 DataFrame 的情况下获取代码: df.cc.astype('category').codes
  • 创建分类列作为索引: df2 = pd.DataFrame(df.temp); df2.index = pd.CategoricalIndex(df.cc)

以上是如何在 Pandas 中将分类数据转换为数值索引?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn