首頁  >  問答  >  主體

python - pandas或者sklearn中如何将字符形式的标签数字化

例如我有一个标签列形如:
[A,A,A,B,B,C,C,C,C]
转化为:
[0,0,0,1,1,2,2,2,2]

pandas和scikit-learn中有简单的实现吗?

另外大家在学习一个新的包时是怎样根据问题找到文档的具体位置的?有啥经验可以交流下吗?谢谢啦!

ringa_leeringa_lee2740 天前1726

全部回覆(4)我來回復

  • ringa_lee

    ringa_lee2017-04-18 10:08:45

    pandas中是非常容易實現的,轉換成Categories物件即可。術語叫做因子和水平,水平一般都會自動轉成數位儲存。

    c = ['A','A','A','B','B','C','C','C','C']
    category = pd.Categorical(c)

    接下來查看category的label即可

    print category.labels

    回覆
    0
  • PHP中文网

    PHP中文网2017-04-18 10:08:45

    sklearn中有現成的:

    preprocessing.LabelEncoder().fit_transform(data)

    詳見官方文件

    就可以直接字符數字間的轉換了

    回覆
    0
  • 阿神

    阿神2017-04-18 10:08:45

    沒有實際運用過,不知道map函數能否實現你的需求,具體參考文檔
    http://pandas.pydata.org/pand...

    回覆
    0
  • 大家讲道理

    大家讲道理2017-04-18 10:08:45

    這只是個映射的邏輯而已,根本沒必要用pandas和scikit-learn,大材小用了嘛

    a = ['A','A','A','B','B','C','C','C','C']
    result = [x for x in map(lambda c: ord(c) - ord('A'), a)]

    如果非要說用pandas,那不剛好是 Series

    import pandas as pd
    a = ['A','A','A','B','B','C','C','C','C']
    result = pd.Series(a).map(lambda c: ord(c) - ord('A'))

    回覆
    0
  • 取消回覆