首页  >  问答  >  正文

python - 我该怎么写正则?

s = u'ud83dudc8b'
co = re.compile( u'ud83dudc8b')
co.sub(u'',s)
print(u'ud83d')

输出如下
UnicodeEncodeError: 'utf-8' codec can't encode character 'ud83d' in position 0: surrogates not allowed

s中大概是一个微博表情,搞了一下午怎么都显示不出来,想着替换掉算了然后怎么都没法匹配到,为什么呢

天蓬老师天蓬老师2679 天前668

全部回复(2)我来回复

  • 高洛峰

    高洛峰2017-05-27 17:41:31

    首先,是2个问题
    1.为什么显示不出来
    2.想替换掉但是为什么匹配不到

    回答
    1.特殊编码在终端上是无法显示的,如果是在UI上显示,那么需要把UI的encoding设置好。
    2.试试下面的代码

    import re
    s = u'hello \ud83d\udc8b world'
    co = re.compile( u'\ud83d\udc8b')
    ss = co.sub(u'',s)
    print(ss)

    运行结果:
    hello world

    回复
    0
  • 黄舟

    黄舟2017-05-27 17:41:31

    我都是抄的

    回复
    0
  • 取消回复