搜尋

首頁  >  問答  >  主體

python - 我該怎麼寫正規?

s = u'\ud83d\udc8b'
co = re.compile( u'\ud83d\udc8b')
co.sub(u'',s)
print(u'ud83d ')

輸出如下
UnicodeEncodeError: 'utf-8' codec can't encode character 'ud83d' in position 0: surrogates not allowed

s中大概是一個微博表情,搞了一下午怎麼都顯示不出來,想著替換掉算了然後怎麼都沒辦法匹配到,為什麼呢

天蓬老师天蓬老师2729 天前700

全部回覆(2)我來回復

  • 高洛峰

    高洛峰2017-05-27 17:41:31

    首先,是2個問題
    1.為什麼顯示不出來
    2.想替換掉但是為什麼匹配不到

    回答
    1.特殊編碼在終端上是無法顯示的,如果是在UI上顯示,那麼需要把UI的encoding設定好。
    2.試試下面的程式碼

    import re
    s = u'hello \ud83d\udc8b world'
    co = re.compile( u'\ud83d\udc8b')
    ss = co.sub(u'',s)
    print(ss)

    運行結果:
    hello world

    回覆
    0
  • 黄舟

    黄舟2017-05-27 17:41:31

    我都是抄的

    回覆
    0
  • 取消回覆