python - 如何正規字串中的所有漢字

Question

{代碼...} 字串如上，類型是'str'，要正規取得漢字。我之前使用[u4e00-u9fa5]結果獲得的還是英文，符號跟數字的list。求教導正確姿勢。另外說說我哪裡寫錯了.. {代碼...} 這是我寫的...但是回傳結果就沒有漢字...

習慣沉默 · Answer

我這裡假設你需要配對的文字為s：

pattern = re.compile(ur"[\u4e00-\u9fa5]")
print pattern.findall(s.decode('utf8'))

這裡的decode('utf8')是怕s的值是類似x66x77x88這樣的Unicode雜湊。另外，要注意compile()中ur修飾符，u為Unicode修飾符。

PS：我是從這篇文章得到的啟發。

剛剛看了下樓說的，確實用Python 3就不存在輸出為Unicode散列的情況了，以下摘自此處

Unicode 字串

在Python2中，普通字串是以8位元ASCII碼進行儲存的，而Unicode字串則儲存為16位元unicode字串，這樣能夠表示更多的字元集。使用的語法是在字串前面加上前綴 u。

在Python3中，所有的字串都是Unicode字串。

女神的闺蜜爱上我 · Answer

你用的是python2，uxxxx是unicode字符，匹配後得到的是字節串，print出來是各個字節值。

換python3 就沒這個問題了