python - 문자열의 모든 한자를 정규화하는 방법

Question

{코드...} 문자열은 위와 같으며, 타입은 'str' 이고, 한자는 규칙적으로 얻어야 ​​한다. 이전에 [u4e00-u9fa5]를 사용했을 때에도 여전히 영어로 된 기호와 숫자 목록이 표시되었습니다. 올바른 자세를 가르쳐 주세요. 그리고 어디에서 실수했는지 알려주세요... {code...} 제가 쓴 내용인데... 반환된 결과에 한자가 없습니다...

習慣沉默 · Answer

여기서 일치해야 하는 텍스트는 s:

이라고 가정합니다. 으아악

여기 decode('utf8')是怕s的值为类似x66x77x88这样的Unicode散列。另外，需要注意compile()中ur修饰符，u는 유니코드 수정자입니다.

PS: 저는 이 기사에서 영감을 받았습니다.

업데이트

아래층에서 말한 내용을 읽었습니다. Python 3에서는 출력이 유니코드 해시라는 것이 사실입니다. 여기에서 발췌했습니다.

유니코드 문자열

Python2에서는 일반 문자열이 8비트 ASCII 코드로 저장되는 반면, 유니코드 문자열은 16비트 유니코드 문자열로 저장되므로 더 많은 문자 집합을 나타낼 수 있습니다. 사용되는 구문은 문자열 앞에 u를 붙이는 것입니다.

Python3에서는 모든 문자열이 유니코드 문자열입니다.

女神的闺蜜爱上我 · Answer

python2, uxxxx是unicode字符，匹配后得到的是字节String을 사용하고 있으며, 출력되는 것은 각 바이트 값입니다.

파이썬으로 바꾸면3 이 문제가 사라집니다

python - 문자열의 모든 한자를 정규화하는 방법

모든 응답(2)나는 대답할 것이다

업데이트