>  Q&A  >  본문

python - 문자열의 모든 한자를 정규화하는 방법

으아악

문자열은 위와 같고, 타입은 'str' 이며, 한자는 규칙적으로 얻어야 ​​합니다. 이전에 [u4e00-u9fa5]를 사용했을 때에도 여전히 영어로 된 기호와 숫자 목록이 표시되었습니다. 올바른 자세를 가르쳐 주세요. 그리고 어디서 실수했는지 알려주세요...

으아악

제가 쓴 글인데...반환된 결과에는 한자가 없고 한자를 제외한 다른 문자가 나옵니다.

欧阳克欧阳克2675일 전1018

모든 응답(2)나는 대답할 것이다

  • 習慣沉默

    習慣沉默2017-06-22 11:53:45

    여기서 일치해야 하는 텍스트는 s:

    이라고 가정합니다. 으아악

    여기 decode('utf8')是怕s的值为类似x66x77x88这样的Unicode散列。另外,需要注意compile()ur修饰符,u는 유니코드 수정자입니다.

    PS: 저는 이 기사에서 영감을 받았습니다.

    업데이트

    아래층에서 말한 내용을 읽었습니다. Python 3에서는 출력이 유니코드 해시라는 것이 사실입니다. 여기에서 발췌했습니다.

    유니코드 문자열

    Python2에서는 일반 문자열이 8비트 ASCII 코드로 저장되는 반면, 유니코드 문자열은 16비트 유니코드 문자열로 저장되므로 더 많은 문자 집합을 나타낼 수 있습니다. 사용되는 구문은 문자열 앞에 u를 붙이는 것입니다.

    Python3에서는 모든 문자열이 유니코드 문자열입니다.

    회신하다
    0
  • 女神的闺蜜爱上我

    女神的闺蜜爱上我2017-06-22 11:53:45

    python2, uxxxx是unicode字符,匹配后得到的是字节String을 사용하고 있으며, 출력되는 것은 각 바이트 값입니다.

    파이썬으로 바꾸면3 이 문제가 사라집니다

    회신하다
    0
  • 취소회신하다