>백엔드 개발 >파이썬 튜토리얼 >Python 유니코드 문자열 형식 지정의 함정

Python 유니코드 문자열 형식 지정의 함정

大家讲道理
大家讲道理원래의
2016-11-07 10:14:001469검색

오늘 동료가 설명할 수 없는 UnicodeDecodeError를 연구하는 동안 Python 문자열 형식에서 작은 함정을 발견했습니다. 원본 코드가 너무 복잡하고 문제와 관련 없는 내용이 너무 많아 ipython에서 간단한 테스트를 통해 문제를 재현해 보았습니다.

In [4]: a = '你好世界'
In [5]: print 'Say this: %s' % a
Say this: 你好世界
In [6]: print 'Say this: %s and say that: %s' % (a, 'hello world')
Say this: 你好世界 and say that: hello world
In [7]: print 'Say this: %s and say that: %s' % (a, u'hello world')
---------------------------------------------------------------------------
UnicodeDecodeError                        Traceback (most recent call last)
/home/jerry/ in ()
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 10: ordinal not in range(128)
In [8]: a
Out[8]: '\xe4\xbd\xa0\xe5\xa5\xbd\xe4\xb8\x96\xe7\x95\x8c'

다음은 [7]입니다. UnicodeDecodeError가 많이 이상해요? 이전 문장과 유일한 차이점은 'hello world'가 str 개체 대신 유니코드 개체가 된다는 것입니다. 그런데 문제는 'hello world'가 ASCII 이외의 문자를 포함하지 않는 단순한 영어 문자열이라는 것입니다. 어떻게 디코딩할 수 없습니까? 예외에 첨부된 메시지를 자세히 살펴보십시오. 이는 분명히 'hello world'에 있지 않으므로 [8]에서 바이트 시퀀스를 인쇄한 것으로 나타났습니다. 첫 번째는 0xe4입니다.

파이썬이 문자열 서식을 지정할 때 a를 유니코드 객체로 디코딩하려고 하는 것 같은데, 디코딩할 때 실제 UTF-8 인코딩 대신 기본 ASCII 인코딩이 사용됩니다. 무슨 일이에요? ? 실험을 계속해 보겠습니다.

In [9]: 'Say this: %s' % 'hello'
Out[9]: 'Say this: hello'
In [10]: 'Say this: %s' % u'hello'
Out[10]: u'Say this: hello'

자세히 살펴보세요. In [9]의 'hello'는 일반 문자열이고 결과도 문자열(str 개체)인 반면 In [10] hello의 'hello'는 '는 유니코드 객체가 되고 형식이 지정된 결과도 유니코드가 됩니다(결과 시작 부분의 u에 유의하세요).

사실은 다음과 같습니다. Python에는 문자열 형식을 지정할 때 몇 가지 숨겨진 트릭이 있습니다. %s에 해당하는 매개변수에 유니코드가 있으면 최종 결과도 유니코드가 됩니다. 이 경우 템플릿 문자열과 %s 매개변수의 모든 문자열은 유니코드로 디코딩됩니다. 그러나 이 디코딩은 암시적이며 사용자는 Python에서 사용되는 문자 세트를 지정할 수 없습니다. ASCII가 아닌 인코딩된 문자열이 있으면 끝입니다...

Python 설명서에 나와 있는 내용을 살펴보세요.

If format is a Unicode object, or if any of the objects being converted using the %s conversion are Unicode objects, the result will also be a Unicode object.

코드에 str과 유니코드가 혼합되어 있으면 이런 종류의 문제는 쉽게 발생할 수 있습니다. 내 동료의 코드에서 중국어 문자열은 사용자가 입력했으며 올바르게 인코딩되었습니다. UTF-8로 인코딩된 str 개체이지만 내용은 모두 ASCII 코드이지만 소스는 다음과 같습니다. sqlite3 데이터베이스 쿼리와 sqlite API에서 반환된 문자열은 모두 유니코드 개체이므로 이상한 결과가 발생합니다.

Python 2의 str과 unicode는 정말 부정행위를 하고 있어서 여러 번 피해를 본 적이 있습니다. Python 3는 이 점에서 큰 개선을 이루었으며 완전한 인기를 누리기를 기대합니다!


성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.