Python 중국어 잘못된 코드

파이썬 스크립트를 접하기 시작했는데, 시작하자마자 한자가 깨져버리는 문제에 부딪혔습니다.

인터넷에 있는 정보를 종합하면 다음과 같습니다.

파이썬에서 문자열의 내부 표현은 유니코드 인코딩입니다. 일반적으로 유니코드를 중간 인코딩으로 사용하는 데 필요합니다. 즉, 먼저 다른 인코딩의 문자열을 유니코드로 디코딩한 다음 유니코드에서 다른 인코딩으로 인코딩(인코딩)합니다.

디코드 디코딩에서 이 기능은 다른 인코딩된 문자열을 str1.decode('gb2312')와 같은 유니코드 인코딩으로 변환하는 것입니다. 이는 gb2312로 인코딩된 문자열 str1을 유니코드 인코딩으로 변환하는 것을 의미합니다.

인코딩 인코딩에서 이 기능은 유니코드 인코딩을 str2.encode('gb2312')와 같은 다른 인코딩된 문자열로 변환하는 것입니다. 이는 유니코드 인코딩 문자열 str2를 gb2312 인코딩으로 변환하는 것을 의미합니다.

문자열이 이미 유니코드인 경우 디코딩 시 오류가 발생하므로 일반적으로 인코딩 방법이 유니코드인지 판단해야 합니다.

isinstance(s , unicode) #유니코드인지 확인하는 데 사용됩니다.

유니코드가 아닌 인코딩 str을 사용하여 인코딩하면 오류가 발생합니다.

시스템의 기본 인코딩을 어떻게 얻나요?

#!/usr/bin/python

#coding=utf-8

sys 가져오기

print sys.getdefaultencoding()

영어 Windows에서 이 프로그램의 출력 문제는 프로그램 자체가 아니라 문자열 인코딩에 있습니다.

UliPad에서 다음 코드를 실행하면:

s=u"중국어" #Specify Unicode 인코딩

print s

메시지가 표시됩니다: UnicodeEncodeError: 'ascii' 코덱은 0-1 위치(서수가 범위(128)에 속하지 않음)의 문자를 인코딩할 수 없습니다. 울리패드의 콘솔 정보 출력창이 영문 윈도우이기 때문입니다.

마지막 문장을 다음으로 변경하세요: print s.encode('gb2312')

"중국어"라는 단어가 올바르게 출력될 수 있습니다.

마지막 문장을 print s.encode('utf8')

으로 변경하면 xe4xb8xadxe6x96x87이 출력됩니다. utf8을 출력하는 콘솔 정보 출력 창의 결과입니다. -ASCII 인코딩에 따라 인코딩된 문자열입니다.

unicode(str,'gb2312')는 str.decode('gb2312')와 동일합니다. 둘 다 gb2312로 인코딩된 str을 유니코드 인코딩으로 변환합니다.

str.__class__를 사용할 수 있습니다. str의 인코딩 형식

원리에 대해 오랫동안 이야기한 후 코드는 다음과 같습니다.

#coding=utf-8

#!/usr/bin/ python

s="中文"

if isinstance(s, unicode):

print s.encode( 'gb2312')

그 외:

s.decode('utf-8').encode('gb2312')

인쇄

성명：

관련 기사