>백엔드 개발 >파이썬 튜토리얼 >Python 프로그래밍의 문자열 인코딩 문제에 대한 간략한 소개

Python 프로그래밍의 문자열 인코딩 문제에 대한 간략한 소개

Tomorin
Tomorin원래의
2018-08-23 17:47:321234검색

이 글에서는 Python 문자열 프로그래밍을 소개합니다. 우리는 이미 string데이터 유형이라고 언급했습니다. 그러나 string은 인코딩 문제가 있다는 점에서 특별합니다.

컴퓨터는 숫자만 처리할 수 있기 때문에 텍스트를 처리하려면 먼저 텍스트를 숫자로 변환한 후 처리해야 합니다. 최초의 컴퓨터는 8비트를 바이트로 사용하여 설계되었습니다. 따라서 바이트로 표현할 수 있는 가장 큰 정수는 255(이진수 11111111 = 십진수 255)입니다. 더 큰 정수를 표현하려면 더 많은 바이트를 사용해야 합니다. 예를 들어 2바이트로 표현할 수 있는 최대 정수는 65535이고, 4바이트로 표현할 수 있는 최대 정수는 4294967295이다.

컴퓨터는 미국인에 의해 발명되었기 때문에 처음에는 영어 대문자와 소문자, 숫자 및 일부 기호만 컴퓨터에 인코딩되었습니다. 이 인코딩 테이블을 대문자 A의 인코딩과 같이 ASCII 인코딩이라고 합니다. . 은 65이고 소문자 z의 인코딩은 122입니다.

그러나 중국어를 처리하려면 1바이트로는 충분하지 않으며 최소한 2바이트가 필요하며 ASCII 인코딩과 충돌할 수 없습니다. 따라서 중국에서는 중국어를 인코딩하기 위해 GB2312 인코딩을 공식화했습니다.

상상할 수 있는 것은 세계에는 수백 가지 언어가 있다는 것입니다. 일본은 일본어를 Shift_JIS로 인코딩하고, 한국은 한국어를 Euc-kr로 인코딩하며, 나라마다 갈등이 발생할 수밖에 없습니다. 그 결과, 다중 언어 혼합 텍스트에서 표시될 때 왜곡된 문자가 나타납니다.

그래서 유니코드가 탄생했습니다. 유니코드는 모든 언어를 일련의 인코딩으로 통합하므로 더 이상 잘못된 문자가 발생하지 않습니다.

유니코드 표준도 끊임없이 발전하고 있지만 가장 일반적으로 사용되는 표준은 2바이트를 사용하여 문자를 표현하는 것입니다(매우 희귀한 문자를 사용하려면 4바이트가 필요함). 최신 운영 체제와 대부분의 프로그래밍 언어는 유니코드를 직접 지원합니다.

이제 ASCII 인코딩과 유니코드 인코딩의 차이점을 살펴보겠습니다. ASCII 인코딩은 1바이트인 반면 유니코드 인코딩은 일반적으로 2바이트입니다.

ASCII로 인코딩된 문자 A는 10진수 65, 이진수 01000001입니다.

ASCII로 인코딩된 문자 0은 10진수 48, 이진수 00110000입니다. 문자 '0'은 정수 0과 다릅니다. ASCII 인코딩 범위가 결정됩니다. 유니코드 인코딩은 10진수로 20013이고 2진수로 01001110 00101101입니다.

ASCII로 인코딩된 A를 유니코드로 인코딩하면 앞에 0만 추가하면 된다고 짐작할 수 있습니다. 따라서 A의 유니코드 인코딩은 00000000 01000001입니다.

새로운 문제가 발생했습니다. 유니코드 인코딩으로 통합하면 문자 깨짐 문제가 사라집니다. 그러나 작성하는 텍스트가 기본적으로 모두 영어인 경우 유니코드 인코딩은 ASCII 인코딩보다 두 배의 저장 공간을 필요로 하므로 저장 및 전송 측면에서 매우 비경제적입니다.

그래서 보존의 정신으로 유니코드 인코딩을 "가변 길이 인코딩"으로 변환하는 UTF-8 인코딩이 등장했습니다. UTF-8 인코딩은 유니코드 문자를 다양한 숫자 크기에 따라 1~6바이트로 인코딩합니다. 일반적으로 사용되는 영어 문자는 1바이트로 인코딩되고, 중국어 문자는 일반적으로 3바이트로 인코딩됩니다. 4-6바이트로 인코딩됩니다. 전송하려는 텍스트에 많은 수의 영어 문자가 포함되어 있는 경우 UTF-8 인코딩을 사용하면 공간을 절약할 수 있습니다.

Python 프로그래밍의 문자열 인코딩 문제에 대한 간략한 소개따라서 많은 웹 페이지의 소스 코드에 정보는 웹페이지가 UTF-8로 인코딩되었음을 나타냅니다.

위 내용은 Python 프로그래밍의 문자열 인코딩 문제에 대한 간략한 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.