문자열 연산 및 Python의 유니코드 인코딩에 대한 자세한 설명

집

백엔드 개발

파이썬 튜토리얼

문자열 연산 및 Python의 유니코드 인코딩에 대한 자세한 설명_

高洛峰

Feb 21, 2017 am 10:12 AM

사실 문자열도 데이터 유형입니다. 하지만 문자열은 인코딩 문제가 있다는 점에서 특별합니다. 다음 글에서는 파이썬에서 문자열 연산과 유니코드 인코딩에 대한 관련 정보를 주로 소개합니다. 필요한 친구들이 참고할 수 있습니다.

이 글은 주로 Python에서 문자열 연산과 유니코드 인코딩에 대한 지식을 소개합니다. 아래에서는 많이 말하지 않겠습니다. 필요한 친구들은 함께 와서 배울 수 있습니다.

문자열 유형

str: 유니코드 문자열. '' 또는 r''을 사용하여 구성된 문자열은 모두 str이며, 작은따옴표는 큰따옴표나 삼중따옴표로 대체될 수 있습니다. 어떻게 지정하든 Python 내부에 저장되면 차이가 없습니다.

bytes: 이진 문자열. jpg 등 다른 형식의 파일은 str을 사용하여 표시할 수 없으므로 바이트의 각 바이트는 0부터 255까지의 숫자로 표시됩니다. 인쇄할 때 Python에서는 ASCII로 표현할 수 있는 부분을 ASCII로 표시하므로 읽기가 더 쉽습니다. bytes는 제자리에서 변경할 수 있는 바이너리 문자열인 re 모듈

bytearray() 을 포함하여 서식 지정을 제외한 거의 모든 str 메서드를 지원합니다.

utf-8 인코딩 범위

范围	字节数	存储格式
0x0000~0x007F (0 ~ 127)	1字节	0xxxxxxx
0x0080~0x07FF(128 ~ 2047)	2字节	110xxxxx 10xxxxxx
0x0800~FFFF(2048 ~ 65535)	3字节	1110xxxx 10xxxxxx 10xxxxxx
0x10000~1FFFFFF(65536 ~ 2097152)	4字节	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x2000000~0x3FFFFFF	5字节	111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x4000000~0x7FFFFFFF)	6字节	1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

바이트 순서 표시 BOM

BOM은 바이트 순서 마커의 약어,

인코딩 작성 시 규칙을 지정합니다

파이썬은 'utf-8' 인코딩 헤더를 사용하여 파일을 작성할 때 BOM을 작성하지 않지만, 'utf-8-sig' 인코딩을 지정하면 Python이 BOM 헤더를 작성하게 됩니다.

'utf-16-be'를 사용하면 BOM 헤더가 작성되지 않지만, 'utf-16'을 사용하면 BOM 헤더가 작성됩니다.

>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8-sig&#39;).write(&#39;aaa&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xef\xbb\xbfaaa&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16&#39;).write(&#39;bbb&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;\xff\xfeb\x00b\x00b\x00&#39;
>>> open(&#39;hh.txt&#39;,&#39;w&#39;,encoding=&#39;utf-16-be&#39;).write(&#39;ccc&#39;)
3
>>> open(&#39;hh.txt&#39;,&#39;rb&#39;).read()
b&#39;\x00c\x00c\x00c&#39;
>>> open(&#39;h.txt&#39;,&#39;w&#39;,encoding=&#39;utf-8&#39;).write(&#39;ddd&#39;)
3
>>> open(&#39;h.txt&#39;,&#39;rb&#39;).read()
b&#39;ddd&#39;

읽을 때의 규칙

올바른 인코딩이 지정되면 BOM이 무시되고, 그렇지 않으면 BOM 잘못된 문자로 표시되거나 예외가 반환됩니다.

>>> open(&#39;h.txt&#39;,&#39;r&#39;).read()
&#39;锘縟dd&#39;
>>> open(&#39;h.txt&#39;,&#39;r&#39;,encoding=&#39;utf-8-sig&#39;).read()
&#39;ddd&#39;

인코딩 및 디코딩

문자 및 순서

>>> ord(&#39;中&#39;) #20013
>>> chr(20013) #&#39;中&#39;

문자열에 유니코드를 하드코드합니다.

'xhh': 문자를 표현하기 위해 2자리 16진수 사용

'uhhhh': 문자를 표현하기 위해 4자리 16진수 사용 문자:

'Uhhhhhhh': 8자리 16진수를 사용하여 문자

>>> s = 'pyx74hu4e2don' #'pyth中on'

str 및 bytes , bytearray 변환

str.encode(encoding='utf-8')<code>str.encode(encoding='utf-8')<br>

바이트(s ,encoding='utf- 8')<code>bytes(s,encoding='utf-8')<br>

bytes.decode(encoding='utf-8')<code>bytes.decode(encoding='utf-8')<br>

str(B, encoding='utf-8')

bytearray(string, encoding='utf-8')

bytearray(bytes)

문서 인코딩 문

Python은 utf-8을 사용합니다. 기본적으로 인코딩.

# -*- coding: latin-1 -*- : 문서가 latin-1 인코딩으로 선언되었음을 나타냅니다.

도우미 기능

sys.platform  #&#39;win32&#39;
sys.getdefaultencoding() # &#39;utf-8&#39;
sys.byteorder  #&#39;little&#39;
s.isalnum()  #s表示字符串
s.isalpha()
s.isdecimal
s.isdigit()
s.isnumeric()
s.isprintable()
s.isspace()
s.isidentifier() #如果字符串可以用作变量名，那么返回True
s.islower()
s.isupper()
s.istitle()

파이썬에서 문자열 연산 및 유니코드 인코딩에 대한 자세한 설명과 관련된 추가 기사 PHP 중국어 홈페이지를 주목해주세요!

성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

관련 기사

Python vs. C : 주요 차이점 이해Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python vs. C : 프로젝트를 위해 어떤 언어를 선택해야합니까?Apr 21, 2025 am 12:17 AM

Python 또는 C를 선택하는 것은 프로젝트 요구 사항에 따라 다릅니다. 1) 빠른 개발, 데이터 처리 및 프로토 타입 설계가 필요한 경우 Python을 선택하십시오. 2) 고성능, 낮은 대기 시간 및 근접 하드웨어 제어가 필요한 경우 C를 선택하십시오.

파이썬 목표에 도달 : 매일 2 시간의 힘Apr 20, 2025 am 12:21 AM

매일 2 시간의 파이썬 학습을 투자하면 프로그래밍 기술을 효과적으로 향상시킬 수 있습니다. 1. 새로운 지식 배우기 : 문서를 읽거나 자습서를 시청하십시오. 2. 연습 : 코드를 작성하고 완전한 연습을합니다. 3. 검토 : 배운 내용을 통합하십시오. 4. 프로젝트 실무 : 실제 프로젝트에서 배운 것을 적용하십시오. 이러한 구조화 된 학습 계획은 파이썬을 체계적으로 마스터하고 경력 목표를 달성하는 데 도움이 될 수 있습니다.

2 시간 극대화 : 효과적인 파이썬 학습 전략Apr 20, 2025 am 12:20 AM

2 시간 이내에 Python을 효율적으로 학습하는 방법 : 1. 기본 지식을 검토하고 Python 설치 및 기본 구문에 익숙한 지 확인하십시오. 2. 변수, 목록, 기능 등과 같은 파이썬의 핵심 개념을 이해합니다. 3. 예제를 사용하여 마스터 기본 및 고급 사용; 4. 일반적인 오류 및 디버깅 기술을 배우십시오. 5. 목록 이해력 사용 및 PEP8 스타일 안내서와 같은 성능 최적화 및 모범 사례를 적용합니다.

Python과 C : The Hight Language 중에서 선택Apr 20, 2025 am 12:20 AM

Python은 초보자 및 데이터 과학에 적합하며 C는 시스템 프로그래밍 및 게임 개발에 적합합니다. 1. 파이썬은 간단하고 사용하기 쉽고 데이터 과학 및 웹 개발에 적합합니다. 2.C는 게임 개발 및 시스템 프로그래밍에 적합한 고성능 및 제어를 제공합니다. 선택은 프로젝트 요구와 개인적인 이익을 기반으로해야합니다.

Python vs. C : 프로그래밍 언어의 비교 분석Apr 20, 2025 am 12:14 AM

Python은 데이터 과학 및 빠른 개발에 더 적합한 반면 C는 고성능 및 시스템 프로그래밍에 더 적합합니다. 1. Python Syntax는 간결하고 학습하기 쉽고 데이터 처리 및 과학 컴퓨팅에 적합합니다. 2.C는 복잡한 구문을 가지고 있지만 성능이 뛰어나고 게임 개발 및 시스템 프로그래밍에 종종 사용됩니다.

하루 2 시간 : 파이썬 학습의 잠재력Apr 20, 2025 am 12:14 AM

파이썬을 배우기 위해 하루에 2 시간을 투자하는 것이 가능합니다. 1. 새로운 지식 배우기 : 목록 및 사전과 같은 1 시간 안에 새로운 개념을 배우십시오. 2. 연습 및 연습 : 1 시간을 사용하여 소규모 프로그램 작성과 같은 프로그래밍 연습을 수행하십시오. 합리적인 계획과 인내를 통해 짧은 시간에 Python의 핵심 개념을 마스터 할 수 있습니다.

Python vs. C : 학습 곡선 및 사용 편의성Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

See all articles