Python에서 유니코드(UTF-8) 파일 읽기 및 쓰기
Python에서 유니코드 문자열로 작업할 때는 다음을 이해하는 것이 중요합니다. 유니코드 표현과 파일 인코딩 간의 상호 작용. 다음 예에서 볼 수 있듯이 미묘한 오해로 인해 예상치 못한 결과가 발생할 수 있습니다.
<code class="python">ss = u'Capit\xe1n' ss8 = ss.encode('utf8') repr(ss), repr(ss8)</code>
출력 결과 문자열의 유니코드 표현과 UTF-8 인코딩 형식 간의 불일치가 드러납니다.
("u'Capit\xe1n'", "'Capit\xc3\xa1n'")
이런 혼란을 피하려면 읽고 쓸 때 파일 인코딩을 명시적으로 지정하는 것이 중요합니다. Python 2.6 이상에서 io 모듈은 인코딩을 지정할 수 있는 io.open 함수를 제공합니다.
<code class="python">import io f = io.open("test", mode="r", encoding="utf-8") f.read()</code>
이 접근 방식을 사용하면 f.read()는 디코딩된 유니코드 객체를 반환합니다.
u'Capit\xe1l\n\n'
Python 3.x에서 io.open 함수는 내장 open 함수의 별칭이며, 인코딩 인수도 지원합니다. 또 다른 옵션은 코덱 모듈을 사용하는 것입니다.
<code class="python">import codecs f = codecs.open("test", "r", "utf-8") f.read()</code>
그러나 read()와 readline()을 혼합하면 코덱 모듈을 사용할 때 문제가 발생할 수 있다는 점에 유의하세요. 파일을 읽고 쓸 때 인코딩을 명시적으로 지정하면 유니코드 문자열이 올바르게 표시되고 디코딩되어 잠재적인 위험을 피할 수 있습니다.
위 내용은 Python에서 파일을 읽고 쓸 때 올바른 유니코드 표현을 보장하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!