>백엔드 개발 >파이썬 튜토리얼 >Python의 'UnicodeDecodeError: 'ascii' 코덱이 바이트를 디코딩할 수 없습니다.' 오류를 해결하는 방법은 무엇입니까?

Python의 'UnicodeDecodeError: 'ascii' 코덱이 바이트를 디코딩할 수 없습니다.' 오류를 해결하는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-12-10 17:00:12265검색

How to Solve Python's

"UnicodeDecodeError: 'ascii' 코덱이 바이트를 디코딩할 수 없음" 수정 방법

tl;dr / Quick Fix

  • 피하세요 불필요한 디코딩/인코딩.
  • UTF-8 인코딩을 가정하지 마십시오.
  • 코드에서 가능한 한 빨리 문자열을 유니코드 문자열로 변환하세요.
  • 로캘을 조정하세요(참조: Python 3.6에서 UnicodeDecodeError를 해결하는 방법?).
  • 저항하세요 빠른 재로드 해킹에 대한 유혹.

Python의 유니코드 Zen 2.x

UnicodeDecodeError: 'ascii' 코덱이 바이트를 디코딩할 수 없음은 일반적으로 원래 문자열의 인코딩을 지정하지 않고 ASCII가 아닌 문자가 포함된 Python 2.x 문자열을 유니코드 문자열로 변환하려고 할 때 발생합니다.

유니코드 문자열(유니코드라고도 함)은 유니코드 포인트 코드를 보유하고 전체 유니코드 포인트를 나타낼 수 있는 Python의 별도 문자열 유형입니다. 스펙트럼. 대조적으로 문자열에는 다양한 형식(예: UTF-8, UTF-16, ISO-8895-1)의 인코딩된 텍스트가 포함됩니다.

Markdown 모듈 개발자는 unicode()를 품질 게이트로 사용하여 수신을 보장할 가능성이 높습니다. 문자열은 유니코드입니다. 수신 문자열의 인코딩을 결정할 수 없으므로 Markdown에 전달하기 전에 디코딩해야 합니다.

코드에서 "u" 접두사를 사용하여 유니코드 문자열을 선언할 수 있습니다.

my_u = u'my ünicôdé strįng'
print(type(my_u)) # <type 'unicode'>

유니코드 문자열은 파일, 데이터베이스 또는 네트워크 모듈에서 발생할 수도 있으며, 여기서는 인코딩.

문제점

명시적인 unicode() 호출 없이도 유니코드 변환이 발생할 수 있습니다.

# Explicit conversion without encoding
unicode('€')

# New-style format string into Unicode string
# Python attempts to convert value string to Unicode first
u"The currency is: {}".format('€')

# Old-style format string into Unicode string
# Python attempts to convert value string to Unicode first
u'The currency is: %s' % '€'

# Append string to Unicode
# Python attempts to convert string to Unicode first
u'The currency is: ' + '€'

다음 다이어그램에서 "café "는 단말기 종류에 따라 "UTF-8"과 "Cp1252"로 다르게 인코딩됩니다. 두 경우 모두 "caf"는 일반 ASCII로 인코딩됩니다. UTF-8은 "é"를 나타내기 위해 2바이트를 사용하는 반면, Cp1252는 유니코드 포인트 값과 일치하는 단일 바이트를 사용합니다. 이 경우 올바른 인코딩을 사용하여 decode()가 호출되고 유니코드로의 성공적인 변환이 수행됩니다.

[올바른 인코딩을 사용한 성공적인 유니코드 변환 다이어그램]

그러나 디코드하는 경우 ()가 "ascii"로 호출되는데, 이는 인코딩을 지정하지 않고 unicode()를 호출하는 것과 유사하며 UnicodeDecodeError가 발생합니다. 발생:

[잘못된 인코딩으로 실패한 유니코드 변환 다이어그램]

유니코드 샌드위치

코드에 "유니코드 샌드위치"를 만드는 것이 가장 좋습니다.

  1. 수신되는 모든 데이터를 유니코드로 디코딩합니다.
  2. 유니코드 문자열에 대한 작업을 수행합니다.
  3. 나가면서 str로 인코딩합니다.

이 접근 방식을 사용하면 전체 작업에서 문자열 인코딩에 대해 걱정할 필요가 없습니다. 코드.

입력/디코드

  • 소스 코드는 다음을 사용하세요. 유니코드 문자열 리터럴(예: u'Zürich') 및 인코딩 헤더(예: # 인코딩: utf-8)를 추가합니다.
  • 파일의 경우 적절한 인코딩과 함께 io 모듈의 TextWrapper를 사용하세요.

    my_u = u'my ünicôdé strįng'
    print(type(my_u)) # <type 'unicode'>
  • 데이터베이스의 경우 유니코드 데이터를 반환하도록 연결을 구성하고 SQL 쿼리에 유니코드 문자열을 사용하세요.
  • HTTP의 경우 response.text에서 유니코드를 반환하는 Python 요청 라이브러리 사용을 고려해 보세요. .
  • 수동 디코딩의 경우 my_string.decode(encoding)를 사용합니다. 여기서 인코딩은 적절합니다. value.

출력

  • stdout/printing: Python은 유니코드 문자열을 콘솔의 인코딩으로 인코딩하도록 forstdout 인코더를 구성하려고 시도합니다. 콘솔의 인코딩이 올바르지 않으면 오류가 발생할 수 있습니다.
  • 파일: io.open은 유니코드를 바이트 문자열로 투명하게 인코딩할 수 있습니다.
  • 데이터베이스: 올바른 구성을 사용하면 유니코드 데이터를 콘솔에 직접 쓸 수 있습니다. 데이터베이스입니다.

위 내용은 Python의 'UnicodeDecodeError: 'ascii' 코덱이 바이트를 디코딩할 수 없습니다.' 오류를 해결하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.