>백엔드 개발 >파이썬 튜토리얼 >Pandas에서 CSV 파일을 읽을 때 UnicodeDecodeError를 어떻게 해결할 수 있나요?

Pandas에서 CSV 파일을 읽을 때 UnicodeDecodeError를 어떻게 해결할 수 있나요?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-12-26 09:16:11426검색

How Can I Resolve UnicodeDecodeError When Reading CSV Files in Pandas?

UnicodeDecodeError: Pandas에서 CSV 파일을 읽을 때 인코딩 문제 해결

소개

작업 CSV 파일은 특히 기본적으로 지원되지 않는 문자가 발생할 때 인코딩 문제를 나타내는 경우가 많습니다. 인코딩. Python의 인기 있는 데이터 조작 라이브러리인 Pandas는 CSV 파일에서 데이터를 가져오는 read_csv() 메서드를 제공합니다. 그러나 이 메서드는 유니코드로 인코딩된 문자를 처리할 때 때때로 UnicodeDecodeError가 발생할 수 있습니다.

오류 분석

제공된 오류 메시지는 read_csv() 메서드가 어려움을 겪고 있음을 나타냅니다. 기본 UTF-8 인코딩을 사용하여 파일 내의 바이트를 디코딩합니다. 잘못된 연속 바이트는 파일이 다른 인코딩을 사용하여 인코딩되었을 수 있음을 나타냅니다.

문제 해결

이 오류를 해결하려면 다음과 같은 경우 인코딩을 명시적으로 지정할 수 있습니다. CSV 파일을 읽는 중입니다. Pandas는 이러한 목적으로 인코딩 매개변수를 제공합니다. 다음 접근 방식을 사용할 수 있습니다.

  • ISO-8859-1 인코딩:
    서양 언어에 일반적으로 사용되는 ISO-8859-1 인코딩을 사용합니다. 유럽인의 성격 세트:

    data = pd.read_csv(filepath, encoding="ISO-8859-1")
  • UTF-8 인코딩:
    또는 전 세계 문자 세트에 적합한 UTF-8 인코딩을 사용해 보세요.

    data = pd.read_csv(filepath, encoding="utf-8")

다른 별칭 'latin' 또는 'cp1252'와 같은 ISO-8859-1도 사용할 수 있습니다. 지원되는 인코딩의 전체 목록은 Pandas 문서 또는 Python 문서를 참조하세요.

파일 인코딩 감지

CSV 파일의 인코딩이 확실하지 않은 경우, enca, Linux의 경우 file -i, macOS의 경우 file -I와 같은 도구를 사용하여 올바른 것을 확인할 수 있습니다. 인코딩.

추가 리소스

  • [Pandas read_csv() 문서](https://pandas.pydata.org/pandas-docs/stable/reference /api/pandas.read_csv.html)
  • [Python csv 모듈 예제](https://docs.python.org/3/library/csv.html#examples)
  • [모든 개발자가 유니코드 및 문자 집합에 대해 알아야 할 사항](https://unicode. org/reports/tr15/)

위 내용은 Pandas에서 CSV 파일을 읽을 때 UnicodeDecodeError를 어떻게 해결할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.