>백엔드 개발 >파이썬 튜토리얼 >CSV 파일을 읽을 때 'pandas.parser.CParserError: 데이터 토큰화 오류'를 해결하는 방법은 무엇입니까?

CSV 파일을 읽을 때 'pandas.parser.CParserError: 데이터 토큰화 오류'를 해결하는 방법은 무엇입니까?

Barbara Streisand
Barbara Streisand원래의
2024-12-23 15:49:14784검색

How to Solve

CSV 파일을 읽을 때 "pandas.parser.CParserError: 데이터 토큰화 오류" 처리

"pandas.parser.CParserError: 토큰화 오류 데이터' 오류는 Pandas가 CSV 줄의 필드 수에 불일치가 있는 경우 발생합니다. 이 오류를 해결하고 원활한 데이터 조작을 보장하려면 다음을 고려하세요.

1. 코딩 오류 확인

CSV 파일에 필드 구분 기호 누락이나 잘못된 형식의 값 등 코딩 오류가 있는지 검토하세요. 또한 파일 확장자(예: .csv)가 올바른지 확인하세요.

2. CSV 구분 기호 조정

기본적으로 pandas는 CSV 파일의 구분 기호로 쉼표를 사용합니다. 그러나 CSV 파일이 다른 구분 기호(예: 세미콜론)를 사용하는 경우 read_csv()에서 구분 기호 매개 변수를 사용하여 지정하세요.

3. 잘못된 줄 무시

소수의 문제가 있는 줄이 발견되면 CSV 파일을 읽는 동안 팬더에게 해당 줄을 건너뛰도록 지시할 수 있습니다. read_csv()의 on_bad_lines='skip' 매개변수를 사용하여 이 작업을 수행할 수 있습니다.

4. CSV 모듈 사용

pandas 대신 Python csv 모듈을 사용하여 CSV 파일을 읽고 구문 분석할 수 있습니다. 이 모듈은 구문 분석 프로세스에 대한 더 많은 제어 기능을 제공하므로 오류나 불일치를 더 유연하게 처리할 수 있습니다.

예:

csv 모듈을 사용하려면 다음을 시도할 수 있습니다. 다음 코드:

with open(path, 'r') as csv_file:
    csv_reader = csv.reader(csv_file, delimiter=',')
    data = list(csv_reader)

추가 팁:

  • Pandas 버전 1.3.0 미만의 경우 error_bad_lines=False를 사용하여 오류를 억제하세요.
  • 상당한 수의 잘못된 줄이 발생할 것으로 예상되는 경우, on_bad_lines='warn' 또는 사용자 정의 콜러블을 사용하여 적절하게 처리하세요.
  • 고려하세요. 무결성을 보장하기 위해 CSV 데이터를 Pandas로 가져오기 전에 검증합니다.

위 내용은 CSV 파일을 읽을 때 'pandas.parser.CParserError: 데이터 토큰화 오류'를 해결하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.