>  기사  >  백엔드 개발  >  Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?

Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?

Susan Sarandon
Susan Sarandon원래의
2024-10-22 08:18:02861검색

How Do I Parse Data with Irregular Separators in Pandas read_csv?

Pandas read_csv에서 불규칙 구분 기호 극복

불규칙 구분 기호가 있는 파일에서 데이터를 읽을 때 pandas read_csv 메서드에 문제가 발생할 수 있습니다. 다양한 공백을 원활하게 처리하는 Python Split() 메서드와 달리 read_csv는 일관되지 않은 공백과 탭으로 구분된 데이터를 해독하는 데 어려움을 겪을 수 있습니다.

이 문제를 해결하기 위해 pandas는 구분 기호 정의를 위한 다양한 옵션을 제공합니다. 한 가지 접근 방식은 정규식(regex)을 사용하는 것입니다. read_csv의 구분 기호 매개변수를 사용하면 원하는 구분 기호를 캡처하는 정규식 패턴을 지정할 수 있습니다. 이를 통해 공백과 탭의 조합을 고려하여 정확한 구문 분석을 보장할 수 있습니다.

또는 Python Split() 메서드와 유사하게 작동하는 delim_whitespace 매개변수를 활용할 수도 있습니다. delim_whitespace를 True로 설정하면 pandas는 모든 공백(공백 및 탭 포함)을 구분 기호로 처리합니다. 이렇게 하면 특정 정규식 패턴을 지정할 필요가 없습니다.

다음 예를 고려하세요.

import pandas as pd

data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s+")

print(data)

# Output:
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

이 경우 불규칙_separators.csv에는 탭, 공백 및 심지어 다음의 조합으로 구분된 열이 포함됩니다. 둘 다. 정규식 패턴을 지정하면 read_csv가 데이터를 성공적으로 구문 분석하고 DataFrame을 생성합니다.

또는 delim_whitespace를 사용하여

data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True)

print(data)

# Output (same as above):
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

read_csv에서 구분 기호의 유연성을 활용하면 불규칙한 내용을 효과적으로 처리할 수 있습니다. 데이터 파일에 공백을 넣고 분석을 위해 의미 있는 정보를 추출합니다.

위 내용은 Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.