집 >백엔드 개발 >파이썬 튜토리얼 >Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?

Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?

Susan Sarandon원래의: 2024-10-22 08:18:021007검색

How Do I Parse Data with Irregular Separators in Pandas read_csv?

Pandas read_csv에서 불규칙 구분 기호 극복

불규칙 구분 기호가 있는 파일에서 데이터를 읽을 때 pandas read_csv 메서드에 문제가 발생할 수 있습니다. 다양한 공백을 원활하게 처리하는 Python Split() 메서드와 달리 read_csv는 일관되지 않은 공백과 탭으로 구분된 데이터를 해독하는 데 어려움을 겪을 수 있습니다.

이 문제를 해결하기 위해 pandas는 구분 기호 정의를 위한 다양한 옵션을 제공합니다. 한 가지 접근 방식은 정규식(regex)을 사용하는 것입니다. read_csv의 구분 기호 매개변수를 사용하면 원하는 구분 기호를 캡처하는 정규식 패턴을 지정할 수 있습니다. 이를 통해 공백과 탭의 조합을 고려하여 정확한 구문 분석을 보장할 수 있습니다.

또는 Python Split() 메서드와 유사하게 작동하는 delim_whitespace 매개변수를 활용할 수도 있습니다. delim_whitespace를 True로 설정하면 pandas는 모든 공백(공백 및 탭 포함)을 구분 기호로 처리합니다. 이렇게 하면 특정 정규식 패턴을 지정할 필요가 없습니다.

다음 예를 고려하세요.

import pandas as pd

data = pd.read_csv("irregular_separators.csv", header=None, delimiter=r"\s+")

print(data)

# Output:
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

이 경우 불규칙_separators.csv에는 탭, 공백 및 심지어 다음의 조합으로 구분된 열이 포함됩니다. 둘 다. 정규식 패턴을 지정하면 read_csv가 데이터를 성공적으로 구문 분석하고 DataFrame을 생성합니다.

또는 delim_whitespace를 사용하여

data = pd.read_csv("irregular_separators.csv", header=None, delim_whitespace=True)

print(data)

# Output (same as above):
#   0  1  2  3  4
# 0  a  b  c  1  2
# 1  d  e  f  3  4

read_csv에서 구분 기호의 유연성을 활용하면 불규칙한 내용을 효과적으로 처리할 수 있습니다. 데이터 파일에 공백을 넣고 분석을 위해 의미 있는 정보를 추출합니다.

위 내용은 Pandas read_csv에서 불규칙 구분 기호를 사용하여 데이터를 어떻게 구문 분석합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

Python pandas for using Regex this

성명：

이전 기사：Django 1.10에서 \"TypeError: view는 호출 가능해야 합니다\"를 수정하는 방법은 무엇입니까?다음 기사：Django 1.10에서 \"TypeError: view는 호출 가능해야 합니다\"를 수정하는 방법은 무엇입니까?