>백엔드 개발 >파이썬 튜토리얼 >Pandas는 CSV 입력에서 균일하지 않은 구분 기호를 효과적으로 처리할 수 있나요?

Pandas는 CSV 입력에서 균일하지 않은 구분 기호를 효과적으로 처리할 수 있나요?

DDD
DDD원래의
2024-10-22 08:19:02465검색

Can Pandas Effectively Handle Non-Uniform Separators in CSV Input?

Pandas read_csv에서 비정규 구분 기호 처리

pandas에서 read_csv 메서드를 사용하여 파일에서 데이터를 읽는 동안 다양한 구분 기호를 접할 수 있습니다. 귀하의 열 내에서. 일부 필드는 탭으로 구분될 수 있지만 다른 필드는 일관되지 않은 공백 구분이 있을 수 있습니다(예: 2-3개의 공백 또는 혼합된 공백과 탭).

Pandas가 이러한 불규칙성을 효과적으로 탐색할 수 있습니까?

Python의 필드와 달리 line.split() 메서드를 사용하면 팬더의 read_csv()가 균일하지 않은 구분 기호를 수용하는 데 어려움을 겪을 수 있습니다. 그러나 이 문제를 해결하는 솔루션이 있습니다.

정규식 구분 기호 사용:

read_csv()의 구분 기호 매개 변수는 정규식을 허용할 수 있습니다. "s "를 사용하면 공백 문자(공백 및 탭 포함)를 구분 기호로 처리하도록 팬더에 지시할 수 있습니다.

<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>

delim_whitespace 사용:

케이스의 경우 구분 기호가 공백(공백 또는 탭)인 경우 delim_whitespace 매개변수를 사용하여 코드를 단순화할 수 있습니다.

<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>

위 내용은 Pandas는 CSV 입력에서 균일하지 않은 구분 기호를 효과적으로 처리할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.