Pandas read_csv에서 비정규 구분 기호 처리
pandas에서 read_csv 메서드를 사용하여 파일에서 데이터를 읽는 동안 다양한 구분 기호를 접할 수 있습니다. 귀하의 열 내에서. 일부 필드는 탭으로 구분될 수 있지만 다른 필드는 일관되지 않은 공백 구분이 있을 수 있습니다(예: 2-3개의 공백 또는 혼합된 공백과 탭).
Pandas가 이러한 불규칙성을 효과적으로 탐색할 수 있습니까?
Python의 필드와 달리 line.split() 메서드를 사용하면 팬더의 read_csv()가 균일하지 않은 구분 기호를 수용하는 데 어려움을 겪을 수 있습니다. 그러나 이 문제를 해결하는 솔루션이 있습니다.
정규식 구분 기호 사용:
read_csv()의 구분 기호 매개 변수는 정규식을 허용할 수 있습니다. "s "를 사용하면 공백 문자(공백 및 탭 포함)를 구분 기호로 처리하도록 팬더에 지시할 수 있습니다.
<code class="python">pd.read_csv("whitespace.csv", header=None, delimiter=r"\s+")</code>
delim_whitespace 사용:
케이스의 경우 구분 기호가 공백(공백 또는 탭)인 경우 delim_whitespace 매개변수를 사용하여 코드를 단순화할 수 있습니다.
<code class="python">pd.read_csv("whitespace.csv", header=None, delim_whitespace=True)</code>
위 내용은 Pandas는 CSV 입력에서 균일하지 않은 구분 기호를 효과적으로 처리할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!