Pandas 데이터 조작: 문자열 열에서 숫자 추출
Pandas에서 데이터 프레임으로 작업할 때 추출하기 위해 다양한 조작을 수행해야 합니다. 의미있는 정보. 그러한 작업 중 하나에는 데이터 프레임 열에 포함된 문자열에서 숫자 값을 추출하는 작업이 포함될 수 있습니다. 여기에서는 이 요구 사항을 해결하기 위한 특정 시나리오를 살펴봅니다.
문자열 값이 포함된 'A'라는 열이 있는 다음 데이터 프레임을 고려해 보세요.
<code class="python">import pandas as pd import numpy as np df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'], }) print(df)</code>
목표는 다음과 같습니다. 'A' 열의 각 셀에서 숫자만 추출하여 'A' 열에 숫자 값만 포함된 새 데이터 프레임이 생성됩니다.
이를 달성하려면 강력한 str .extract Pandas의 함수. str.extract 표현식 내에서 정규식 캡처 그룹을 사용하면 데이터 프레임의 각 문자열에서 숫자를 분리하고 추출할 수 있습니다.
<code class="python">df.A.str.extract('(\d+)')</code>
정규식 패턴 '(d )'는 하나 또는 더 많은 숫자(d)를 입력하고 이를 그룹(괄호 ( 및 ))으로 캡처합니다. 위 코드를 실행하면 다음과 같은 결과가 나옵니다.
<code class="python"> A 0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object</code>
'A' 열의 원래 문자열은 성공적으로 숫자 값으로 변환되었으며, NaN은 값이 누락된 셀에 대해 유지됩니다. 이 방법은 문자열에서 정수를 추출하는 데 특히 효과적인 것으로 입증되어 데이터 분석 및 조작 시나리오에서 유용한 도구가 됩니다.
위 내용은 Pandas의 문자열 열에서 숫자 값을 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!