Pandas를 사용하여 DataFrame 문자열에서 숫자 추출
데이터 분석에서는 문자열에서 특정 패턴이나 데이터 유형을 추출해야 하는 경우가 많습니다. Pandas DataFrames의 경우 문자열 열에는 문자와 숫자를 포함한 혼합 데이터 유형이 포함될 수 있습니다. 이 문서에서는 강력한 Pandas 라이브러리를 사용하여 이러한 문자열에서 숫자를 추출하는 문제를 다룹니다.
문자열과 숫자 값이 혼합되어 있는 'A'라는 열이 있는 'df'라는 다음 DataFrame 예제를 고려해 보세요.
<code class="python">import pandas as pd import numpy as np df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'], })</code>
우리의 목표는 각 셀에서 숫자 값을 분리하여 정수만 포함된 깨끗한 열을 만드는 것입니다.
A 0 1 1 NaN 2 10 3 100 4 0
정규 표현식 및 캡처 그룹 사용
문자열에서 숫자를 추출하는 효과적인 접근 방식 중 하나는 캡처 그룹과 함께 정규식(regex)을 활용하는 것입니다. Regex를 사용하면 문자열의 특정 문자나 시퀀스와 일치하는 패턴을 지정할 수 있습니다. 캡처 그룹을 사용하면 문자열에서 일치하는 부분을 캡처하고 추출할 수 있습니다.
이 경우 다음 정규식 패턴을 사용할 수 있습니다.
(\d+)
이 패턴은 일치하는 캡처 그룹을 나타냅니다. 한 행 이상의 숫자(d).
'str.extract' 메서드를 사용하여 이 패턴을 DataFrame에 적용하면
<code class="python">df.A.str.extract('(\d+)')</code>
원하는 결과가 생성됩니다.
0 1 1 NaN 2 10 3 100 4 0 Name: A, dtype: object
캡처 그룹이 문자를 무시하고 문자열의 숫자 부분을 추출하는 데 성공했습니다. 이 방법은 정수에만 적용되며 부동 소수점 값에는 작동하지 않는다는 점에 유의하는 것이 중요합니다.
결론적으로 캡처 그룹과 함께 정규식을 활용하면 문자열 열에서 숫자를 추출하는 간결하고 효율적인 방법을 제공합니다. Pandas DataFrames 내에서. 이 기술을 통합함으로써 데이터 분석가는 추가 분석 및 조작을 위해 숫자 데이터를 효과적으로 분리할 수 있습니다.
위 내용은 Pandas DataFrames의 문자열에서 숫자를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!