>  기사  >  백엔드 개발  >  Pandas DataFrames의 문자열에서 숫자를 추출하는 방법은 무엇입니까?

Pandas DataFrames의 문자열에서 숫자를 추출하는 방법은 무엇입니까?

Patricia Arquette
Patricia Arquette원래의
2024-10-24 10:24:02418검색

How to Extract Numbers from Strings in Pandas DataFrames?

Pandas를 사용하여 DataFrame 문자열에서 숫자 추출

데이터 분석에서는 문자열에서 특정 패턴이나 데이터 유형을 추출해야 하는 경우가 많습니다. Pandas DataFrames의 경우 문자열 열에는 문자와 숫자를 포함한 혼합 데이터 유형이 포함될 수 있습니다. 이 문서에서는 강력한 Pandas 라이브러리를 사용하여 이러한 문자열에서 숫자를 추출하는 문제를 다룹니다.

문자열과 숫자 값이 혼합되어 있는 'A'라는 열이 있는 'df'라는 다음 DataFrame 예제를 고려해 보세요.

<code class="python">import pandas as pd
import numpy as np
df = pd.DataFrame({'A':['1a',np.nan,'10a','100b','0b'],
                   })</code>

우리의 목표는 각 셀에서 숫자 값을 분리하여 정수만 포함된 깨끗한 열을 만드는 것입니다.

    A
0   1
1   NaN
2   10
3   100
4   0

정규 표현식 및 캡처 그룹 사용

문자열에서 숫자를 추출하는 효과적인 접근 방식 중 하나는 캡처 그룹과 함께 정규식(regex)을 활용하는 것입니다. Regex를 사용하면 문자열의 특정 문자나 시퀀스와 일치하는 패턴을 지정할 수 있습니다. 캡처 그룹을 사용하면 문자열에서 일치하는 부분을 캡처하고 추출할 수 있습니다.

이 경우 다음 정규식 패턴을 사용할 수 있습니다.

(\d+)

이 패턴은 일치하는 캡처 그룹을 나타냅니다. 한 행 이상의 숫자(d).

'str.extract' 메서드를 사용하여 이 패턴을 DataFrame에 적용하면

<code class="python">df.A.str.extract('(\d+)')</code>

원하는 결과가 생성됩니다.

0      1
1    NaN
2     10
3    100
4      0
Name: A, dtype: object

캡처 그룹이 문자를 무시하고 문자열의 숫자 부분을 추출하는 데 성공했습니다. 이 방법은 정수에만 적용되며 부동 소수점 값에는 작동하지 않는다는 점에 유의하는 것이 중요합니다.

결론적으로 캡처 그룹과 함께 정규식을 활용하면 문자열 열에서 숫자를 추출하는 간결하고 효율적인 방법을 제공합니다. Pandas DataFrames 내에서. 이 기술을 통합함으로써 데이터 분석가는 추가 분석 및 조작을 위해 숫자 데이터를 효과적으로 분리할 수 있습니다.

위 내용은 Pandas DataFrames의 문자열에서 숫자를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.