>백엔드 개발 >파이썬 튜토리얼 >Pandas DataFrames에서 공백 값을 NaN으로 효율적으로 바꾸는 방법은 무엇입니까?

Pandas DataFrames에서 공백 값을 NaN으로 효율적으로 바꾸는 방법은 무엇입니까?

Mary-Kate Olsen
Mary-Kate Olsen원래의
2024-10-27 05:03:30379검색

How to Efficiently Replace Whitespace Values with NaN in Pandas DataFrames?

Pandas에서 공백 값(공백)을 NaN으로 바꾸기

문제:

공백 값이 있는 Pandas 데이터 프레임을 고려하세요. 특정 열에 존재합니다. 목표는 이러한 공백을 NaN 값으로 바꾸는 것입니다.

못생긴 솔루션:

<code class="python">for i in df.columns:
    df[i][df[i].apply(lambda i: True if re.search('^\s*$', str(i)) else False)]=None</code>

이 솔루션은 각 열을 반복하고 정규식을 사용하여 부울 마스크를 생성합니다. 공백 값을 없음으로 바꿉니다. 그러나 이는 비효율적이고 관용적이지 않습니다.

향상된 솔루션:

<code class="python">df = pd.DataFrame([
    [-0.532681, 'foo', 0],
    [1.490752, 'bar', 1],
    [-1.387326, 'foo', 2],
    [0.814772, 'baz', ' '],
    [-0.222552, '   ', 4],
    [-1.176781, 'qux', '  '],
], columns='A B C'.split(), index=pd.date_range('2000-01-01','2000-01-06'))

# replaces field that's entirely space (or empty) with NaN
print(df.replace(r'^\s*$', np.nan, regex=True))</code>

이 솔루션은 Pandas의 내장 교체() 기능을 활용합니다. 정규식 패턴을 기반으로 지정된 값을 바꾸는 데 사용됩니다. r'^s*$'를 사용하면 정규식은 공백으로만 구성된(또는 비어 있는) 모든 필드를 일치시키고 NaN으로 바꿉니다.

최적화:

  • 공백 값은 일반적으로 개체 열에서 발견되므로 열 데이터 유형이 개체인지 확인하세요.
  • 유효한 데이터에 공백 문자가 포함된 경우 r'^s*$' 대신 r'^s $'를 사용하세요. .

위 내용은 Pandas DataFrames에서 공백 값을 NaN으로 효율적으로 바꾸는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.