집 >백엔드 개발 >파이썬 튜토리얼 >여러 기준을 사용하여 Pandas DataFrame 및 시리즈를 효율적으로 필터링하는 방법

여러 기준을 사용하여 Pandas DataFrame 및 시리즈를 효율적으로 필터링하는 방법

How to Efficiently Filter Pandas DataFrames and Series Using Multiple Criteria

Pandas DataFrames 및 시리즈에 여러 필터를 효율적으로 적용

Pandas에서 데이터 작업을 할 때 여러 기준에 따라 필터링해야 하는 경우가 많습니다. 기존 접근 방식에서는 여러 reindex() 작업을 연결하는 것이 포함되지만 이 기술은 새로운 개체를 생성하고 데이터를 복사하므로 비효율적입니다.

대체 접근 방식은 훨씬 더 효율적인 부울 인덱싱을 활용하는 것입니다. Pandas는 부울 인덱싱을 허용하여 True/False 평가를 기반으로 데이터를 직접 하위 집합화할 수 있습니다.

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

이 기술은 새로운 개체 생성과 불필요한 복사를 방지하여 보다 효율적인 데이터 필터링 수단을 제공합니다.

효율성을 더욱 향상시키기 위해 이러한 목적으로 도우미 함수를 작성할 수 있습니다.

<code class="python">def b(x, col, op, n): 
     return op(x[col],n)

def f(x, *b):
     return x[(np.logical_and(*b))]</code>

이러한 도우미 함수를 사용하면 여러 필터를 적용하는 것이 간단해집니다.

<code class="python">b1 = b(df, 'col1', ge, 1)
b2 = b(df, 'col1', le, 1)
f(df, b1, b2)</code>

Pandas 버전의 경우 0.13 이상에서는 전용 쿼리 방법이 최적화를 위해 numexpr을 활용하여 여러 필터를 적용하는 훨씬 더 효율적인 방법을 제공합니다.

<code class="python">df.query('col1 <= 1 & 1 <= col1')</code>

위 내용은 여러 기준을 사용하여 Pandas DataFrame 및 시리즈를 효율적으로 필터링하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명：