>백엔드 개발 >파이썬 튜토리얼 >여러 조건으로 Pandas DataFrame 또는 시리즈를 효율적으로 필터링하는 방법은 무엇입니까?

여러 조건으로 Pandas DataFrame 또는 시리즈를 효율적으로 필터링하는 방법은 무엇입니까?

DDD
DDD원래의
2024-10-20 11:56:02508검색

How to Efficiently Filter Pandas DataFrame or Series with Multiple Conditions?

여러 조건을 사용하여 Pandas DataFrame 또는 시리즈를 효율적으로 필터링

Pandas는 reindex(), apply() 및 map()을 포함하여 데이터 필터링을 위한 다양한 메서드를 제공합니다. . 그러나 여러 필터를 적용하면 효율성이 문제가 됩니다.

최적화된 필터링을 위해서는 부울 인덱싱 활용을 고려하세요. Pandas와 Numpy는 모두 불필요한 복사본을 생성하지 않고 기본 데이터 배열에서 직접 작동하는 부울 인덱싱을 지원합니다.

다음은 부울 인덱싱의 예입니다.

<code class="python">df.loc[df['col1'] >= 1, 'col1']</code>

이 표현식은 다음을 포함하는 Pandas 시리즈를 반환합니다. 'col1' 열의 값이 1보다 크거나 같은 행만.

여러 필터를 적용하려면 논리 연산자 '&'(AND) 및 '|'를 사용하세요. (또는). 예를 들면 다음과 같습니다.

<code class="python">df[(df['col1'] >= 1) &amp; (df['col1'] <=1 )]</code>

이 표현식은 'col1' 열의 값이 1에서 1 사이인 행만 포함하는 DataFrame을 반환합니다.

도우미 함수의 경우 다음과 같은 함수 정의를 고려하세요. DataFrame을 가져와 부울 시리즈를 반환하면 논리 연산자를 사용하여 여러 필터를 결합할 수 있습니다.

<code class="python">def b(x, col, op, n):
    return op(x[col],n)

def f(x, *b):
    return x[(np.logical_and(*b))]</code>

Pandas 0.13에는 복잡한 필터링 조건을 표현하는 보다 효율적인 방법을 제공하는 query() 메서드가 도입되었습니다. 유효한 열 식별자를 가정하고 다음 코드는 여러 조건에 따라 DataFrame df를 필터링합니다.

<code class="python">df.query('col1 <= 1 &amp; 1 <= col1')</code>

요약하면 부울 인덱싱은 불필요한 복사본을 생성하지 않고 Pandas DataFrames 또는 Series에 여러 필터를 적용하는 효율적인 방법을 제공합니다. 확장된 기능을 위해 논리 연산자와 도우미 함수를 사용하여 여러 필터를 결합합니다.

위 내용은 여러 조건으로 Pandas DataFrame 또는 시리즈를 효율적으로 필터링하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.