>백엔드 개발 >파이썬 튜토리얼 >열 값을 기반으로 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?

열 값을 기반으로 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?

Linda Hamilton
Linda Hamilton원래의
2024-12-24 01:24:11454검색

How to Efficiently Select Data from a Pandas DataFrame Based on Column Values?

열 값을 기준으로 DataFrame에서 데이터를 선택하는 방법

SQL에서 열 값을 기준으로 행을 선택하는 일반적인 쿼리는 다음과 같습니다. like:

SELECT *
FROM table
WHERE column_name = some_value

Pandas에서 동일한 결과를 얻으려면 몇 가지 방법이 있습니다. 접근 방식:

정확한 값 일치

열 값이 특정 값(some_value)과 동일한 행을 선택하려면 .loc 내에서 == 연산자를 사용하세요.

df.loc[df['column_name'] == some_value]

가치 포용 및 제외

열 값이 목록(some_values)에 포함된 행을 선택하려면 isin 함수를 사용하세요.

df.loc[df['column_name'].isin(some_values)]

특정 값을 제외하려면 반환된 부울 시리즈를 무효화하세요. 작성자: isin:

df = df.loc[~df['column_name'].isin(some_values)] # Note: This is not an in-place operation

결합 조건

&(AND) 및 |와 같은 논리 연산자를 사용하여 여러 조건을 결합할 수 있습니다. (OR):

df.loc[(df['column_name'] >= A) & (df['column_name'] <= B)]

올바른 연산자 우선 순위를 보장하려면 괄호가 필요합니다.

DataFrame을 고려하세요.

import pandas as pd
import numpy as np

df = pd.DataFrame({'A': 'foo bar foo bar foo bar foo foo'.split(),
                   'B': 'one one two three two two one three'.split(),
                   'C': np.arange(8), 'D': np.arange(8) * 2})

'A'가 동일한 행을 선택하려면 'foo':

print(df.loc[df['A'] == 'foo'])

수율:

     A      B  C  D
0  foo    one  0  0
2  foo    two  2  4
4  foo    two  4  8
6  foo    one  6  12
7  foo  three  7  14

여러 값 선택을 위한 최적화

여러 값을 기반으로 행을 선택하는 경우 다음과 같습니다. 인덱스를 생성하고 df.index.isin과 함께 .loc를 사용하는 것이 더 효율적입니다. 이렇게 하면 isin을 여러 번 호출하는 것을 방지하여 성능이 향상됩니다.

df = df.set_index(['B'])
print(df.loc[df.index.isin(['one','two'])])

수익률:

       A  C  D
B
one  foo  0  0
one  bar  1  2
one  foo  6  12
two  foo  2  4
two  foo  4  8
two  bar  5  10

위 내용은 열 값을 기반으로 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.