>백엔드 개발 >파이썬 튜토리얼 >여러 복잡한 기준을 사용하여 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?

여러 복잡한 기준을 사용하여 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?

DDD
DDD원래의
2024-12-02 20:45:14613검색

How to Efficiently Select Data from a Pandas DataFrame with Multiple Complex Criteria?

Pandas.DataFrame에서 복잡한 기준으로 선택

데이터 조작 작업에서는 여러 조건이 포함된 복잡한 선택 기준이 자주 발생합니다. Pandas는 이러한 시나리오를 효율적으로 처리하기 위한 방법과 관용구를 제공합니다.

예:

다음 DataFrame을 고려하세요.

import pandas as pd
from random import randint

df = pd.DataFrame({'A': [randint(1, 9) for x in range(10)],
                   'B': [randint(1, 9)*10 for x in range(10)],
                   'C': [randint(1, 9)*100 for x in range(10)]})

문제:

'A'에서 값을 선택하세요. 'B'에 해당하는 값은 50보다 크고 'C'는 900이 아닙니다.

해결책:

열 연산을 적용하여 부울 시리즈 객체를 얻을 수 있습니다. 각 조건에 대해:

df["B"] > 50
(df["B"] > 50) & (df["C"] != 900)

또는 동등하게:

(df["B"] > 50) & ~(df["C"] == 900)

이러한 부울 시리즈를 사용하여 DataFrame에 색인을 생성할 수 있습니다:

df["A"][(df["B"] > 50) & (df["C"] != 900)]

또는 .loc를 사용하여:

df.loc[(df["B"] > 50) & (df["C"] != 900), "A"]

참고:

쓰기 액세스의 경우 다음을 사용하는 것이 좋습니다. 인덱스를 연결하는 대신 .loc를 사용하면 복사본 대신 보기가 발생하여 잠재적인 문제가 발생할 수 있습니다.

위 내용은 여러 복잡한 기준을 사용하여 Pandas DataFrame에서 데이터를 효율적으로 선택하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.