>백엔드 개발 >파이썬 튜토리얼 >기본 Pandas 데이터 필터링 방법 및 기술

기본 Pandas 데이터 필터링 방법 및 기술

WBOY
WBOY원래의
2024-01-24 09:11:201491검색

기본 Pandas 데이터 필터링 방법 및 기술

Pandas 데이터 필터링을 위한 기본 방법 및 기법, 구체적인 코드 예제가 필요함

소개:
데이터 분석 및 처리의 지속적인 개발을 통해 Pandas는 데이터 과학자 및 분석가를 위한 강력한 도구가 되었습니다. Pandas는 NumPy를 기반으로 하는 오픈 소스 데이터 분석 라이브러리로, 데이터 읽기, 정리, 분석 및 시각화에 적합한 유연하고 효율적인 데이터 구조를 제공합니다. 데이터 분석 과정에서 데이터 필터링은 매우 중요한 링크입니다. 이 기사에서는 Pandas 데이터 필터링의 기본 방법과 기술을 소개하고 독자가 더 잘 이해하고 적용할 수 있도록 구체적인 코드 예제를 제공합니다.

1. Pandas 데이터 구조 검토
구체적인 데이터 스크리닝을 시작하기 전에 먼저 Pandas - Series 및 DataFrame의 주요 데이터 구조를 검토해 보겠습니다.

1.1 시리즈
시리즈는 데이터와 인덱스의 집합으로 구성된 1차원 배열과 유사한 객체입니다. 데이터는 모든 유형이 될 수 있으며 인덱스는 데이터를 찾고 액세스하는 데 도움이 되는 레이블입니다. 다음과 같은 방법으로 시리즈를 생성할 수 있습니다.

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

1.2 DataFrame
DataFrame은 Pandas에서 가장 일반적으로 사용되는 데이터 구조이며 2차원 배열이나 테이블과 유사한 객체로 볼 수 있습니다. 이는 정렬된 열 집합으로 구성되며 각 열은 서로 다른 데이터 유형(정수, 부동 소수점, 문자열 등)일 수 있습니다. 다음과 같은 방법으로 DataFrame을 만들 수 있습니다.

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)

2. Pandas 데이터 필터링 방법 및 기술
Pandas는 다양한 데이터 필터링 방법 및 기술을 제공합니다. 아래에서는 일반적으로 사용되는 몇 가지 방법을 소개합니다.

2.1 기본 조건 필터링
지정된 조건으로 필터링하는 것은 데이터를 필터링하는 가장 일반적인 방법 중 하나입니다. Pandas는 SQL의 WHERE 키워드와 유사한 기능을 제공합니다. 비교 연산자(==, !=, >, =,

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]

2.2 다중 조건 필터링
단일 조건으로 필터링하는 것 외에도 논리 연산자(and, or, not)와 괄호를 통해 필터링하기 위해 여러 조건을 결합할 수도 있습니다. 예는 다음과 같습니다:

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]

2.3 isin() 함수 필터링
isin() 함수는 특정 조건을 충족하는 데이터를 필터링하는 데 도움이 되는 매우 유용한 필터링 방법입니다. 예는 다음과 같습니다.

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]

2.4 query() 함수 필터링
query() 함수는 Pandas에서 제공하는 고급 필터링 방법으로, 복잡한 데이터 필터링을 코드 한 줄로 구현할 수 있습니다. 예는 다음과 같습니다.

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')

2.5 열 이름으로 필터링
때로는 특정 열의 데이터만 필터링해야 하고 열 이름을 지정하여 필터링할 수 있습니다. 예는 다음과 같습니다.

# 筛选出名字和城市两列的数据
df[['Name', 'City']]

2.6 loc 및 iloc를 사용한 필터링
위의 방법 외에도 Pandas는 데이터 필터링을 위해 loc 및 iloc라는 두 가지 특수 속성을 제공합니다. loc은 레이블 기반 인덱싱에 사용되고 iloc는 위치 기반 인덱싱에 사용됩니다. 예시는 다음과 같습니다.

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]

3. 요약
이 글에서는 Pandas 데이터 필터링의 기본 방법과 기술을 소개하고 구체적인 코드 예시를 제공합니다. 이러한 방법을 익히면 데이터를 유연하게 필터링하고 처리하여 필요한 정보를 추출할 수 있습니다. 위의 방법 외에도 Pandas는 실제 요구 사항에 따라 추가 학습 및 탐색을 위한 다른 많은 강력한 기능과 도구도 제공합니다. 이 기사가 독자들이 데이터 스크리닝에 도움이 되고 실제 애플리케이션에서 데이터 분석 및 처리를 위해 Pandas를 더 잘 활용할 수 있기를 바랍니다.

위 내용은 기본 Pandas 데이터 필터링 방법 및 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.