집 >백엔드 개발 >파이썬 튜토리얼 >기본 Pandas 데이터 필터링 방법 및 기술

기본 Pandas 데이터 필터링 방법 및 기술

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB원래의: 2024-01-24 09:11:201582검색

Pandas 데이터 필터링을 위한 기본 방법 및 기법, 구체적인 코드 예제가 필요함

소개:
데이터 분석 및 처리의 지속적인 개발을 통해 Pandas는 데이터 과학자 및 분석가를 위한 강력한 도구가 되었습니다. Pandas는 NumPy를 기반으로 하는 오픈 소스 데이터 분석 라이브러리로, 데이터 읽기, 정리, 분석 및 시각화에 적합한 유연하고 효율적인 데이터 구조를 제공합니다. 데이터 분석 과정에서 데이터 필터링은 매우 중요한 링크입니다. 이 기사에서는 Pandas 데이터 필터링의 기본 방법과 기술을 소개하고 독자가 더 잘 이해하고 적용할 수 있도록 구체적인 코드 예제를 제공합니다.

1. Pandas 데이터 구조 검토
구체적인 데이터 스크리닝을 시작하기 전에 먼저 Pandas - Series 및 DataFrame의 주요 데이터 구조를 검토해 보겠습니다.

1.1 시리즈
시리즈는 데이터와 인덱스의 집합으로 구성된 1차원 배열과 유사한 객체입니다. 데이터는 모든 유형이 될 수 있으며 인덱스는 데이터를 찾고 액세스하는 데 도움이 되는 레이블입니다. 다음과 같은 방법으로 시리즈를 생성할 수 있습니다.

import pandas as pd

data = pd.Series([1, 2, 3, 4, 5])

1.2 DataFrame
DataFrame은 Pandas에서 가장 일반적으로 사용되는 데이터 구조이며 2차원 배열이나 테이블과 유사한 객체로 볼 수 있습니다. 이는 정렬된 열 집합으로 구성되며 각 열은 서로 다른 데이터 유형(정수, 부동 소수점, 문자열 등)일 수 있습니다. 다음과 같은 방법으로 DataFrame을 만들 수 있습니다.

data = {'Name': ['Tom', 'John', 'Amy', 'Lisa'],
        'Age': [25, 30, 28, 35],
        'City': ['Beijing', 'Shanghai', 'Guangzhou', 'Shenzhen']}
df = pd.DataFrame(data)

2. Pandas 데이터 필터링 방법 및 기술
Pandas는 다양한 데이터 필터링 방법 및 기술을 제공합니다. 아래에서는 일반적으로 사용되는 몇 가지 방법을 소개합니다.

2.1 기본 조건 필터링
지정된 조건으로 필터링하는 것은 데이터를 필터링하는 가장 일반적인 방법 중 하나입니다. Pandas는 SQL의 WHERE 키워드와 유사한 기능을 제공합니다. 비교 연산자(==, !=, >, =,

# 筛选年龄大于等于30的数据
df[df['Age'] >= 30]

2.2 다중 조건 필터링
단일 조건으로 필터링하는 것 외에도 논리 연산자(and, or, not)와 괄호를 통해 필터링하기 위해 여러 조건을 결합할 수도 있습니다. 예는 다음과 같습니다:

# 筛选年龄大于等于30并且城市为上海的数据
df[(df['Age'] >= 30) & (df['City'] == 'Shanghai')]

2.3 isin() 함수 필터링
isin() 함수는 특정 조건을 충족하는 데이터를 필터링하는 데 도움이 되는 매우 유용한 필터링 방법입니다. 예는 다음과 같습니다.

# 筛选城市为上海或深圳的数据
df[df['City'].isin(['Shanghai', 'Shenzhen'])]

2.4 query() 함수 필터링
query() 함수는 Pandas에서 제공하는 고급 필터링 방법으로, 복잡한 데이터 필터링을 코드 한 줄로 구현할 수 있습니다. 예는 다음과 같습니다.

# 使用query()函数筛选年龄大于等于30的数据
df.query('Age >= 30')

2.5 열 이름으로 필터링
때로는 특정 열의 데이터만 필터링해야 하고 열 이름을 지정하여 필터링할 수 있습니다. 예는 다음과 같습니다.

# 筛选出名字和城市两列的数据
df[['Name', 'City']]

2.6 loc 및 iloc를 사용한 필터링
위의 방법 외에도 Pandas는 데이터 필터링을 위해 loc 및 iloc라는 두 가지 특수 속성을 제공합니다. loc은 레이블 기반 인덱싱에 사용되고 iloc는 위치 기반 인덱싱에 사용됩니다. 예시는 다음과 같습니다.

# 使用loc基于标签进行筛选
df.loc[df['Age'] >= 30, ['Name', 'City']]

# 使用iloc基于位置进行筛选
df.iloc[df['Age'] >= 30, [0, 2]]

3. 요약
이 글에서는 Pandas 데이터 필터링의 기본 방법과 기술을 소개하고 구체적인 코드 예시를 제공합니다. 이러한 방법을 익히면 데이터를 유연하게 필터링하고 처리하여 필요한 정보를 추출할 수 있습니다. 위의 방법 외에도 Pandas는 실제 요구 사항에 따라 추가 학습 및 탐색을 위한 다른 많은 강력한 기능과 도구도 제공합니다. 이 기사가 독자들이 데이터 스크리닝에 도움이 되고 실제 애플리케이션에서 데이터 분석 및 처리를 위해 Pandas를 더 잘 활용할 수 있기를 바랍니다.

위 내용은 기본 Pandas 데이터 필터링 방법 및 기술의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

sql numpy pandas 数据类型运算符比较运算符逻辑运算符字符串数据结构对象数据分析

성명：

이전 기사：Pandas 라이브러리의 가져오기 효율성을 개선하고 일반적인 문제를 해결합니다.다음 기사：Pandas 라이브러리의 가져오기 효율성을 개선하고 일반적인 문제를 해결합니다.