>백엔드 개발 >파이썬 튜토리얼 >데이터 정리 도구: Pandas에서 행 데이터 삭제를 위한 실용적인 팁

데이터 정리 도구: Pandas에서 행 데이터 삭제를 위한 실용적인 팁

王林
王林원래의
2024-01-09 23:46:261101검색

데이터 정리 도구: Pandas에서 행 데이터 삭제를 위한 실용적인 팁

데이터 정리는 데이터 분석의 중요한 측면 중 하나입니다. 데이터에 잘못된 데이터 행이 있는 경우가 많습니다. 이러한 데이터는 입력 오류, 시스템 오류 또는 기타 이유로 인해 발생할 수 있습니다. 데이터 분석 과정에서 분석 결과의 정확성을 보장하기 위해 유효하지 않은 데이터를 정리해야 합니다. Pandas는 Python의 데이터 처리 및 분석을 위한 강력한 도구입니다. 데이터를 처리하는 데 도움이 되는 다양한 기능과 방법을 제공합니다.

1. 결측값이 포함된 행 데이터 삭제
실제 데이터에서는 결측값이 자주 발생하는데, 즉 일부 필드의 값이 NaN(Not a Number)입니다. 이러한 데이터 행을 처리하지 않으면 후속 분석 결과가 부정확해집니다. Pandas는 누락된 값이 포함된 행을 삭제하는 dropna() 메서드를 제공합니다.

특정 코드 예시:

import pandas as pd

# 创建一个DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Alex'],
        'Age': [20, None, 25, 30],
        'Gender': ['M', 'M', None, 'M']}
df = pd.DataFrame(data)

# 删除含有缺失值的行数据
df.dropna(inplace=True)

print(df)

실행 결과:

  Name   Age Gender
0  Tom  20.0      M

위 예시에서는 누락된 값이 포함된 DataFrame을 생성하고 dropna() 메서드를 사용하여 누락된 값이 포함된 행 데이터를 삭제했습니다. dropna() 메서드의 inplace=True 매개변수는 새 DataFrame을 반환하지 않고 원래 DataFrame을 수정한다는 의미입니다. 실행 결과를 보면 결측값이 포함된 행 데이터가 삭제된 것을 확인할 수 있습니다.

2. 조건에 맞는 행 데이터 삭제
경우에 따라 특정 조건에 맞는 행 데이터만 삭제하고 싶을 수도 있습니다. Pandas는 이러한 요구 사항을 충족하기 위해 부울 인덱스 사용, query() 메서드 사용 등과 같은 다양한 방법을 제공합니다. 다음은 일반적으로 사용되는 두 가지 방법입니다.

(1) 부울 인덱스 사용
부울 인덱스를 생성하여 삭제해야 할 데이터 행을 선택할 수 있습니다. 구체적인 코드 예시는 다음과 같습니다.

import pandas as pd

# 创建一个DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Alex'],
        'Age': [20, 25, 30, 35]}
df = pd.DataFrame(data)

# 使用布尔索引删除满足条件的行数据
df = df[~(df['Age'] > 25)]

print(df)

실행 결과:

  Name  Age
0  Tom   20
1  Nick  25

위 예시에서는 연령 데이터가 포함된 DataFrame을 생성하고 Boolean 인덱스를 사용하여 "25세 이상" 조건을 만족하는 행 데이터를 삭제했습니다. 실행 결과를 보면 조건에 맞는 행 데이터가 삭제된 것을 확인할 수 있습니다.

(2) query() 메소드 사용
pandas는 특정 조건을 충족하는 행 데이터를 필터링하는 query() 메소드를 제공합니다. 구체적인 코드 예시는 다음과 같습니다.

import pandas as pd

# 创建一个DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Alex'],
        'Age': [20, 25, 30, 35]}
df = pd.DataFrame(data)

# 使用query()方法删除满足条件的行数据
df = df.query('Age <= 25')

print(df)

실행 결과:

  Name  Age
0  Tom   20
1  Nick  25

위 예시에서는 연령 데이터가 포함된 DataFrame을 생성하고 query() 메서드를 사용하여 'age 이상' 조건을 충족하는 데이터 행을 삭제했습니다. 25". 실행 결과를 보면 조건에 맞는 행 데이터가 삭제된 것을 확인할 수 있습니다.

3. 요약
데이터 정리 과정에서 pandas는 데이터를 처리하기 위한 다양한 기능과 방법을 제공하며 위의 코드 예제는 그 중 일부일 뿐입니다. 실제 적용에서는 특정 상황에 따라 행 데이터를 삭제하는 다양한 방법을 채택할 수도 있습니다. 이러한 방법을 사용할 때는 데이터 정리의 정확성과 효율성을 보장하기 위해 데이터의 구조와 분석 요구 사항을 신중하게 고려해야 합니다.

위 내용은 데이터 정리 도구: Pandas에서 행 데이터 삭제를 위한 실용적인 팁의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.