데이터 정리는 데이터 분석의 중요한 측면 중 하나입니다. 데이터에 잘못된 데이터 행이 있는 경우가 많습니다. 이러한 데이터는 입력 오류, 시스템 오류 또는 기타 이유로 인해 발생할 수 있습니다. 데이터 분석 과정에서 분석 결과의 정확성을 보장하기 위해 유효하지 않은 데이터를 정리해야 합니다. Pandas는 Python의 데이터 처리 및 분석을 위한 강력한 도구입니다. 데이터를 처리하는 데 도움이 되는 다양한 기능과 방법을 제공합니다.
1. 결측값이 포함된 행 데이터 삭제
실제 데이터에서는 결측값이 자주 발생하는데, 즉 일부 필드의 값이 NaN(Not a Number)입니다. 이러한 데이터 행을 처리하지 않으면 후속 분석 결과가 부정확해집니다. Pandas는 누락된 값이 포함된 행을 삭제하는 dropna() 메서드를 제공합니다.
특정 코드 예시:
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, None, 25, 30], 'Gender': ['M', 'M', None, 'M']} df = pd.DataFrame(data) # 删除含有缺失值的行数据 df.dropna(inplace=True) print(df)
실행 결과:
Name Age Gender 0 Tom 20.0 M
위 예시에서는 누락된 값이 포함된 DataFrame을 생성하고 dropna() 메서드를 사용하여 누락된 값이 포함된 행 데이터를 삭제했습니다. dropna() 메서드의 inplace=True 매개변수는 새 DataFrame을 반환하지 않고 원래 DataFrame을 수정한다는 의미입니다. 실행 결과를 보면 결측값이 포함된 행 데이터가 삭제된 것을 확인할 수 있습니다.
2. 조건에 맞는 행 데이터 삭제
경우에 따라 특정 조건에 맞는 행 데이터만 삭제하고 싶을 수도 있습니다. Pandas는 이러한 요구 사항을 충족하기 위해 부울 인덱스 사용, query() 메서드 사용 등과 같은 다양한 방법을 제공합니다. 다음은 일반적으로 사용되는 두 가지 방법입니다.
(1) 부울 인덱스 사용
부울 인덱스를 생성하여 삭제해야 할 데이터 행을 선택할 수 있습니다. 구체적인 코드 예시는 다음과 같습니다.
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用布尔索引删除满足条件的行数据 df = df[~(df['Age'] > 25)] print(df)
실행 결과:
Name Age 0 Tom 20 1 Nick 25
위 예시에서는 연령 데이터가 포함된 DataFrame을 생성하고 Boolean 인덱스를 사용하여 "25세 이상" 조건을 만족하는 행 데이터를 삭제했습니다. 실행 결과를 보면 조건에 맞는 행 데이터가 삭제된 것을 확인할 수 있습니다.
(2) query() 메소드 사용
pandas는 특정 조건을 충족하는 행 데이터를 필터링하는 query() 메소드를 제공합니다. 구체적인 코드 예시는 다음과 같습니다.
import pandas as pd # 创建一个DataFrame data = {'Name': ['Tom', 'Nick', 'John', 'Alex'], 'Age': [20, 25, 30, 35]} df = pd.DataFrame(data) # 使用query()方法删除满足条件的行数据 df = df.query('Age <= 25') print(df)
실행 결과:
Name Age 0 Tom 20 1 Nick 25
위 예시에서는 연령 데이터가 포함된 DataFrame을 생성하고 query() 메서드를 사용하여 'age 이상' 조건을 충족하는 데이터 행을 삭제했습니다. 25". 실행 결과를 보면 조건에 맞는 행 데이터가 삭제된 것을 확인할 수 있습니다.
3. 요약
데이터 정리 과정에서 pandas는 데이터를 처리하기 위한 다양한 기능과 방법을 제공하며 위의 코드 예제는 그 중 일부일 뿐입니다. 실제 적용에서는 특정 상황에 따라 행 데이터를 삭제하는 다양한 방법을 채택할 수도 있습니다. 이러한 방법을 사용할 때는 데이터 정리의 정확성과 효율성을 보장하기 위해 데이터의 구조와 분석 요구 사항을 신중하게 고려해야 합니다.
위 내용은 데이터 정리 도구: Pandas에서 행 데이터 삭제를 위한 실용적인 팁의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!