首页 >后端开发 >Python教程 >如何使用 Z 分数识别并删除 Pandas DataFrame 中的异常值?

如何使用 Z 分数识别并删除 Pandas DataFrame 中的异常值?

Patricia Arquette
Patricia Arquette原创
2024-11-30 12:39:14632浏览

How Can I Identify and Remove Outliers from a Pandas DataFrame Using Z-scores?

识别和排除 pandas DataFrame 中的异常值

在具有多个列的 pandas DataFrame 中,根据特定列值识别和排除异常值可以提高数据的准确性和可靠性。离群值或显着偏离大多数数据的极值可能会扭曲分析结果并导致错误的结论。

要有效过滤离群值,一种稳健的方法是依靠统计技术。一种方法涉及使用 Z 分数,它衡量一个值与平均值的标准差有多少。 Z 分数超过预定义阈值的行可被视为异常值。

使用 sciPy.stats.zscore

sciPy 库提供 zscore() 函数来计算 Z -DataFrame 中每列的分数。这是一个检测和排除异常值的优雅解决方案:

import pandas as pd
import numpy as np
from scipy import stats

df = pd.DataFrame({'Vol': [1200, 1220, 1215, 4000, 1210]})

outlier_threshold = 3

# Compute Z-scores for the 'Vol' column
zscores = np.abs(stats.zscore(df['Vol']))

# Create a mask to identify rows with outliers
outlier_mask = zscores > outlier_threshold

# Exclude rows with outliers
df_without_outliers = df[~outlier_mask]

这种方法可以有效识别异常值行并将其从 DataFrame 中删除。

处理多列

如果有多列,异常值检测可以应用于特定列或所有列同时:

# Outliers in at least one column
outlier_mask = (np.abs(stats.zscore(df)) < outlier_threshold).all(axis=1)

# Remove rows with outliers in any column
df_without_outliers = df[~outlier_mask]
# Outliers in a specific column ('Vol')
zscores = np.abs(stats.zscore(df['Vol']))
outlier_mask = zscores > outlier_threshold

# Remove rows with outliers in the 'Vol' column
df_without_outliers = df[~outlier_mask]

通过采用Z-score计算等统计方法,可以有效地检测和排除pandas DataFrame中的异常值,确保分析数据更干净、更可靠。

以上是如何使用 Z 分数识别并删除 Pandas DataFrame 中的异常值?的详细内容。更多信息请关注PHP中文网其他相关文章!

声明:
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn