如何使用 Z 分數識別並刪除 Pandas DataFrame 中的異常值？-Python教學-PHP中文網

首頁

後端開發

Python教學

如何使用 Z 分數識別並刪除 Pandas DataFrame 中的異常值？

Patricia Arquette

Nov 30, 2024 pm 12:39 PM

How Can I Identify and Remove Outliers from a Pandas DataFrame Using Z-scores?

識別和排除pandas DataFrame 中的異常值

在具有多個列的pandas DataFrame 中，根據特定列值識別和排除異常值可以提高資料的準確性和可靠性。離群值或顯著偏離大多數數據的極端值可能會扭曲分析結果並導致錯誤的結論。

要有效過濾離群值，穩健的方法是依賴統計技術。一種方法涉及使用 Z 分數，它衡量一個值與平均值的標準差有多少。 Z 分數超過預定義閾值的行可視為異常值。

使用 sciPy.stats.zscore

sciPy 函式庫提供 zscore() 函數來計算 Z -DataFrame 中每列的分數。這是一個檢測和排除異常值的優雅解決方案：

import pandas as pd
import numpy as np
from scipy import stats

df = pd.DataFrame({'Vol': [1200, 1220, 1215, 4000, 1210]})

outlier_threshold = 3

# Compute Z-scores for the 'Vol' column
zscores = np.abs(stats.zscore(df['Vol']))

# Create a mask to identify rows with outliers
outlier_mask = zscores > outlier_threshold

# Exclude rows with outliers
df_without_outliers = df[~outlier_mask]

這種方法可以有效識別異常值行並將其從 DataFrame 中刪除。

處理多列

如果有多列，異常值偵測可以套用於特定欄位或所有欄位同時：

# Outliers in at least one column
outlier_mask = (np.abs(stats.zscore(df)) <pre class="brush:php;toolbar:false"># Outliers in a specific column ('Vol')
zscores = np.abs(stats.zscore(df['Vol']))
outlier_mask = zscores > outlier_threshold

# Remove rows with outliers in the 'Vol' column
df_without_outliers = df[~outlier_mask]

透過採用Z-score計算等統計方法，可以有效偵測並排除pandas DataFrame中的異常值，確保分析資料更乾淨、更可靠。

以上是如何使用 Z 分數識別並刪除 Pandas DataFrame 中的異常值？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

陳述

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

Python中如何實現工廠模式？May 16, 2025 pm 12:39 PM

在Python中實現工廠模式可以通過創建一個統一的接口來創建不同類型的對象。具體步驟如下：1.定義一個基礎類和多個繼承類，如Vehicle、Car、Plane和Train。 2.創建一個工廠類VehicleFactory，使用create_vehicle方法根據類型參數返回相應的對象實例。 3.通過工廠類實例化對象，如my_car=factory.create_vehicle("car","Tesla")。這種模式提高了代碼的可擴展性和可維護性，但需注意其複雜

python中r是什麼意思 python原始字符串前綴May 16, 2025 pm 12:36 PM

在Python中，r或R前綴用於定義原始字符串，忽略所有轉義字符，讓字符串按字面意思解釋。 1)適用於處理正則表達式和文件路徑，避免轉義字符誤解。 2)不適用於需要保留轉義字符的情況，如換行符。使用時需謹慎檢查，以防意外的輸出。

Python中如何使用__del__方法清理資源？May 16, 2025 pm 12:33 PM

在Python中，__del__方法是對象的析構函數，用於清理資源。 1)不確定的執行時間：依賴垃圾回收機制。 2)循環引用：可能導致無法及時調用，使用weakref模塊處理。 3)異常處理：在__del__中拋出的異常可能被忽略，使用try-except塊捕獲。 4)資源管理的最佳實踐：推薦使用with語句和上下文管理器管理資源。

python中pop()函數的用法 python列表pop元素移除方法詳解May 16, 2025 pm 12:30 PM

pop()函數在Python中用於從列表中移除並返回指定位置的元素。 1)不指定索引時，pop()默認移除並返回列表的最後一個元素。 2)指定索引時，pop()移除並返回該索引位置的元素。 3)使用時需注意索引錯誤、性能問題、替代方法和列表的可變性。

如何用Python進行圖像處理？May 16, 2025 pm 12:27 PM

Python進行圖像處理主要使用Pillow和OpenCV兩大庫。 Pillow適合簡單圖像處理，如加水印，代碼簡潔易用；OpenCV適用於復雜圖像處理和計算機視覺，如邊緣檢測，性能優越但需注意內存管理。

Python中怎樣實現主成分分析？May 16, 2025 pm 12:24 PM

在Python中實現PCA可以通過手動編寫代碼或使用scikit-learn庫。手動實現PCA包括以下步驟：1)中心化數據，2)計算協方差矩陣，3)計算特徵值和特徵向量，4)排序並選擇主成分，5)投影數據到新空間。手動實現有助於深入理解算法，但scikit-learn提供更便捷的功能。

怎樣用Python計算對數？May 16, 2025 pm 12:21 PM

在Python中計算對數是一件非常簡單卻又充滿趣味的事情。讓我們從最基本的問題開始：怎樣用Python計算對數？用Python計算對數的基本方法Python的math模塊提供了計算對數的函數。讓我們來看一個簡單的例子：importmath#計算自然對數（底數為e）x=10natural_log=math.log(x)print(f"自然對數log({x})={natural_log}")#計算以10為底的對數log_base_10=math.log10(x)pri

Python中如何實現線性回歸？May 16, 2025 pm 12:18 PM

要在Python中實現線性回歸，我們可以從多個角度出發。這不僅僅是一個簡單的函數調用，而是涉及到統計學、數學優化和機器學習的綜合應用。讓我們深入探討一下這個過程。在Python中實現線性回歸最常見的方法是使用scikit-learn庫，它提供了簡便且高效的工具。然而，如果我們想要更深入地理解線性回歸的原理和實現細節，我們也可以從頭開始編寫自己的線性回歸算法。使用scikit-learn實現線性回歸scikit-learn庫封裝了線性回歸的實現，使得我們可以輕鬆地進行建模和預測。下面是一個使用sc

See all articles