이 글에서는 데이터 분석에서 이상값과 관련된 문제를 주로 소개하는 python에 대한 관련 지식을 제공합니다. 일반적으로 이상값 탐지 방법에는 통계적 방법, 클러스터링 기반 방법, 이상값을 탐지하는 몇 가지 특수 방법 등이 있습니다. 아래에 이러한 방법을 소개합니다. 모든 분들께 도움이 되기를 바랍니다.
추천 학습: Python 학습 튜토리얼
기계 학습에서 이상 탐지 및 처리는 비교적 작은 분야, 즉 기계 학습의 부산물입니다. 왜냐하면 일반적인 예측 문제에서 모델은 일반적으로 전체 샘플 데이터 구조를 분석하기 때문입니다. 이 표현식은 일반적으로 전체 샘플의 일반적인 속성을 포착하며 이러한 속성 측면에서 전체 샘플과 완전히 일치하지 않는 점을 이상값이라고 합니다 일반적으로 예측은 개발자들 사이에서 인기가 없습니다. 문제는 일반적으로 전체 샘플의 속성에 초점을 맞추고 이상값의 생성 메커니즘은 전체 샘플과 완전히 일치하지 않습니다. 알고리즘이 이상값에 민감한 경우 생성된 모델은 전체 샘플을 예측할 수 없으므로 더 나은 표현이 됩니다. 예측은 부정확할 것입니다. 반면, 질병 예측과 같은 특정 시나리오에서 분석가는 비정상적인 점에 큰 관심을 가집니다. 일반적으로 건강한 사람의 신체적 지표는 일부 차원에서 유사합니다. 물론, 이러한 변화가 반드시 질병으로 인해 발생하는 것은 아니지만(종종 노이즈 포인트라고 함), 이상 발생 및 감지는 질병 예측의 중요한 출발점입니다. 신용 사기, 사이버 공격 등에 대해서도 유사한 시나리오가 적용될 수 있습니다.
2 이상값 탐지 방법 일반적인 이상값 탐지 방법에는 통계적 방법, 클러스터링 기반 방법, 이상값 탐지에 특화된 몇 가지 방법이 있습니다. 1. 간단한 통계pandas
를 사용하는 경우 describe()
를 직접 사용하여 데이터의 통계적 설명을 관찰할 수 있습니다(일부 통계만 대략적으로 관찰). 그러나 통계는 다음과 같이 연속적입니다.
df.describe()
pandas
,我们可以直接使用describe()
来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,如下:Percentile = np.percentile(df['length'],[0,25,50,75,100]) IQR = Percentile[3] - Percentile[1] UpLimit = Percentile[3]+ageIQR*1.5 DownLimit = Percentile[1]-ageIQR*1.5
或者简单使用散点图也能很清晰的观察到异常值的存在。如下所示:
这个原则有个条件:数据需要服从正态分布。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3∂的概率是99.7%,那么距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂)
红色箭头所指就是异常值。
这种方法是利用箱型图的四分位距(IQR)对异常值进行检测,也叫Tukey‘s test。箱型图的定义如下:
四分位距(IQR)就是上四分位与下四分位的差值。而我们通过IQR的1.5倍为标准,规定:超过上四分位+1.5倍IQR距离,或者下四分位-1.5倍IQR距离的点为异常值。下面是Python中的代码实现,主要使用了numpy
的percentile
方法。
f,ax=plt.subplots(figsize=(10,8)) sns.boxplot(y='length',data=df,ax=ax) plt.show()
也可以使用seaborn
的可视化方法boxplot
또는 단순히 산점도를 사용하여 이상값의 존재를 명확하게 관찰할 수도 있습니다. 아래와 같이:
2. 이 원칙에는 다음과 같은 조건이 있습니다.3. 상자 그림
이 방법은 상자 그림의 🎜사분위수 범위(IQR)🎜를 사용하여 🎜Tukey 테스트🎜라고도 하는 이상값을 감지합니다. 상자 그림의 정의는 다음과 같습니다. 🎜🎜🎜🎜 4점 IQR은 상위 사분위수와 하위 사분위수 간의 차이입니다. 우리는 IQR의 1.5배를 표준으로 사용하며 상위 사분위수 + IQR 거리의 1.5배 또는 하위 사분위수 - IQR 거리의 1.5배🎜를 초과하는 지점이 이상값이라고 규정합니다. 다음은 주로numpy
의 percentile
메서드를 사용하는 Python의 코드 구현입니다. 🎜rrreee🎜seaborn
의 시각화 방법인 boxplot
을 사용하여 이를 달성할 수도 있습니다. 🎜rrreee🎜🎜🎜🎜빨간색 화살표는 이상값을 가리킵니다. 🎜🎜위는 이상값을 결정하는 데 일반적으로 사용되는 간단한 방법입니다. 좀 더 복잡한 이상값 탐지 알고리즘을 소개하겠습니다. 내용이 많기 때문에 관심 있는 친구들이 스스로 깊이 공부할 수 있도록 하겠습니다. 🎜🎜4. 모델 탐지 기반🎜🎜이 방법은 일반적으로 🎜확률 분포 모델🎜을 구축하고 개체가 모델을 준수할 확률을 계산하며 확률이 낮은 개체를 이상값으로 처리합니다. 모델이 클러스터 모음인 경우 이상은 어떤 클러스터에도 크게 속하지 않는 개체이고, 모델이 회귀인 경우 이상은 예측된 값에서 상대적으로 멀리 있는 개체입니다. 🎜🎜이상치의 확률 정의: 🎜이상치는 데이터의 확률 분포 모델과 관련하여 확률이 낮은 🎜 개체입니다. 이 상황의 전제 조건은 데이터 세트가 어떤 분포를 따르는지 아는 것입니다. 추정이 잘못된 경우 두꺼운 꼬리 분포가 발생합니다. 🎜예를 들어, 특성 엔지니어링의 RobustScaler
방법은 데이터 특성 값을 확장할 때 데이터 특성의 분위수 분포를 사용하여 분위수를 기준으로 데이터를 여러 세그먼트로 나누고 중간 세그먼트만 가져옵니다. 예를 들어 스케일링을 수행하려면 스케일링을 위해 25% 분위수에서 75% 분위수까지만 데이터를 가져옵니다. 이렇게 하면 비정상적인 데이터의 영향이 줄어듭니다. RobustScaler
方法,在做数据特征值缩放的时候,它会利用数据特征的分位数分布,将数据根据分位数划分为多段,只取中间段来做缩放,比如只取25%分位数到75%分位数的数据做缩放。这样减小了异常数据的影响。
优缺点:(1)有坚实的统计学理论基础,当存在充分的数据和所用的检验类型的知识时,这些检验可能非常有效;(2)对于多元数据,可用的选择少一些,并且对于高维数据,这些检测可能性很差。
统计方法是利用数据的分布来观察异常值,一些方法甚至需要一些分布条件,而在实际中数据的分布很难达到一些假设条件,在使用上有一定的局限性。
确定数据集的有意义的邻近性度量比确定它的统计分布更容易。这种方法比统计学方法更一般、更容易使用,因为一个对象的离群点得分由到它的k-最近邻(KNN)的距离给定。
需要注意的是:离群点得分对k的取值高度敏感。如果k太小,则少量的邻近离群点可能导致较低的离群点得分;如果K太大,则点数少于k的簇中所有的对象可能都成了离群点。为了使该方案对于k的选取更具有鲁棒性,可以使用k个最近邻的平均距离。
优缺点:(1)简单;(2)缺点:基于邻近度的方法需要O(m2)时间,大数据集不适用;(3)该方法对参数的选择也是敏感的;(4)不能处理具有不同密度区域的数据集,因为它使用全局阈值,不能考虑这种密度的变化。
从基于密度的观点来说,离群点是在低密度区域中的对象。基于密度的离群点检测与基于邻近度的离群点检测密切相关,因为密度通常用邻近度定义。一种常用的定义密度的方法是,定义密度为到k个最近邻的平均距离的倒数。如果该距离小,则密度高,反之亦然。另一种密度定义是使用DBSCAN聚类算法使用的密度定义,即一个对象周围的密度等于该对象指定距离d内对象的个数。
优缺点:(1)给出了对象是离群点的定量度量,并且即使数据具有不同的区域也能够很好的处理;(2)与基于距离的方法一样,这些方法必然具有O(m2)的时间复杂度。对于低维数据使用特定的数据结构可以达到O(mlogm)
;(3)参数选择是困难的。虽然LOF
算法通过观察不同的k值,然后取得最大离群点得分来处理该问题,但是,仍然需要选择这些值的上下界。
基于聚类的离群点:一个对象是基于聚类的离群点,如果该对象不强属于任何簇,那么该对象属于离群点。
离群点对初始聚类的影响:如果通过聚类检测离群点,则由于离群点影响聚类,存在一个问题:结构是否有效。这也是k-means
算法的缺点,对离群点敏感。为了处理该问题,可以使用如下方法:对象聚类,删除离群点,对象再次聚类(这个不能保证产生最优结果)。
优缺点:(1)基于线性和接近线性复杂度(k均值)的聚类技术来发现离群点可能是高度有效的;(2)簇的定义通常是离群点的补,因此可能同时发现簇和离群点;(3)产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性;(4)聚类算法产生的簇的质量对该算法产生的离群点的质量影响非常大。
其实以上说到聚类方法的本意是是无监督分类,并不是为了寻找离群点的,只是恰好它的功能可以实现离群点的检测,算是一个衍生的功能。
除了以上提及的方法,还有两个专门用于检测异常点的方法比较常用:One Class SVM
和Isolation Forest
🎜아웃라이어 점수는 k 값에 매우 민감하다는 점에 유의해야 합니다. k가 너무 작으면 근처에 있는 소수의 이상값으로 인해 이상값 점수가 낮아질 수 있습니다. K가 너무 크면 k개 미만의 포인트가 있는 클러스터의 모든 개체가 이상값이 될 수 있습니다. 이 방식을 k 선택에 더욱 견고하게 만들기 위해 가장 가까운 이웃 k개의 평균 거리를 사용할 수 있습니다. 🎜🎜장점과 단점: (1) 단순함, (2) 단점: 근접성 기반 방법은 O(m2) 시간이 필요하며 대규모 데이터 세트에는 적합하지 않습니다. 이 방법은 다음과 같은 경우에 적합합니다. 매개변수 선택도 민감합니다. (4) 전역 임계값을 사용하고 이러한 밀도 변화를 설명할 수 없기 때문에 밀도가 다른 영역이 있는 데이터 세트를 처리할 수 없습니다. 🎜
O(mlogm)
를 달성할 수 있습니다. (3) 매개변수 선택이 어렵습니다. LOF
알고리즘은 다양한 k 값을 관찰한 다음 최대 이상값 점수를 획득하여 이 문제를 처리하지만 여전히 이러한 값에 대한 상한과 하한을 선택해야 합니다. 🎜k-평균
알고리즘의 단점이기도 합니다. 이 문제를 해결하기 위해 다음과 같은 방법을 사용할 수 있습니다: 개체 클러스터링, 이상값 삭제, 개체 다시 클러스터링(이 방법은 최적의 결과를 보장하지 않습니다). 🎜🎜장점 및 단점: (1) 선형 및 선형에 가까운 복잡성(k-평균)을 기반으로 하는 클러스터링 기술은 이상값을 발견하는 데 매우 효과적일 수 있습니다. (2) 클러스터의 정의는 일반적으로 이상값입니다. 클러스터 포인트를 보완하여 클러스터와 이상값을 동시에 발견할 수 있습니다. (3) 결과적인 이상값 세트와 해당 점수는 사용된 클러스터 수와 데이터의 이상값 존재 여부에 따라 크게 달라질 수 있습니다. 클러스터링 알고리즘에 의해 생성된 클러스터의 개수는 알고리즘에 의해 생성된 이상값의 품질에 큰 영향을 미칩니다. 🎜One Class SVM
및 Isolation Forest
. 자세한 내용은 여기서 다루지 않습니다. 깊이. 🎜🎜3 이상값 처리 방법🎜🎜이상값이 감지되었으므로 이를 어느 정도 처리해야 합니다. 이상값을 처리하는 일반적인 방법은 대략 다음 범주로 나눌 수 있습니다. 🎜이상값을 삭제할지 여부는 실제 상황을 고려하십시오. 일부 모델은 이상값에 그다지 민감하지 않기 때문에 이상값이 있어도 모델 효과는 영향을 받지 않습니다. 그러나 로지스틱 회귀 LR과 같은 일부 모델은 이상값에 매우 민감합니다. 처리하지 않으면 과적합과 같은 효과가 매우 열악할 수 있습니다. 발생하다.
위는 이상값 탐지 및 처리 방법을 요약한 것입니다.
일부 탐지 방법을 통해 이상치를 찾을 수 있지만, 얻은 결과가 절대적으로 정확하지는 않습니다. 구체적인 상황은 비즈니스에 대한 이해를 바탕으로 판단해야 합니다. 마찬가지로, 이상치를 어떻게 처리해야 할지, 삭제해야 할지, 수정해야 할지, 처리하지 말아야 할지 등도 실제 상황에 따라 고려해야 할 것이지 고정되지는 않습니다.
추천 학습: python 튜토리얼
위 내용은 Python 데이터 이상값 감지 및 처리(자세한 예)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!