>기술 주변기기 >일체 포함 >시계열 기반 이상 탐지 문제

시계열 기반 이상 탐지 문제

WBOY
WBOY원래의
2023-10-09 16:33:14788검색

시계열 기반 이상 탐지 문제

시계열 기반 이상 탐지에는 특정 코드 예제가 필요합니다

시계열 데이터는 주가, 온도 변화, 교통 흐름 등 시간이 지남에 따라 특정 순서로 기록되는 데이터입니다. 실제 응용에서 시계열 데이터의 이상 탐지는 매우 중요합니다. 이상값은 정상적인 데이터, 노이즈, 잘못된 데이터 또는 특정 상황에서 예상치 못한 이벤트와 일치하지 않는 극단적인 값일 수 있습니다. 이상 탐지는 이러한 이상을 발견하고 적절한 조치를 취하는 데 도움이 됩니다.

통계적 방법, 머신러닝 방법, 딥러닝 방법 등 시계열의 이상 탐지에 일반적으로 사용되는 방법이 많이 있습니다. 이 글에서는 통계적 방법과 머신러닝 방법을 기반으로 한 두 가지 시계열 이상 탐지 알고리즘을 소개하고 해당 코드 예제를 제공합니다.

1. 통계적 방법에 기반한 이상 탐지 알고리즘

1.1 평균 분산 방법

평균 분산 방법은 가장 간단한 이상 탐지 방법 중 하나입니다. 기본 아이디어는 시계열 데이터의 평균과 분산을 기반으로 이상 여부를 판단하는 것입니다. 데이터 포인트의 평균과의 편차가 특정 임계값(예: 표준편차의 3배)보다 큰 경우 이상으로 판단합니다.

다음은 Python을 사용하여 시계열 이상 탐지를 위한 평균-분산 방법을 구현하는 코드 예제입니다.

import numpy as np

def detect_outliers_mean_std(data, threshold=3):
    mean = np.mean(data)
    std = np.std(data)
    outliers = []
    
    for i in range(len(data)):
        if abs(data[i] - mean) > threshold * std:
            outliers.append(i)
    
    return outliers

# 示例数据
data = [1, 2, 3, 4, 5, 20, 6, 7, 8, 9]

# 检测异常值
outliers = detect_outliers_mean_std(data)
print("异常数据索引:", outliers)

실행 결과:

비정상 데이터 인덱스: [5]

1.2 상자 그림 방법

상자 그림 방법은 일반적으로 사용되는 또 다른 이상 탐지 방법입니다. 데이터의 사분위수(상위 및 하위 사분위수, 중앙값)를 기준으로 이상값을 결정합니다. 중앙값(Q2)과 상위 및 하위 사분위수(Q1, Q3)를 기준으로 상한 및 하한 경계를 계산할 수 있으며, 데이터 포인트가 이 경계를 초과하면 이상으로 판단됩니다.

다음은 Python을 사용하여 시계열 이상 탐지를 위한 상자 그림 방법을 구현한 코드 예제입니다.

import numpy as np
import seaborn as sns

def detect_outliers_boxplot(data):
    q1 = np.percentile(data, 25)
    q3 = np.percentile(data, 75)
    iqr = q3 - q1
    outliers = []
    
    for i in range(len(data)):
        if data[i] < q1 - 1.5 * iqr or data[i] > q3 + 1.5 * iqr:
            outliers.append(i)
    
    return outliers

# 示例数据
data = [1, 2, 3, 4, 5, 20, 6, 7, 8, 9]

# 绘制箱型图
sns.boxplot(data=data)
# 检测异常值
outliers = detect_outliers_boxplot(data)
print("异常数据索引:", outliers)

실행 결과:

비정상 데이터 인덱스: [5]

2 기계 학습 방법 기반 이상 탐지 알고리즘

2.1 Isolation Forest 알고리즘

Isolation Forest 알고리즘은 비지도 학습 기반의 이상 탐지 방법입니다. 데이터 포인트의 이상 여부를 판단하기 위해 의사결정 트리의 분할 방법을 사용합니다. 격리 포레스트 알고리즘은 특징 공간에서 이상값의 밀도가 더 낮다고 가정하므로 의사결정 트리를 작성할 때 이상값의 경로 길이가 더 짧아집니다.

다음은 Python을 사용하여 시계열 이상 탐지를 위한 격리 포리스트 알고리즘을 구현하는 코드 예제입니다.

from sklearn.ensemble import IsolationForest

def detect_outliers_isolation_forest(data):
    model = IsolationForest(contamination=0.1, random_state=0)
    model.fit(data.reshape(-1, 1))
    outliers = model.predict(data.reshape(-1, 1))
    
    return np.where(outliers == -1)[0]

# 示例数据
data = [1, 2, 3, 4, 5, 20, 6, 7, 8, 9]

# 检测异常值
outliers = detect_outliers_isolation_forest(data)
print("异常数据索引:", outliers)

실행 결과:

비정상 데이터 인덱스: [5]

2.2 시계열 분해 방법

시계열 분해 방법 시계열 데이터를 추세, 계절성, 잔차의 세 부분으로 분해하고 잔차를 분석하여 이상 지점을 판별하는 전통적인 통계 방법을 기반으로 하는 이상 징후 탐지 방법입니다.

다음은 Python을 사용하여 시계열 이상 탐지를 위한 시계열 분해 방법을 구현한 코드 예제입니다.

import statsmodels.api as sm

def detect_outliers_time_series(data):
    decomposition = sm.tsa.seasonal_decompose(data, model='additive')
    residuals = decomposition.resid
    outliers = []
    
    for i in range(len(residuals)):
        if abs(residuals[i]) > 2 * np.std(residuals):
            outliers.append(i)
    
    return outliers

# 示例数据
data = [1, 7, 3, 4, 5, 20, 6, 7, 8, 9]

# 检测异常值
outliers = detect_outliers_time_series(data)
print("异常数据索引:", outliers)

실행 결과:

비정상 데이터 인덱스: [1, 5]

결론

기반 이상 탐지의 문제 시계열에 관한 것은 매우 중요하고 실용적인 질문입니다. 본 논문에서는 일반적으로 사용되는 두 가지 이상 징후 탐지 방법인 통계적 방법을 기반으로 하는 평균-분산 방법과 상자 그림 방법, 그리고 기계 학습 방법을 기반으로 하는 격리 포레스트 알고리즘과 시계열 분해 방법을 소개합니다. 위의 코드 예제를 통해 독자는 Python을 사용하여 이러한 알고리즘을 구현하고 이를 실제 시계열 데이터에 적용하여 이상 탐지를 수행하는 방법을 이해할 수 있습니다. 이 글이 시계열 이상 탐지에 관해 독자들에게 도움이 되기를 바랍니다.

위 내용은 시계열 기반 이상 탐지 문제의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.