PHP 및 기계 학습: 시계열 데이터에서 이상 탐지를 수행하는 방법
소개:
오늘날 데이터 중심 시대에 점점 더 많은 조직과 기업이 시계열 데이터를 처리하고 분석해야 합니다. 시계열 데이터는 일련의 관찰 또는 측정값을 포함하는 시간 순서로 배열된 데이터입니다. 시계열 데이터의 이상 징후 탐지는 조직과 기업이 데이터의 비정상적인 동작을 발견하고 적시에 조치를 취하는 데 도움이 되는 중요한 작업입니다. 이 기사에서는 시계열 데이터의 이상 탐지를 위해 PHP와 기계 학습 기술을 사용하는 방법을 소개합니다.
1. 데이터 준비
이상 탐지를 시작하기 전에 먼저 시계열 데이터를 준비해야 합니다. 일일 매출을 기록하는 데이터 세트가 있다고 가정하면 매출을 이상 탐지를 위한 시계열 데이터로 사용할 수 있습니다. 다음은 데이터 세트의 예입니다.
$dateSales = [ ['2019-01-01', 100], ['2019-01-02', 120], ['2019-01-03', 80], ['2019-01-04', 90], ['2019-01-05', 110], // 其他日期的销售量数据... ];
2. 데이터 전처리
이상 탐지를 시작하기 전에 데이터를 전처리해야 합니다. 먼저, 기계 학습 알고리즘을 사용하여 처리하기 위해 날짜를 타임스탬프로 변환합니다. 다음으로, 판매 데이터를 정규화하고 더 작은 범위로 확장하여 특징 값 간의 차이가 이상 탐지에 미치는 영향을 방지합니다. 다음은 데이터 전처리를 위한 코드 예시입니다.
// 将日期转换为时间戳 foreach ($dateSales as &$data) { $data[0] = strtotime($data[0]); } // 对销售量数据进行归一化处理 $sales = array_column($dateSales, 1); $scaledSales = []; $minSales = min($sales); $maxSales = max($sales); foreach ($sales as $sale) { $scaledSales[] = ($sale - $minSales) / ($maxSales - $minSales); }
3. 이상 탐지 알고리즘 선택
시계열 데이터에 대한 이상 탐지를 수행하기 전에 적절한 기계 학습 알고리즘을 선택해야 합니다. 일반적으로 사용되는 시계열 이상 탐지 알고리즘에는 통계 기반 방법, 클러스터링 기반 방법, 딥러닝 기반 방법이 있습니다. 이번 글에서는 이상 징후 탐지를 위해 ARIMA(Autoregressive Moving Average Model) 알고리즘을 사용하겠습니다.
4. 이상 탐지를 위해 ARIMA 알고리즘을 사용하세요
ARIMA 알고리즘은 시계열 데이터 분석에 널리 사용되는 알고리즘입니다. PHP에서는 통계 라이브러리의 arima 함수를 사용하여 ARIMA 알고리즘을 구현할 수 있습니다. 다음은 ARIMA 알고리즘을 사용한 이상 탐지에 대한 코드 예제입니다.
$data = new StatsTimeSeries($scaledSales); // Fit the model $arima = StatsARIMA::fit($data); // Predict the next data point $prediction = $arima->predict(); // Calculate the residual error $residual = $data->last() - $prediction; // Set a threshold for anomaly detection $errorThreshold = 0.05; if (abs($residual) > $errorThreshold) { echo "Anomaly detected!"; } else { echo "No anomaly detected."; }
위의 코드 예제에서는 먼저 통계 라이브러리의 TimeSeries 클래스와 ARIMA 클래스를 사용하여 모델을 초기화하고 적합합니다. 그런 다음 다음 데이터 포인트를 예측하고 잔여 오류를 계산합니다. 마지막으로 이상 탐지를 위한 임계값을 설정합니다. 잔여 오류가 임계값을 초과하면 이상이 있음을 의미합니다.
결론:
이 글에서는 시계열 데이터의 이상 탐지를 위해 PHP와 머신러닝 기술을 활용하는 방법을 소개합니다. 먼저 시계열 데이터를 준비한 다음 데이터를 전처리했습니다. 다음으로 ARIMA 알고리즘을 선택하고 통계 라이브러리의 arima 함수를 사용하여 이상 탐지를 구현했습니다. 예측 오류를 임계값으로 설정하면 이상이 있는지 확인할 수 있습니다. 이 글이 독자들이 시계열 데이터에 대한 이상 탐지 방법을 이해하고 적용하는 데 도움이 되기를 바랍니다.
코드 예제는 PHP 시계열 데이터 분석 라이브러리 통계에서 가져온 것입니다. 코드 구현을 완료하려면 라이브러리를 직접 설치하세요.
위 내용은 PHP 및 기계 학습: 시계열 데이터에서 이상 탐지를 수행하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!