>백엔드 개발 >파이썬 튜토리얼 >회귀 알고리즘 측정항목

회귀 알고리즘 측정항목

DDD
DDD원래의
2024-11-03 20:25:03324검색

회귀 알고리즘의 오류 측정항목

회귀 알고리즘을 만들고 이 모델이 얼마나 효율적인지 알고 싶을 때 오류 측정항목을 사용하여 기계 학습 모델의 오류를 나타내는 값을 얻습니다. 이 글의 측정항목은 수치(실수, 정수)에 대한 예측 모델의 오류를 측정하려는 경우 중요합니다.

이 기사에서는 Python에서 수동으로 계산을 수행하고 달러 시세 데이터세트에서 기계 학습 모델의 오류를 측정하는 회귀 알고리즘의 주요 오류 측정항목을 다룹니다.

해결된 측정항목

  • SE — 오류 합계
  • ME — 평균 오류
  • MAE — 평균 절대 오류
  • MPE — 평균 백분율 오류
  • MAPAE — 평균 절대 백분율 오류

두 측정항목은 약간 유사합니다. 평균 및 오류 비율에 대한 측정항목과 평균 및 절대 오류 비율에 대한 측정항목이 있으며, 한 그룹은 차이의 실제 값을 얻고 다른 그룹은 절대값을 얻도록 차별화됩니다. 차이의. 두 지표 모두 값이 낮을수록 예측이 더 좋다는 점을 기억하는 것이 중요합니다.

SE — 오류의 합

SE 측정항목은 이 문서에서 가장 간단하며 공식은 다음과 같습니다.

SE = εR — P

따라서 실제값(모델의 목표변수)과 예측값의 차이를 합한 것이 됩니다. 이 측정항목에는 값을 절대값으로 처리하지 않아 결과적으로 잘못된 값이 나오는 등 몇 가지 부정적인 점이 있습니다.

ME — 오류의 평균

ME 측정항목은 SE의 "보완"으로, 기본적으로 요소 수에 따라 SE의 평균을 구한다는 차이점이 있습니다.

ME = ε(R-P)/N

SE와 달리 SE 결과를 요소 수로 나눕니다. SE와 같은 이 측정항목은 규모에 따라 다릅니다. 즉, 동일한 데이터 세트를 사용해야 하며 다양한 예측 모델과 비교할 수 있습니다.

MAE — 평균 절대 오차

Métricas para algorítimos de regressão

MAE 측정항목은 ME이지만 절대(음수가 아닌) 값만 고려합니다. 실제와 예측의 차이를 계산할 때 부정적인 결과가 나올 수 있으며 이 부정적인 차이는 이전 지표에 적용됩니다. 이 측정항목에서는 차이를 양수 값으로 변환한 다음 요소 수를 기준으로 평균을 구해야 합니다.

MPE - 평균 백분율 오류

MPE 측정항목은 각 차이의 합계에 대한 백분율로 나타낸 평균 오류입니다. 여기서는 차이의 백분율을 구하고 더한 다음 이를 요소 수로 나누어 평균을 구해야 합니다. 따라서 실제 값과 예측 값의 차이가 발생하여 실제 값으로 나누고 100을 곱한 다음 이 백분율을 모두 더하고 요소 수로 나눕니다. 이 측정항목은 척도(%)와 무관합니다.

Métricas para algorítimos de regressão

MAPAE — 평균 절대 백분율 오류

MAPAE 측정항목은 이전 측정항목과 매우 유사하지만 예측 x 실제의 차이는 절대적으로 이루어집니다. 즉, 양수 값으로 계산합니다. 따라서 이 측정항목은 오류 비율의 절대 차이입니다. 이 측정항목은 규모에 독립적입니다.

Métricas para algorítimos de regressão

실제로 측정항목 사용

각 측정항목에 대한 설명이 주어지면 달러 환율 기계 학습 모델의 예측을 기반으로 Python에서 수동으로 계산해 보겠습니다. 현재 대부분의 회귀 측정항목은 Sklearn 패키지의 기성 함수에 존재하지만 여기서는 교육 목적으로만 수동으로 계산합니다.

Métricas para algorítimos de regressão

RandomForest 및 의사결정 트리 알고리즘은 두 모델 간의 결과를 비교하는 데에만 사용됩니다.

Métricas para algorítimos de regressão

데이터 분석

데이터세트에는 값 열(달러 시세)에 영향을 미치는 정보인 SaldoMercado 및 saldoMercado_2 열이 있습니다. 보시다시피 MercadoMercado 잔액은 Merado_2 잔액보다 견적과 더 밀접한 관계가 있습니다. 결측값(무한값 또는 Nan 값)이 없고, BalanceMercado_2 열에 절대값이 아닌 값이 많이 포함되어 있는 것을 관찰할 수도 있습니다.

Métricas para algorítimos de regressão

Métricas para algorítimos de regressão

모델 준비

예측변수와 예측하려는 변수를 정의하여 머신러닝 모델에 대한 값을 준비합니다. train_test_split을 사용하여 데이터를 테스트용 30%와 훈련용 70%로 무작위로 나눕니다.

Métricas para algorítimos de regressão

Métricas para algorítimos de regressão

마지막으로 두 알고리즘(RandomForest 및 DecisionTree)을 초기화하고 데이터를 피팅한 후 테스트 데이터로 두 알고리즘의 점수를 측정합니다. TreeRegressor에 대해 83%, ForestRegressor에 대해 90%의 점수를 얻었습니다. 이는 이론적으로 ForestRegressor의 성능이 더 우수함을 나타냅니다.

Métricas para algorítimos de regressão

Métricas para algorítimos de regressão

Métricas para algorítimos de regressão

결과 및 분석

ForestRegressor의 부분적으로 관찰된 성능을 고려하여 측정항목을 적용하는 데 필요한 데이터가 포함된 데이터세트를 만들었습니다. 테스트 데이터에 대한 예측을 수행하고 차이 및 백분율에 대한 열을 포함하여 실제 값과 예측 값으로 DataFrame을 생성합니다.

Métricas para algorítimos de regressão

실제 총 달러 환율과 모델이 예측한 환율을 비교하여 관찰할 수 있습니다.

  • 총 R$578.00의 차이가 발생했습니다
  • 이는 예측 x 실제 사이의 0.36% 차이를 나타냅니다(절대값으로 간주되지 않음)
  • 평균 오류(ME) 측면에서 평균 R$0.009058로 낮은 값을 보였습니다.
  • 절대 평균의 경우 데이터세트에 음수 값이 있으므로 이 값은 약간 증가합니다

여기에서는 교육 목적으로 계산을 수동으로 수행한다는 점을 강조합니다. 그러나 성능이 향상되고 계산 오류 가능성이 낮기 때문에 Sklearn 패키지의 측정 기능을 사용하는 것이 좋습니다.

전체 코드는 내 GitHub: github.com/AirtonLira/artigo_metricasregressao에서 확인할 수 있습니다


저자: 에어튼 리라 주니어

LinkedIn: linkedin.com/in/airton-lira-junior-6b81a661/

위 내용은 회귀 알고리즘 측정항목의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.