대형 모델은 매우 강력하지만 실제 문제를 해결하는 데 반드시 대형 모델에만 전적으로 의존하는 것은 아닙니다. 양자역학을 반드시 사용하지 않고 현실의 물리적 현상을 설명하기 위한 덜 정확한 비유입니다. 비교적 간단한 문제의 경우 통계적 분포로 충분할 수 있습니다. 머신러닝에 있어서 딥러닝과 신경망이 필요한 것은 말할 것도 없습니다. 문제의 경계를 명확히 하는 것이 핵심입니다.
그렇다면 ML을 사용하여 비교적 간단한 문제를 해결할 때 머신러닝 모델의 성능을 어떻게 평가할 수 있을까요? 업계 및 연구생들에게 도움이 되기를 바라며, 비교적 일반적으로 사용되는 10가지 평가 지표를 소개합니다.
정확도는 머신러닝 분야의 기본 평가 지표로, 일반적으로 모델의 성능을 빠르게 이해하는 데 사용됩니다. 정확도는 모델이 올바르게 예측한 인스턴스 수와 데이터 세트의 총 인스턴스 수 비율을 간단히 계산하여 모델의 정확도를 측정하는 직관적인 방법을 제공합니다.
Pictures
그러나 불균형 데이터 세트를 처리할 때는 평가 지표로서의 정확성이 부적절할 수 있습니다. 불균형 데이터 세트는 특정 카테고리의 인스턴스 수가 다른 카테고리의 인스턴스 수를 크게 초과하는 데이터 세트를 의미합니다. 이 경우 모델은 더 많은 수의 범주를 예측하는 경향이 있어 정확도가 잘못될 수 있습니다.
또한 정확성은 거짓양성 및 거짓음성에 대한 정보를 제공할 수 없습니다. 거짓양성은 모델이 부정적인 사례를 긍정적인 사례로 잘못 예측하는 경우이고, 거짓음성은 모델이 긍정적인 사례를 부정적인 사례로 잘못 예측하는 경우입니다. 모델 성능을 평가할 때 거짓양성과 거짓음성을 구별하는 것이 중요합니다. 왜냐하면 거짓양성은 모델 성능에 서로 다른 영향을 미치기 때문입니다.
요약하자면 정확도는 간단하고 이해하기 쉬운 평가 지표이지만 불균형한 데이터 세트를 다룰 때는 정확도 결과를 해석할 때 더욱 주의해야 합니다.
정확도는 양성 샘플에 대한 모델의 예측 정확도를 측정하는 데 중점을 두는 중요한 평가 지표입니다. 정확도와 달리 정밀도는 모델에서 양성으로 예측한 인스턴스 중에서 실제로 양성인 인스턴스의 비율을 계산합니다. 즉, 정확도는 "모델이 인스턴스를 긍정적으로 예측할 때 이 예측이 정확할 확률은 얼마나 됩니까?"라는 질문에 답합니다. 고정밀 모델은 인스턴스가 긍정적일 것으로 예측할 때 이 인스턴스를 의미합니다. 실제로 긍정적인 표본일 가능성이 매우 높습니다.
Pictures
의료 진단이나 사기 탐지와 같은 일부 응용 분야에서는 모델의 정확성이 특히 중요합니다. 이러한 시나리오에서는 거짓양성(즉, 음성 샘플을 양성 샘플로 잘못 예측)의 결과가 매우 심각할 수 있습니다. 예를 들어, 의학적 진단에 있어서 위양성 진단은 불필요한 치료나 검사로 이어져 환자에게 불필요한 정신적, 육체적 스트레스를 줄 수 있다. 사기 탐지에서 오탐으로 인해 무고한 사용자가 사기 행위자로 잘못 분류되어 사용자 경험과 회사 평판에 영향을 미칠 수 있습니다.
따라서 이러한 응용 분야에서는 모델의 정확도가 높은지 확인하는 것이 중요합니다. 정확성을 향상해야만 거짓 긍정의 위험을 줄이고 따라서 거짓 긍정의 부정적인 영향을 줄일 수 있습니다.
재현율은 모든 실제 양성 샘플을 정확하게 예측하는 모델의 능력을 측정하는 데 사용되는 중요한 평가 지표입니다. 구체적으로, 재현율은 실제 긍정 사례의 총 수에 대해 모델에서 참 긍정으로 예측한 사례의 비율로 계산됩니다. 이 측정항목은 "모델이 얼마나 많은 실제 긍정적 사례를 정확하게 예측했습니까?"라는 질문에 답합니다.
정밀도와 달리 재현율은 실제 긍정적 사례를 회상하는 모델의 능력에 중점을 둡니다. 모델이 특정 양성 샘플에 대한 예측 확률이 낮더라도 해당 샘플이 실제로 양성 샘플이고 모델에 의해 양성 샘플로 올바르게 예측되는 한 이 예측은 재현율 계산에 포함됩니다. . 따라서 재현율은 예측 확률이 더 높은 샘플뿐만 아니라 모델이 가능한 한 많은 긍정적인 샘플을 찾을 수 있는지 여부에 더 관심이 있습니다.
Pictures
일부 애플리케이션 시나리오에서는 재현율의 중요성이 특히 두드러집니다. 예를 들어 질병 탐지에서 모델이 실제 아픈 환자를 놓친다면 질병의 진행이 지연되고 악화될 수 있으며 환자에게 심각한 결과를 초래할 수 있습니다. 또 다른 예로, 고객 이탈 예측에서 모델이 이탈 가능성이 있는 고객을 올바르게 식별하지 못하면 회사는 유지 조치를 취할 기회를 놓치고 결과적으로 중요한 고객을 잃을 수 있습니다.
따라서 이러한 시나리오에서는 회상이 중요한 지표가 됩니다. 재현율이 높은 모델은 실제 양성 샘플을 더 잘 찾을 수 있으므로 누락 위험이 줄어들고 심각한 결과를 피할 수 있습니다.
F1 점수는 정밀도와 재현율의 균형을 찾는 것을 목표로 하는 종합 평가 지표입니다. 이는 실제로 정밀도와 재현율의 조화 평균으로, 이 두 측정항목을 단일 점수로 결합하여 거짓양성과 거짓음성을 모두 고려하는 평가 방법을 제공합니다.
Pictures
많은 실제 응용 프로그램에서는 정밀도와 재현율 사이에서 균형을 찾아야 하는 경우가 많습니다. 정밀도는 모델 예측의 정확성에 초점을 맞추는 반면, 재현율은 모델이 실제 긍정적인 샘플을 모두 찾을 수 있는지 여부에 중점을 둡니다. 그러나 하나의 측정항목을 지나치게 강조하면 다른 측정항목의 성능에 해를 끼칠 수 있습니다. 예를 들어, 재현율을 향상시키기 위해 모델은 양성 샘플에 대한 예측을 늘릴 수 있지만 이로 인해 위양성 수가 증가하여 정확도가 떨어질 수도 있습니다.
F1 채점은 이 문제를 해결하기 위해 고안되었습니다. 정밀도와 재현율을 고려하여 다른 측정항목을 최적화하기 위해 하나의 측정항목을 희생하는 것을 방지합니다. F1 점수는 정밀도와 재현율의 조화 평균을 계산하여 둘 사이의 균형을 유지하므로 어느 한쪽에 치우치지 않고 모델의 성능을 평가할 수 있습니다.
따라서 F1 점수는 정밀도와 재현율을 결합한 측정항목이 필요하고 하나의 측정항목을 다른 측정항목보다 선호하고 싶지 않을 때 매우 유용한 도구입니다. 이는 모델 성능 평가 프로세스를 단순화하고 모델이 실제 응용 프로그램에서 어떻게 작동하는지 더 잘 이해하는 데 도움이 되는 단일 점수를 제공합니다.
ROC-AUC는 이진 분류 문제에서 널리 사용되는 성능 측정 방법입니다. ROC 곡선 아래의 면적을 측정하며, 이는 서로 다른 임계값에서의 진양성률(민감도 또는 재현율이라고도 함)과 위양성률 사이의 관계를 나타냅니다.
Pictures
ROC 곡선은 다양한 임계값 설정에서 모델의 성능을 관찰하는 직관적인 방법을 제공합니다. 임계값을 변경하면 모델의 참양성률과 거짓양성률을 조정하여 다양한 분류 결과를 얻을 수 있습니다. ROC 곡선이 왼쪽 상단에 가까울수록 양성 샘플과 음성 샘플을 구별하는 모델의 성능이 더 좋습니다.
AUC(곡선 아래 영역)는 모델의 식별 능력을 평가하는 정량적 지표를 제공합니다. AUC 값은 0과 1 사이입니다. 1에 가까울수록 모델의 식별력이 강한 것입니다. AUC 점수가 높다는 것은 모델이 양성 샘플과 음성 샘플을 잘 구별할 수 있다는 것을 의미합니다. 즉, 양성 샘플에 대한 모델의 예측 확률이 음성 샘플에 대한 예측 확률보다 높다는 의미입니다.
따라서 ROC-AUC는 모델의 클래스 구분 능력을 평가할 때 매우 유용한 측정항목입니다. 다른 지표와 비교하여 ROC-AUC에는 몇 가지 독특한 장점이 있습니다. 임계값 선택에 영향을 받지 않으며, 다양한 임계값 하에서 모델의 성능을 종합적으로 고려할 수 있습니다. 또한 ROC-AUC는 클래스 불균형 문제에 비교적 강하며 양성 샘플과 음성 샘플의 수가 불균형한 경우에도 여전히 의미 있는 평가 결과를 제공할 수 있습니다.
ROC-AUC는 특히 이진 분류 문제에 대한 매우 유용한 성능 측정입니다. 다양한 모델의 ROC-AUC 점수를 관찰하고 비교함으로써 모델 성능에 대한 보다 포괄적인 이해를 얻을 수 있으며 식별 능력이 더 뛰어난 모델을 선택할 수 있습니다.
PR-AUC(정밀도-재현율 곡선 아래 영역)는 ROC-AUC와 유사하지만 초점이 약간 다른 성능 측정 방법입니다. PR-AUC는 정밀도-재현율 곡선 아래 영역을 측정합니다. 이는 다양한 임계값에서 정밀도와 재현율 간의 관계를 나타냅니다.
Pictures
ROC-AUC에 비해 PR-AUC는 정밀도와 재현율 간의 균형에 더 많은 관심을 기울입니다. 정밀도는 모델이 긍정적일 것으로 예측하는 인스턴스 중 실제로는 긍정적인 인스턴스의 비율을 측정하는 반면, 재현율은 실제로 긍정적인 모든 인스턴스 중에서 모델이 긍정적일 것으로 정확하게 예측하는 인스턴스의 비율을 측정합니다. 정밀도와 재현율 간의 균형은 불균형한 데이터 세트에서 또는 거짓음성보다 거짓양성이 더 중요한 경우에 특히 중요합니다.
불균형 데이터 세트에서는 한 카테고리의 샘플 수가 다른 카테고리의 샘플 수를 훨씬 초과할 수 있습니다. 이 경우 ROC-AUC는 클래스 불균형을 직접적으로 고려하지 않고 진양성률과 위양성률의 관계에만 주로 초점을 맞추기 때문에 모델의 성능을 정확하게 반영하지 못할 수 있습니다. 반면 PR-AUC는 정밀도와 재현율 간의 균형을 통해 모델 성능을 보다 포괄적으로 평가하고 불균형 데이터 세트에 대한 모델의 효과를 더 잘 반영할 수 있습니다.
또한 PR-AUC는 거짓음성보다 거짓양성이 더 중요한 경우에도 더 적합한 측정항목입니다. 일부 애플리케이션 시나리오에서는 음성 샘플을 양성 샘플(긍정 오류)로 잘못 예측하면 더 큰 손실이나 부정적인 영향을 미칠 수 있기 때문입니다. 예를 들어 의학적 진단에 있어서 건강한 사람을 질병에 걸린 사람으로 잘못 진단하는 것은 불필요한 치료와 불안을 초래할 수 있다. 이 경우, 우리는 위양성(false positives)의 수를 줄이기 위해 모델의 정확도가 높은 것을 선호합니다.
요약하자면 PR-AUC는 불균형 데이터 세트나 오탐이 우려되는 시나리오에 적합한 성능 측정 방법입니다. 이는 모델의 정밀도와 재현율 간의 균형을 더 잘 이해하고 실제 요구 사항을 충족하는 적절한 모델을 선택하는 데 도움이 될 수 있습니다.
FPR(거짓양성률)은 모든 실제 음성 샘플 중에서 모델이 양성으로 잘못 예측한 샘플의 비율을 측정하는 중요한 지표입니다. 이는 특이성의 보완 지표이며 진음성률(TNR)에 해당합니다. FPR은 거짓양성을 방지하는 모델의 능력을 평가할 때 핵심 요소가 됩니다. 거짓 긍정은 불필요한 걱정이나 리소스 낭비로 이어질 수 있으므로 모델의 FPR을 이해하는 것은 실제 응용 프로그램의 신뢰성을 결정하는 데 중요합니다. FPR을 낮추면 모델의 정밀도와 정확도가 향상되어 긍정적인 샘플이 실제로 존재할 때만 긍정적인 예측이 발행되도록 할 수 있습니다.
Pictures
반면, 특이성이라고도 알려진 진음성률(TNR)은 모델이 음성 샘플을 얼마나 정확하게 식별하는지를 나타내는 척도입니다. 실제 총 부정에 대한 모델에 의해 예측된 참 부정 사례의 비율을 계산합니다. 모델을 평가할 때 모델이 양성 샘플을 식별하는 능력에 초점을 맞추는 경우가 많지만, 음성 샘플을 식별하는 모델의 성능도 마찬가지로 중요합니다. TNR이 높다는 것은 모델이 음성 샘플을 정확하게 식별할 수 있음을 의미합니다. 즉, 실제로 음성 샘플인 인스턴스 중에서 모델이 음성 샘플의 비율을 더 높게 예측한다는 의미입니다. 이는 잘못된 긍정을 방지하고 모델의 전반적인 성능을 향상시키는 데 중요합니다.
MCC(Matthews Correlation Coefficient)는 이진 분류 문제에 사용되는 측정값으로, 참양성, 참음성, 거짓에 대한 포괄적인 고려 사항을 제공합니다. 평가되었습니다. 다른 측정 방법에 비해 MCC의 장점은 -1부터 1까지의 단일 값이라는 점입니다. 여기서 -1은 모델의 예측이 실제 결과와 완전히 일치하지 않음을 의미하고, 1은 모델의 예측이 완전히 일치함을 의미합니다. 실제 결과로.
Pictures
더 중요한 것은 MCC가 이진 분류의 품질을 측정하는 균형 잡힌 방법을 제공한다는 것입니다. 이진 분류 문제에서 우리는 일반적으로 양성 샘플과 음성 샘플을 식별하는 모델의 능력에 중점을 두는 반면 MCC는 두 측면을 모두 고려합니다. 이는 양성 샘플(즉, 참양성)을 정확하게 예측하는 모델의 능력뿐만 아니라 음성 샘플(즉, 참음성)을 올바르게 예측하는 모델의 능력에도 중점을 둡니다. 동시에 MCC는 모델 성능을 보다 포괄적으로 평가하기 위해 위양성과 위음성을 고려합니다.
실제 응용 분야에서 MCC는 특히 불균형 데이터 세트를 처리하는 데 적합합니다. 불균형한 데이터 세트에서는 한 범주의 샘플 수가 다른 범주의 샘플 수보다 훨씬 크기 때문에 모델이 더 많은 수의 범주를 예측하는 방향으로 편향되는 경우가 많습니다. 그러나 MCC는 4가지 지표(참양성, 참음성, 위양성, 위음성)를 모두 균형 잡힌 방식으로 고려할 수 있으므로 일반적으로 불균형 데이터 세트에 대해 보다 정확하고 포괄적인 성능 평가를 제공할 수 있습니다.
전반적으로 MCC는 이진 분류를 위한 강력하고 포괄적인 성능 측정 도구입니다. 가능한 모든 예측 결과를 고려할 뿐만 아니라 예측과 실제 결과 간의 일관성을 측정하기 위해 직관적이고 잘 정의된 수치 값을 제공합니다. 균형 잡힌 데이터 세트이든 불균형 데이터 세트이든 MCC는 모델의 성능을 더 깊이 이해하는 데 도움이 되는 유용한 측정항목입니다.
교차 엔트로피 손실은 특히 모델의 출력이 확률 값인 경우 분류 문제에서 일반적으로 사용되는 성능 지표입니다. 이 손실 함수는 모델에서 예측한 확률 분포와 실제 레이블 분포 간의 차이를 수량화하는 데 사용됩니다.
Pictures
분류 문제에서 모델의 목표는 일반적으로 표본이 다른 범주에 속할 확률을 예측하는 것입니다. 교차 엔트로피 손실은 모델 예측 확률과 실제 이진 결과 간의 일관성을 평가하는 데 사용됩니다. 예측 확률에 로그를 취하여 실제 라벨과 비교하여 손실 값을 도출합니다. 따라서 교차 엔트로피 손실을 로그 손실이라고도 합니다.
교차 엔트로피 손실의 장점은 확률 분포에 대한 모델의 예측 정확도를 잘 측정할 수 있다는 것입니다. 모델의 예측 확률 분포가 실제 레이블 분포와 유사한 경우 교차 엔트로피 손실 값은 낮고, 반대로 예측 확률 분포가 실제 레이블 분포와 크게 다른 경우 교차 엔트로피 손실 값은 다음과 같습니다. 높은. 따라서 교차 엔트로피 손실 값이 낮을수록 모델의 예측이 더 정확하다는 것을 의미합니다. 즉, 모델의 교정 성능이 더 좋습니다.
실제 응용 분야에서는 일반적으로 더 낮은 교차 엔트로피 손실 값을 추구합니다. 이는 분류 문제에 대한 모델의 예측이 더 정확하고 신뢰할 수 있음을 의미하기 때문입니다. 교차 엔트로피 손실을 최적화함으로써 모델의 성능을 향상시키고 실제 응용 분야에서 더 나은 일반화 능력을 갖도록 만들 수 있습니다. 따라서 교차 엔트로피 손실은 분류 모델의 성능을 평가하는 중요한 지표 중 하나입니다. 이는 모델의 예측 정확도와 모델의 매개변수 및 구조에 대한 추가 최적화가 필요한지 여부를 더 깊이 이해하는 데 도움이 될 수 있습니다.
Cohen의 카파 계수는 모델 예측과 실제 레이블 간의 일관성을 측정하는 데 사용되는 통계 도구로, 분류 작업 평가에 특히 적합합니다. 다른 측정 방법에 비해 모델 예측과 실제 라벨 간의 단순한 일치도를 계산할 뿐만 아니라 우연히 발생할 수 있는 일치도 수정하므로 보다 정확하고 신뢰할 수 있는 평가 결과를 제공합니다.
실제 응용 분야에서, 특히 여러 평가자가 동일한 샘플 세트를 분류하는 경우 Cohen의 카파 계수는 매우 유용합니다. 이 경우 실제 레이블과 모델 예측의 일관성에 중점을 둘 뿐만 아니라 서로 다른 평가자 간의 일관성도 고려해야 합니다. 왜냐하면 평가자 간에 상당한 불일치가 있는 경우 모델 성능의 평가 결과가 평가자의 주관성에 영향을 받아 부정확한 평가 결과가 나올 수 있기 때문입니다.
Cohen의 카파 계수를 사용하면 우연히 발생할 수 있는 이러한 일관성을 수정하여 모델 성능을 보다 정확하게 평가할 수 있습니다. 구체적으로 -1과 1 사이의 값을 계산합니다. 여기서 1은 완벽한 일관성을 나타내고, -1은 완전한 불일치를 나타내며, 0은 무작위 일관성을 나타냅니다. 따라서 Kappa 값이 높을수록 모델 예측과 실제 레이블 간의 일치도가 우연히 예상되는 일치도를 초과한다는 의미이며, 이는 모델의 성능이 더 우수하다는 것을 나타냅니다.
Pictures
Cohen의 카파 계수는 분류 작업에서 모델 예측과 실제 레이블 간의 일관성을 더 정확하게 평가하는 동시에 우연히 발생할 수 있는 일관성을 수정하는 데 도움이 될 수 있습니다. 이는 보다 객관적이고 정확한 평가를 제공할 수 있으므로 여러 평가자가 관련된 시나리오에서 특히 중요합니다.
기계 학습 모델 평가에는 다양한 지표가 있습니다. 이 문서에서는 몇 가지 주요 지표를 제공합니다.
위의 각 지표에는 고유한 특성이 있으며 다양한 문제 시나리오에 적합합니다. 실제 적용에서는 모델의 성능을 종합적으로 평가하기 위해 여러 지표를 결합해야 할 수도 있습니다.
위 내용은 기계 학습 모델 성능의 10가지 지표의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!