>  기사  >  기술 주변기기  >  머신러닝 초보자를 위한 5가지 일반적인 질문

머신러닝 초보자를 위한 5가지 일반적인 질문

王林
王林앞으로
2023-04-12 17:34:141320검색

누락된 값 처리

머신러닝 초보자를 위한 5가지 일반적인 질문

데이터 전처리에서 중요한 단계는 기계 학습 모델이 NaN 값을 입력으로 받아들이지 않기 때문에 누락된 데이터를 처리하는 것입니다. 이러한 NaN 값을 채우는 방법은 여러 가지가 있지만 먼저 결측값의 중요성을 이해해야 합니다.

아주 간단한 방법은 머신러닝 데이터세트에서 누락된 값을 모두 제거하는 것이지만, 그 전에 머신러닝 데이터세트에 존재하는 NaN 값의 전체 비율을 확인하세요. 1% 미만인 경우 결측값을 모두 제거할 수 있습니다. 그렇지 않으면 중심 경향 측정, KNN Imputer 등과 같은 다른 방법을 선택하여 데이터를 대치해야 합니다.

특성에 숫자를 사용할 때는 평균 또는 중앙값을 사용합니다. 평균은 행의 모든 ​​값을 합한 다음 그 양으로 나누어 계산할 수 있는 평균값입니다. 중앙값은 평균을 나타내기도 합니다. 중앙값은 데이터를 크기 순서대로 배열하여 시퀀스를 형성하는데, 이는 시퀀스의 중간에 있는 데이터입니다. 데이터 세트의 개별 데이터가 크게 다를 때 중앙값은 데이터 세트의 중심 경향을 설명하는 데 종종 사용됩니다.

머신러닝 데이터 세트에 편향된 분포가 있는 경우 평균보다 중앙값을 사용하는 것이 더 나은 경우가 많습니다.

Outliers/Outliers

이상치는 다른 관측치와 크게 다른 데이터 포인트입니다. 때로는 이러한 이상치가 민감할 수도 있습니다. 이상값을 처리하기 전에 기계 학습 데이터세트를 검토하는 것이 좋습니다.

예:

  • 관측된 강수량을 기반으로 한 깊이 값 예측에서 이상값이 중요합니다.
  • 집값 예측의 이상치는 의미가 없습니다.

데이터 유출

머신러닝 모델의 데이터 유출 문제란 무엇인가요?

데이터 유출은 기계 학습 모델을 훈련하는 데 사용하는 데이터에 기계 학습 모델이 예측하려는 정보가 포함되어 있을 때 발생합니다. 이로 인해 모델 배포 후 신뢰할 수 없는 예측 결과가 발생합니다.

이 문제는 데이터 표준화 또는 정규화 방법으로 인해 발생할 수 있습니다. 우리 대부분은 데이터를 훈련 세트와 테스트 세트로 분할하기 전에 이러한 방법을 계속 사용하기 때문입니다.

올바른 기계 학습 모델 선택

실시간으로 일부 복잡한 모델을 불필요하게 사용하면 비즈니스 중심의 사람들에게 해석 가능성 문제가 발생할 수 있다고 생각합니다. 예를 들어 선형 회귀는 신경망 알고리즘보다 해석하기가 더 쉽습니다.

데이터 세트의 크기와 복잡성을 기반으로 해당 기계 학습 모델을 선택하세요. 복잡한 문제를 다루는 경우 SVN, KNN, Random Forest 등과 같은 효율적인 기계 학습 모델을 사용할 수 있습니다.

대부분의 경우 데이터 탐색 단계는 해당 기계 학습 모델을 선택하는 데 도움이 됩니다. 시각화에서 데이터가 선형으로 분리 가능한 경우 선형 회귀를 사용할 수 있습니다. 데이터에 대해 아무것도 모르는 경우 서포트 벡터 머신과 KNN이 유용할 것입니다.

모델 해석성 문제도 있습니다. 예를 들어 선형 회귀는 신경망 알고리즘보다 설명하기 쉽습니다.

검증 지표

지표는 모델 예측 변수와 실제 데이터의 정량적 측정값입니다. 질문이 회귀 분석인 경우 주요 지표는 정확도(R2 점수), MAE(평균 절대 오차) 및 RMSE(제곱 평균 오차)입니다. 분류 문제인 경우 핵심 지표는 정밀도, 재현율, F1score 및 혼동 행렬입니다.


위 내용은 머신러닝 초보자를 위한 5가지 일반적인 질문의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제