인터넷의 발달로 기업은 점점 더 많은 데이터를 얻을 수 있습니다. 이 데이터는 기업이 고객 프로필이라고 하는 사용자를 더 잘 이해하는 데 도움이 되며 사용자 경험을 향상시킬 수 있습니다. 그러나 이러한 데이터에는 라벨이 지정되지 않은 데이터가 많이 있을 수 있습니다. 모든 데이터에 수동으로 레이블을 지정하면 두 가지 문제가 발생합니다. 우선, 수동 라벨링은 시간이 많이 걸리고 비효율적입니다. 데이터의 양이 증가할수록 더 많은 인력을 고용해야 하고, 시간도 더 걸리며, 비용도 더 많이 들게 됩니다. 둘째, 사용자 규모가 증가함에 따라 수동 라벨링으로는 증가하는 데이터를 따라잡기가 어렵습니다. Part 01,
준지도 학습이란 무엇인가요?
Part 02. 준지도 학습의 가정
위 가정의 주요 목적은 레이블이 있는 데이터와 레이블이 없는 데이터가 동일한 데이터 분포에서 나온다는 것을 보여주는 것입니다.
Part 03,
준지도 학습 알고리즘 분류전환 학습(전환 학습) 및 으로 나눌 수 있습니다. 귀납적 학습( 귀납적 모델) , 둘의 차이점은 모델 평가에 사용되는 테스트 데이터 세트의 선택에 있습니다. 직접 푸시 준지도 학습은 레이블을 예측해야 하는 데이터 세트가 훈련에 사용되는 레이블이 없는 데이터 세트임을 의미합니다. 학습의 목적은 예측 결과의 정확도를 더욱 향상시키는 것입니다. 귀납적 학습은 전혀 알려지지 않은 데이터 세트에 대한 레이블을 예측합니다.
또한 일반적인 준지도 학습 알고리즘의 단계는 다음과 같습니다. 첫 번째 단계는 레이블이 지정된 데이터에 대한 모델을 교육한 다음 이 모델을 사용하여 레이블이 없는 데이터에 레이블을 지정한 다음 의사 레이블과 레이블이 지정된 데이터는 새로운 훈련 세트로 결합되고, 새로운 모델은 이 훈련 세트에서 훈련되며, 마지막으로 모델은 예측 데이터 세트에 레이블을 지정하는 데 사용됩니다.
Part 04, 요약
현재 준지도 학습 분야에서는 PU-Learning(긍정적 및 부정적 샘플 학습)이 인기 있는 알고리즘입니다. 이러한 유형의 알고리즘은 주로 양성 샘플과 레이블이 없는 데이터만 포함된 데이터 세트에 적용됩니다. 장점은 일부 시나리오에서는 신뢰할 수 있는 양성 샘플 데이터 세트를 상대적으로 쉽게 얻을 수 있고 데이터 양이 상대적으로 많다는 것입니다. 예를 들어 스팸 탐지에서는 대량의 일반 이메일 데이터를 쉽게 얻을 수 있습니다
위 내용은 재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!