>기술 주변기기 >일체 포함 >재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색

재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색

王林
王林앞으로
2023-11-18 22:21:121237검색

재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색

연구소 소개

인터넷의 발달로 기업은 점점 더 많은 데이터를 얻을 수 있습니다. 이 데이터는 기업이 고객 프로필이라고 하는 사용자를 더 잘 이해하는 데 도움이 되며 사용자 경험을 향상시킬 수 있습니다. 그러나 이러한 데이터에는 라벨이 지정되지 않은 데이터가 많이 있을 수 있습니다. 모든 데이터에 수동으로 레이블을 지정하면 두 가지 문제가 발생합니다. 우선, 수동 라벨링은 시간이 많이 걸리고 비효율적입니다. 데이터의 양이 증가할수록 더 많은 인력을 고용해야 하고, 시간도 더 걸리며, 비용도 더 많이 들게 됩니다. 둘째, 사용자 규모가 증가함에 따라 수동 라벨링으로는 증가하는 데이터를 따라잡기가 어렵습니다. Part 01,

준지도 학습이란 무엇인가요?

준지도 학습은 기존 학습을 의미합니다. labels 데이터에 모델 학습을 위한 레이블이 지정되지 않은 데이터가 있습니다. 준지도 학습은 일반적으로 레이블이 지정된 데이터를 기반으로 속성 공간을 구성한 다음 레이블이 없는 데이터에서 효과적인 정보를 추출하여 속성 공간을 채우거나 재구성합니다. 따라서 준지도 학습의 초기 훈련 세트는 일반적으로 레이블이 지정된 데이터 세트 D1과 레이블이 지정되지 않은 데이터 세트 D2로 구분되며, 전처리 및 특징 추출과 같은 기본 단계를 통해 준지도 학습 모델이 훈련된 후 훈련된 모델이 됩니다. 프로덕션 환경에서 사용자에게 서비스를 제공하는 데 사용됩니다.

Part 02. 준지도 학습의 가정 재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색

레이블이 있는 데이터의 "유용한" 정보를 효과적으로 보완하기 위해 데이터 분할 및 기타 측면에 대해 몇 가지 가정을 합니다. 준지도 학습의 기본 가정은 p(x)에는 p(y|x)의 정보가 포함되어 있다는 것입니다. 즉, 레이블이 지정되지 않은 데이터에는 레이블 예측에 유용하고 레이블이 지정된 데이터와 다르거나 어려운 정보가 포함되어야 합니다. 데이터에서 추출된 정보를 라벨링하여 얻습니다. 또한 알고리즘을 제공하는 몇 가지 가정이 있습니다. 예를 들어, 유사성 가설(부드러움 가설)은 데이터 샘플로 구성된 속성 공간에서 가깝거나 유사한 샘플이 동일한 레이블을 갖는다는 것을 의미하고, 저밀도 분리 가설은 서로 다른 레이블을 구별할 수 있는 결정 경계가 있음을 의미합니다. 데이터 샘플이 거의 없습니다.

위 가정의 주요 목적은 레이블이 있는 데이터와 레이블이 없는 데이터가 동일한 데이터 분포에서 나온다는 것을 보여주는 것입니다.

Part 03,

준지도 학습 알고리즘 분류

반지도 학습 알고리즘에는 여러 가지가 있으며 대략

전환 학습(전환 학습) 으로 나눌 수 있습니다. 귀납적 학습( 귀납적 모델) , 둘의 차이점은 모델 평가에 사용되는 테스트 데이터 세트의 선택에 있습니다. 직접 푸시 준지도 학습은 레이블을 예측해야 하는 데이터 세트가 훈련에 사용되는 레이블이 없는 데이터 세트임을 의미합니다. 학습의 목적은 예측 결과의 정확도를 더욱 향상시키는 것입니다. 귀납적 학습은 전혀 알려지지 않은 데이터 세트에 대한 레이블을 예측합니다.

또한 일반적인 준지도 학습 알고리즘의 단계는 다음과 같습니다. 첫 번째 단계는 레이블이 지정된 데이터에 대한 모델을 교육한 다음 이 모델을 사용하여 레이블이 없는 데이터에 레이블을 지정한 다음 의사 레이블과 레이블이 지정된 데이터는 새로운 훈련 세트로 결합되고, 새로운 모델은 이 훈련 세트에서 훈련되며, 마지막으로 모델은 예측 데이터 세트에 레이블을 지정하는 데 사용됩니다. 재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색

Part 04, 요약

준지도 학습의 가장 큰 문제는 많은 경우 모델의 성능이 레이블이 지정된 데이터 세트에 따라 달라지며 레이블이 있는 데이터 세트에 대한 품질 요구 사항이 높다는 것입니다. 지도 학습 모델의 예측 정확도는 레이블이 지정된 데이터 세트를 기반으로 한 지도 모델의 결과와 크게 다르지 않습니다. 반면, 준 지도 모델은 효과적인 추출을 위해 더 많은 리소스를 소비합니다. 라벨이 지정되지 않은 데이터의 정보입니다. 따라서 준지도 학습의 개발 방향은 알고리즘의 견고성과 데이터 추출의 효율성을 향상시키는 것입니다.

현재 준지도 학습 분야에서는 PU-Learning(긍정적 및 부정적 샘플 학습)이 인기 있는 알고리즘입니다. 이러한 유형의 알고리즘은 주로 양성 샘플과 레이블이 없는 데이터만 포함된 데이터 세트에 적용됩니다. 장점은 일부 시나리오에서는 신뢰할 수 있는 양성 샘플 데이터 세트를 상대적으로 쉽게 얻을 수 있고 데이터 양이 상대적으로 많다는 것입니다. 예를 들어 스팸 탐지에서는 대량의 일반 이메일 데이터를 쉽게 얻을 수 있습니다

위 내용은 재작성된 제목: 준지도 학습의 응용 분야 및 관련 시나리오 탐색의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제