>기술 주변기기 >일체 포함 >지도 학습과 비지도 학습: 전문가가 정의하는 격차

지도 학습과 비지도 학습: 전문가가 정의하는 격차

王林
王林앞으로
2023-11-23 18:09:22874검색

다시 작성해야 할 것은 지도 학습, 비지도 학습, 준지도 학습의 특징을 이해하고 머신러닝 프로젝트에 어떻게 적용되는지 이해하는 것입니다.

지도 학습과 비지도 학습: 전문가가 정의하는 격차

인공지능 기술을 논할 때 지도 학습은 종종 AI 모델 생성의 마지막 단계인 경우가 많으며 이미지 인식, 더 나은 예측, 제품 추천, 리드 평가 등에 사용될 수 있기 때문에 가장 주목받는 방법입니다.

반면, 지도 학습 경향은 없습니다. AI 개발 라이프사이클 초기에 배후에서 작업하기 위해: 이는 관리자가 빛을 발할 수 있도록 하는 힘든 작업과 마찬가지로 지도 학습의 마법이 펼쳐지기 위한 토대를 마련하는 데 종종 사용됩니다. 나중에 설명하겠지만 두 기계 학습 모델 모두 비즈니스 문제에 효과적으로 적용될 수 있습니다.

기술적인 수준에서 지도 학습과 비지도 학습의 차이점은 알고리즘을 생성하는 데 사용된 원시 데이터에 사전 레이블이 지정되어 있는지(지도 학습) 또는 그렇지 않은지(비지도 학습) 여부입니다.

시작하겠습니다

지도 학습이란 무엇인가요?

지도 학습에서 데이터 과학자는 레이블이 지정된 훈련 데이터를 알고리즘에 제공하고 알고리즘이 관련성을 평가할 변수를 정의합니다.

알고리즘의 입력 데이터와 출력 변수는 훈련 데이터를 통해 지정됩니다. 예를 들어, 지도 학습을 사용하여 이미지에 고양이가 포함되어 있는지 확인하는 알고리즘을 훈련시키려는 경우 훈련 데이터에 사용되는 각 이미지에 대한 레이블을 생성하여 이미지에 고양이가 포함되어 있는지 여부를 나타낼 수 있습니다

우리는 지도 학습에 대한 정의는 다음과 같습니다. "[A] 컴퓨터 알고리즘은 특정 출력에 대해 레이블이 지정된 입력 데이터에 대해 훈련됩니다. 모델은 입력 데이터와 출력 레이블을 감지할 수 있을 때까지 훈련됩니다. 이들 간의 기본 패턴과 관계를 허용합니다. 이전에 본 적이 없는 데이터가 제시될 때 정확한 라벨링 결과를 생성합니다. 일반적인 유형의 지도 알고리즘에는 분류, 의사 결정 트리, 회귀 및 예측 모델링이 포함되며, 이는 Arcitura Education의 Machines에서 배울 수 있습니다.

감독형 기계 학습 기술은 다음을 포함한 다양한 비즈니스 애플리케이션에 사용됩니다.

  • 맞춤형 마케팅
  • 보험/신용 인수 결정. 사기 탐지.
  • 스팸 필터링.
  • 비지도 학습이란 무엇인가요?
이 방법에 대한 알고리즘이 있습니다(예: K-평균 클러스터링). 즉, 비지도 학습은 데이터를 외부 측정값과 연관시키는 대신 데이터의 패턴을 식별합니다.

이 접근 방식은 자신이 무엇인지 모를 때 유용합니다. 비지도 알고리즘은 수천 또는 수백만 개의 이미지를 표시하며 고양이와 개에 대한 레이블이 지정된 데이터와 비교하여 인간이 고양이로 인식하는 이미지의 하위 집합을 분류할 수 있습니다. 훈련된 알고리즘은 높은 신뢰도를 가지고 고양이 이미지를 식별할 수 있지만 이 접근 방식에는 균형이 필요합니다. 지도 학습 프로젝트에서 모델을 개발하기 위해 수백만 개의 레이블이 지정된 이미지가 필요한 경우 기계 생성 예측에는 많은 양의 이미지가 필요합니다.

중간 지점이 있습니다.

반지도 학습이란 무엇인가요?

반지도 학습은 특정 워크플로우를 통해 비지도 학습과 지도 학습을 결합하는 효과적인 방법입니다. 비지도 학습 알고리즘은 자동으로 레이블을 생성한 다음 지도 학습 알고리즘에 입력합니다. 이 방법에서는 사람이 일부 이미지에 수동으로 레이블을 지정하는 반면 비지도 학습 알고리즘은 다른 이미지의 레이블을 추측하여 결국 모든 레이블과 이미지에 입력됩니다. AI 모델을 생성하기 위한 지도 학습 알고리즘

반 지도 학습의 한 가지 이점은 기계 학습에서 대규모 데이터 세트를 사용하는 데 드는 비용을 줄일 수 있다는 것입니다. 기업 데이터 카탈로그 플랫폼 Alation에 따르면 인간이 수백만 개의 샘플 중 0.01%에 라벨을 붙일 수 있다면 컴퓨터는 이러한 라벨을 사용하여 예측 정확도를 크게 향상시킬 수 있습니다

지도 학습과 비지도 학습: 전문가가 정의하는 격차

강화학습이란 무엇인가요?

또 다른 기계 학습 방법은 강화 학습입니다. 강화 학습은 일반적으로 기계가 일련의 단계를 완료하도록 가르치는 데 사용되며 지도 학습 및 비지도 학습과 다릅니다. 데이터 과학자는 작업을 수행하는 알고리즘을 프로그래밍하고 작업 완료 방법을 결정할 때 긍정적이거나 부정적인 단서 또는 강화를 제공합니다. 프로그래머는 보상에 대한 규칙을 설정하지만 작업을 완료하기 위해 보상을 최대화하기 위해 취해야 할 단계를 알고리즘이 결정하도록 합니다.

지도 학습과 비지도 학습을 언제 사용해야 합니까?

LinkedIn의 기계 학습 관리자인 Shivani Rao는 지도 또는 비지도 기계 학습 접근 방식을 취하는 모범 사례는 종종 환경, 데이터 및 애플리케이션에 대해 내릴 수 있는 가정에 따라 달라진다고 말했습니다.

Rao는 지도 머신러닝 알고리즘과 비지도 머신러닝 알고리즘을 사용하는 선택도 시간이 지남에 따라 바뀔 것이라고 말했습니다. 모델 구축 프로세스의 초기 단계에서는 데이터에 레이블이 지정되지 않는 경우가 많지만, 레이블이 지정된 데이터는 모델링의 후반 단계에서 나타날 수 있습니다.

예를 들어 LinkedIn 회원이 강좌 동영상을 시청할지 여부를 예측하는 문제의 경우 첫 번째 모델은 비지도 기법을 사용합니다. 이러한 제안이 제공되면 누군가가 제안을 클릭하는지 여부를 기록하는 측정항목이 라벨을 생성하기 위한 새 데이터를 제공합니다.

LinkedIn은 또한 이 기술을 사용하여 학생들이 습득하고 싶어할 수 있는 기술에 대한 온라인 강좌에 태그를 지정합니다. 작가, 출판사 또는 학생과 같은 인간 태거는 코스에서 가르치는 기술의 정확하고 정확한 목록을 제공할 수 있지만 그러한 기술의 전체 목록을 제공할 가능성은 낮습니다. 따라서 이러한 데이터 레이블은 불완전한 것으로 간주될 수 있습니다. 이러한 유형의 문제에서는 준지도 기술을 사용하여 보다 철저한 레이블 세트를 구축할 수 있습니다.

데이터 과학 및 고급 분석 전문가이자 컨설팅 회사인 Kearney의 파트너인 Bharath Thota는 그의 팀이 지도 학습이나 비지도 학습을 사용할 때 실용적인 요소도 고려하는 경향이 있다고 말했습니다.

Thota는 다음과 같이 말했습니다. “레이블이 있는 데이터를 사용할 수 있는 경우 미래 ​​관찰을 예측하거나 분류하기 위해 지도 학습을 애플리케이션으로 선택합니다. 사용 가능한 레이블이 있는 데이터가 없으면 개발을 목표로 비지도 학습을 사용합니다. Kalb는 Alation 데이터 과학자가 다양한 애플리케이션을 위해 내부적으로 비지도 학습을 사용한다고 말했습니다. 예를 들어, 그들은 모호한 데이터 개체 이름을 인간의 언어로 번역하기 위한 인간-기계 협업 프로세스를 개발했습니다. 예를 들어 "na_gr_rvnu_ps"를 "북미 전체 전문 서비스 수익"으로 번역했습니다. 이 경우 기계가 추측하고 인간이 확인하고 기계가 학습합니다.

Kalb는 "반복 루프의 반지도 학습으로 생각하면 정확도가 향상되는 선순환을 만들 수 있습니다."라고 말했습니다.

5가지 비지도 학습 기술

높은 수준에서 지도 학습 기술은 선형 회귀(예측을 위해 모델을 데이터 포인트 집합에 맞추는 것) 또는 분류 문제(이미지에 고양이가 있는지 여부)에 초점을 맞추는 경향이 있습니다. ?

비지도 학습 기술은 다음과 같은 다양한 방법으로 원시 데이터 세트를 쪼개고 쪼개서 지도 학습 작업을 보완하는 경우가 많습니다.

유사한 특성을 가진 데이터 포인트의 데이터 클러스터링 예를 들어, 회사는 데이터 클러스터링 방법을 사용하여 인구통계, 관심사, 구매 행동 및 기타 요인을 기반으로 고객을 그룹으로 분류할 수 있습니다.

데이터세트의 각 변수는 별도의 차원으로 처리됩니다. 그러나 많은 모델은 변수 간의 특정 관계를 분석하여 더 잘 작동합니다. 수익을 단일 차원으로 사용하는 경우가 있습니다. 이는 수입에서 비용을 뺀 값을 나타냅니다. 그러나 더 복잡한 새 변수 유형은 다음을 사용하여 생성할 수 있습니다. 주성분 분석, 자동 인코더, 텍스트를 벡터로 변환하는 알고리즘 또는 T-분포 확률론적 이웃 임베딩과 같은 알고리즘은 모델이 작은 데이터 세트에 적합하지만 일반화되지 않는 과적합 문제를 줄이는 데 도움이 될 수 있습니다. 이 기술을 통해 기업은 인간이 쉽게 이해할 수 있는 고차원 데이터를 시각화할 수 있습니다.

비지도 학습은 데이터 준비 단계에서 이상 현상을 식별하고 제거하는 데 도움이 됩니다.

머신러닝 모델을 향상시킬 수 있습니다.

전이 학습. 이러한 알고리즘은 관련되어 있지만 서로 다른 작업에 대해 훈련된 모델을 활용합니다. 예를 들어 전이 학습 기술을 사용하면 Wikipedia 기사에 대해 훈련된 분류자를 쉽게 미세 조정하여 모든 유형의 새 텍스트에 올바른 주제로 레이블을 지정할 수 있습니다. LinkedIn의 Rao는 이것이 레이블이 지정되지 않은 데이터 문제를 해결하는 가장 효과적이고 빠른 방법 중 하나라고 말합니다.

그래프 기반 알고리즘. Rao는 이러한 기술이 데이터 포인트 간의 관계를 포착하는 그래프를 구축하려고 한다고 말했습니다. 예를 들어, 각 데이터 포인트가 기술을 보유한 LinkedIn 회원을 나타내는 경우 그래프를 사용하여 회원을 나타낼 수 있습니다. 여기서 가장자리는 회원 간의 기술 중복을 나타냅니다. 그래프 알고리즘은 알려진 데이터 포인트의 레이블을 알려지지 않았지만 밀접하게 관련된 데이터 포인트로 전송하는 데도 도움이 될 수 있습니다. 비지도 학습은 다양한 유형의 엔터티(소스 및 대상) 간에 그래프를 작성하는 데에도 사용할 수 있습니다. 에지가 강할수록 소스 노드와 대상 노드의 선호도가 높아집니다. 예를 들어 LinkedIn은 이를 사용하여 회원을 기술 기반 코스와 연결합니다.

위 내용은 지도 학습과 비지도 학습: 전문가가 정의하는 격차의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 51cto.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제