>기술 주변기기 >일체 포함 >일반적으로 사용되는 비지도 학습 알고리즘 소개

일반적으로 사용되는 비지도 학습 알고리즘 소개

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB
WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB앞으로
2024-01-22 18:18:181680검색

일반적으로 사용되는 비지도 학습 알고리즘 소개

비지도 학습은 레이블이 있는 예제를 사용하지 않고 데이터에서 패턴이나 구조를 발견하는 것을 목표로 하는 기계 학습 방법입니다. 알고리즘은 입력 데이터만을 제공받아 스스로 데이터의 구조를 찾아냅니다.

1. 클러스터링 알고리즘

이 알고리즘은 유사성을 기준으로 샘플을 클러스터로 그룹화하는 데 사용됩니다. 클러스터링의 목표는 각 그룹의 예가 높은 유사성을 갖도록 데이터를 그룹으로 나누는 것입니다.

중심 기반 방법, 밀도 기반 방법, 계층적 방법 등 다양한 클러스터링 방법이 있습니다. k-평균과 같은 중심 기반 방법은 데이터를 K개의 클러스터로 분할합니다. 여기서 각 클러스터는 중심(예: 대표적인 예)으로 정의됩니다. DBSCAN과 같은 밀도 기반 방법은 예제의 밀도를 기반으로 데이터를 클러스터로 분할합니다. 응집 클러스터링과 같은 계층적 방법은 각 예제가 처음에 자체 클러스터로 간주된 다음 유사성을 기반으로 클러스터가 병합되는 클러스터의 계층 구조를 구성합니다.

2. 차원 축소 알고리즘

차원 축소 알고리즘은 데이터 세트의 특징 수를 줄이는 데 사용되는 기술입니다. 그 목표는 가능한 한 많은 정보를 유지하면서 데이터의 복잡성을 줄이고 과적합을 방지하는 것입니다. 기계 학습에서는 학습 알고리즘의 성능을 향상시키기 위해 차원 축소 알고리즘이 사용되는 경우가 많습니다. 또한 차원 수를 줄이고 데이터를 하위 차원 공간에 매핑함으로써 데이터 시각화에도 사용할 수 있어 데이터 관리 및 그리기가 더 쉬워집니다.

선형 방법과 비선형 방법을 포함하여 차원 축소 방법에는 여러 가지가 있습니다. 선형 방법에는 데이터의 최대 분산을 포착하는 특징의 선형 조합을 찾는 주성분 분석(PCA) 및 선형 판별 분석(LDA)과 같은 기술이 포함됩니다. 비선형 방법에는 데이터의 로컬 구조를 보존하는 t-SNE 및 ISOMAP과 같은 기술이 포함됩니다.

선형 및 비선형 방법 외에도 특징 선택 방법(가장 중요한 특징의 하위 집합 선택)과 특징 추출 방법(데이터를 더 적은 차원의 새로운 공간으로 변환)도 있습니다.

3. 이상 탐지

이는 나머지 데이터와 비교하여 특이하거나 예상치 못한 예를 식별하는 비지도 학습 유형입니다. 이상 탐지 알고리즘은 사기 탐지나 결함이 있는 장비 식별에 자주 사용됩니다. 이상 징후 탐지 방법에는 통계적 방법, 거리 기반 방법, 밀도 기반 방법 등 다양한 방법이 있습니다. 통계 방법에는 평균, 표준 편차 등 데이터의 통계적 속성을 계산하고 특정 범위를 벗어나는 사례를 식별하는 작업이 포함됩니다. 거리 기반 방법에는 예제와 데이터의 상당 부분 사이의 거리를 계산하고 너무 멀리 있는 예제를 식별하는 작업이 포함됩니다. 밀도 기반 방법에는 데이터의 저밀도 영역에서 사례를 식별하는 작업이 포함됩니다.

4. 자동 인코더

자동 인코더는 차원 ​​축소에 사용되는 신경망 유형입니다. 입력 데이터를 저차원 표현으로 인코딩한 다음 다시 원래 공간으로 디코딩하는 방식으로 작동합니다. 자동 인코더는 일반적으로 데이터 압축, 잡음 제거, 이상 탐지 등의 작업에 사용됩니다. 이는 가장 중요한 특징을 포착하는 데이터의 저차원 표현을 학습할 수 있기 때문에 고차원이고 많은 특징을 갖는 데이터 세트에 특히 유용합니다.

5. 생성 모델

이러한 알고리즘은 데이터 분포를 학습하고 훈련 데이터와 유사한 새로운 예를 생성하는 데 사용됩니다. 널리 사용되는 생성 모델로는 GAN(Generative Adversarial Network) 및 VAE(Variational Autoencoder)가 있습니다. 생성 모델에는 데이터 생성, 이미지 생성, 언어 모델링을 비롯한 다양한 응용 프로그램이 있습니다. 또한 스타일 전송 및 이미지 초해상도와 같은 작업에도 사용됩니다.

6. 연관 규칙 학습

이 알고리즘은 데이터 세트에서 변수 간의 관계를 찾는 데 사용됩니다. 자주 구매하는 품목을 식별하기 위해 장바구니 분석에 자주 사용됩니다. 널리 사용되는 연관 규칙 학습 알고리즘은 Apriori 알고리즘입니다.

7. 자기 조직화 맵(SOM)

자기 조직화 맵(SOM)은 시각화 및 기능 학습에 사용되는 신경망 아키텍처입니다. 이는 고차원 데이터의 구조를 발견하는 데 사용할 수 있는 비지도 학습 알고리즘입니다. SOM은 일반적으로 데이터 시각화, 클러스터링, 이상 탐지와 같은 작업에 사용됩니다. 원본 데이터에서는 분명하지 않을 수 있는 패턴과 관계를 드러낼 수 있기 때문에 2차원 공간에서 고차원 데이터를 시각화하는 데 특히 유용합니다.

위 내용은 일반적으로 사용되는 비지도 학습 알고리즘 소개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제