>  기사  >  기술 주변기기  >  계층적 클러스터링에 사용되는 다양한 연결 방법

계층적 클러스터링에 사용되는 다양한 연결 방법

WBOY
WBOY앞으로
2024-01-22 15:42:16629검색

계층적 클러스터링에 사용되는 다양한 연결 방법

계층적 클러스터링은 거리 또는 유사성 척도를 기반으로 유사한 관찰을 그룹화하는 비지도 학습 기술입니다. 연결 방법에 따라 클러스터 간의 거리가 계산되는 방식이 결정됩니다.

이 글에서는 단일 링크, 완전 링크, 평균 링크, 편차 제곱합 방법 등 계층적 클러스터링에 사용되는 링크 방법을 소개합니다.

단일 연결은 가장 가까운 이웃 링크라고도 하며, 두 클러스터 사이의 거리를 두 클러스터에 있는 두 지점 사이의 최단 거리로 정의합니다. 즉, 두 군집 사이의 거리는 가장 가까운 점 사이의 거리에 따라 결정됩니다. 그러나 이 접근 방식은 긴 클러스터 체인을 초래하는 경우가 많으며 데이터의 이상값과 노이즈에 매우 민감합니다.

C완전 연결(가장 먼 이웃 링크라고도 함)은 두 클러스터의 두 점 사이의 가장 긴 거리를 사용하여 두 클러스터 사이의 거리를 결정합니다. 즉, 두 클러스터 사이의 거리는 가장 먼 지점 사이의 거리로 정의됩니다. 전체 연결 방법은 데이터의 이상값과 노이즈에 덜 민감한 소형 구형 클러스터를 생성하는 경향이 있습니다.

평균 연결 방법은 두 클러스터 사이의 거리를 두 클러스터에 있는 모든 점 쌍 사이의 평균 거리로 계산합니다. 이 접근법은 단일 링크에 의해 생성된 긴 사슬형 클러스터와 완전한 링크에 의해 생성된 소형 구형 클러스터 사이의 중간에 클러스터 형태를 생성하는 경향이 있습니다.

최소 분산 연결이라고도 알려진 Ward 연결 방법은 두 클러스터가 병합될 때 분산 증가를 최소화하여 두 클러스터 사이의 거리를 결정하는 데 사용됩니다. 이 방법은 분산과 크기가 유사한 클러스터를 생성하는 경향이 있습니다.

계층적 군집화에 사용되는 연결 방법의 선택은 군집화 결과에 중요한 영향을 미칩니다. 연결 방법이 다르면 클러스터링 출력도 달라집니다. 단일 연결 방법은 긴 클러스터 체인을 형성하는 경향이 있고, 전체 연결 방법은 소형 구형 클러스터를 생성하며, 평균 연결 방법은 그 사이에 클러스터를 생성합니다. 또한 편차의 제곱합 규칙은 분산과 크기가 유사한 클러스터를 생성합니다. 특정 연결 방법을 선택하기 전에 데이터의 특성과 현재 작업 목표를 신중하게 고려해야 합니다. 이는 클러스터링 결과에 중요한 영향을 미치기 때문입니다.

위 내용은 계층적 클러스터링에 사용되는 다양한 연결 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제