>  기사  >  기술 주변기기  >  기계 학습에 계층적 클러스터링 적용

기계 학습에 계층적 클러스터링 적용

王林
王林앞으로
2024-01-23 11:48:121108검색

기계 학습에 계층적 클러스터링 적용

계층적 클러스터링은 유사성에 따라 데이터 세트의 객체를 그룹화하는 데 사용되는 비지도 학습 방법입니다. 이 방법은 데이터 세트를 점점 더 작은 하위 세트로 점차적으로 나누어 최종적으로 각 하위 세트를 클러스터로 볼 수 있는 계층 구조를 형성하는 방식으로 작동합니다. 계층적 클러스터링에는 응집형과 분할형의 두 가지 유형이 있습니다. 응집적 계층적 클러스터링은 각 개체를 초기 클러스터로 시작한 다음 모든 개체가 하나의 클러스터로 병합될 때까지 유사한 클러스터를 점차적으로 병합합니다. 분열성 계층적 클러스터링은 전체 데이터 세트를 초기 클러스터로 시작한 다음 각 개체가 별도의 클러스터를 형성할 때까지 클러스터를 더 작은 클러스터로 점차 분할합니다. 계층적 클러스터링 방법은 유사성이 높은 클러스터를 점진적으로 병합하여 대규모 클러스터를 형성하거나 필요한 클러스터 수에 도달함으로써 클러스터 수에 대한 유연성을 제공하는 동시에 를 캡처할 수 있습니다. 이 방법은 임의의 모양의 클러스터에 적응할 수 있다는 장점이 있으며 미리 클러스터 수를 지정할 필요가 없습니다. 그러나 노이즈와 이상값에 매우 민감하며 계산 복잡도도 높습니다. 따라서 응집적 계층적 클러스터링을 적용할 때에는 데이터 전처리를 통해 노이즈와 이상값을 제거해야 하며, 컴퓨팅 리소스 소모에도 주의를 기울여야 합니다.

분열성 계층적 군집화는 전체 데이터 세트를 점점 더 작은 하위 집합으로 나누어 군집화를 달성하는 하향식 방법입니다. 이는 잡음과 이상치에 민감하지 않고 계산 복잡성이 낮다는 장점이 있습니다. 그러나 분열형 계층적 군집화의 단점은 임의의 모양의 군집에 적응할 수 없고 군집 수를 미리 지정해야 한다는 점입니다.

계층적 군집화의 핵심은 유사성 측정입니다. 일반적인 측정 방법에는 유클리드 거리, 맨해튼 거리, 코사인 유사성이 있습니다. 이러한 측정값은 클러스터링 프로세스에서 클러스터의 병합 또는 분할을 결정하기 위해 클러스터 간의 거리 또는 유사성을 계산하는 데 사용됩니다. 계층적 클러스터링은 클러스터를 지속적으로 병합하거나 분할하여 클러스터링 계층을 구축하며, 각 수준은 서로 다른 수의 클러스터를 나타냅니다.

계층적 클러스터링 알고리즘의 주요 단계는 다음과 같습니다.

1 샘플 간의 거리 또는 유사성 행렬을 계산합니다.

2. 각 샘플을 클러스터로 처리하고 초기 클러스터링 트리를 구축합니다.

3. 클러스터가 형성될 때까지 다음 단계를 반복합니다.

a 현재 클러스터링 트리에 있는 모든 클러스터 간의 거리 또는 유사성을 계산합니다.

b. 거리나 유사성이 가장 작은 두 클러스터를 병합합니다.
  • c. 클러스터링 트리를 업데이트합니다.
  • d. 클러스터의 수 또는 임계값을 결정하고 필요에 따라 클러스터를 나눕니다.
  • 실제 응용 분야에서 계층적 클러스터링은 이미지 분할, 텍스트 클러스터링, 생물정보학, 소셜 네트워크 분석 및 기타 분야에서 자주 사용됩니다. 예를 들어, 계층적 클러스터링은 텍스트 문서 세트를 주제별로 관련된 그룹으로 클러스터링하거나 이미지 세트를 관련 영역으로 분할하는 데 사용할 수 있습니다. 생물정보학에서는 계층적 클러스터링을 사용하여 유전자 발현 데이터를 분석하여 어떤 유전자가 서로 관련되어 있는지 확인함으로써 특정 질병과 관련된 유전자 세트를 식별할 수 있습니다.

간단히 말하면, 계층적 클러스터링은 유사성을 기준으로 데이터 세트를 여러 클러스터로 나누고 클러스터링 계층을 형성할 수 있는 일반적인 비지도 기계 학습 방법입니다. 응집적 계층적 클러스터링과 분할적 계층적 클러스터링은 두 가지 일반적인 계층적 클러스터링 방법입니다. 애플리케이션에서 계층적 클러스터링은 이미지 분할, 텍스트 클러스터링, 생물정보학, 소셜 네트워크 분석 및 기타 분야에서 사용될 수 있습니다.

위 내용은 기계 학습에 계층적 클러스터링 적용의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제