Heim  >  Artikel  >  Technologie-Peripheriegeräte  >  Verschiedene Verknüpfungsmethoden, die beim hierarchischen Clustering verwendet werden

Verschiedene Verknüpfungsmethoden, die beim hierarchischen Clustering verwendet werden

WBOY
WBOYnach vorne
2024-01-22 15:42:16566Durchsuche

Verschiedene Verknüpfungsmethoden, die beim hierarchischen Clustering verwendet werden

Hierarchisches Clustering ist eine unbeaufsichtigte Lerntechnik, die ähnliche Beobachtungen basierend auf Distanz- oder Ähnlichkeitsmaßen gruppiert. Die Verknüpfungsmethode bestimmt, wie Abstände zwischen Clustern berechnet werden.

In diesem Artikel werden die Link-Methoden vorgestellt, die beim hierarchischen Clustering verwendet werden, einschließlich der Methode „Einzellink“, „Vollständiger Link“, „Durchschnittslink“ und „Summe der Quadrate der Abweichung“.

Einzelne Verknüpfung wird auch als nächstgelegene Nachbarverbindung bezeichnet und definiert den Abstand zwischen zwei Clustern als den kürzesten Abstand zwischen zwei beliebigen Punkten in den beiden Clustern. Mit anderen Worten: Der Abstand zwischen zwei Clustern wird durch den Abstand zwischen ihren nächstgelegenen Punkten bestimmt. Allerdings führt dieser Ansatz oft zu langen Clusterketten und ist sehr empfindlich gegenüber Ausreißern und Rauschen in den Daten.

Ccomplete Linkage, auch als „Am weitesten benachbarte Verbindung“ bekannt, verwendet den längsten Abstand zwischen zwei beliebigen Punkten in zwei Clustern, um den Abstand zwischen zwei Clustern zu bestimmen. Das bedeutet, dass der Abstand zwischen zwei Clustern durch den Abstand zwischen ihren am weitesten entfernten Punkten definiert wird. Vollständige Verknüpfungsmethoden neigen dazu, kompakte kugelförmige Cluster zu erzeugen, die weniger empfindlich gegenüber Ausreißern und Rauschen in den Daten sind.

Die durchschnittliche Verknüpfungsmethode berechnet den Abstand zwischen zwei Clustern als durchschnittlichen Abstand zwischen allen Punktpaaren in den beiden Clustern. Dieser Ansatz führt tendenziell zu Clustermorphologien, die zwischen den langen kettenartigen Clustern, die durch einzelne Verbindungen erzeugt werden, und den kompakten kugelförmigen Clustern, die durch vollständige Verbindungen erzeugt werden, liegen.

Die Ward-Verknüpfungsmethode, auch als Minimum-Varianz-Verknüpfung bekannt, wird verwendet, um den Abstand zwischen zwei Clustern zu bestimmen, indem die Varianzzunahme beim Zusammenführen der beiden Cluster minimiert wird. Diese Methode tendiert dazu, Cluster mit ähnlicher Varianz und Größe zu erzeugen.

Die Wahl der beim hierarchischen Clustering verwendeten Verknüpfungsmethode hat einen wichtigen Einfluss auf die Clustering-Ergebnisse. Unterschiedliche Verknüpfungsmethoden führen zu unterschiedlichen Clustering-Ergebnissen. Methoden mit einfacher Verknüpfung neigen dazu, lange Clusterketten zu bilden, Methoden mit vollständiger Verknüpfung erzeugen kompakte kugelförmige Cluster und Methoden mit durchschnittlicher Verknüpfung erzeugen Cluster dazwischen. Darüber hinaus erzeugt die Quadratsummenregel der Abweichungen Cluster mit ähnlichen Varianzen und Größen. Bevor wir uns für eine bestimmte Verknüpfungsmethode entscheiden, müssen wir die Eigenschaften der Daten sowie die aktuellen Aufgabenziele sorgfältig prüfen, da dies einen erheblichen Einfluss auf die Clustering-Ergebnisse haben wird.

Das obige ist der detaillierte Inhalt vonVerschiedene Verknüpfungsmethoden, die beim hierarchischen Clustering verwendet werden. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Stellungnahme:
Dieser Artikel ist reproduziert unter:163.com. Bei Verstößen wenden Sie sich bitte an admin@php.cn löschen