Maison > Article > Périphériques technologiques > Différentes méthodes de liaison utilisées dans le clustering hiérarchique
Le clustering hiérarchique est une technique d'apprentissage non supervisé qui regroupe des observations similaires en fonction de mesures de distance ou de similarité. La méthode de liaison détermine la manière dont les distances entre les clusters sont calculées.
Cet article présentera les méthodes de lien utilisées dans le clustering hiérarchique, y compris la méthode du lien unique, du lien complet, du lien moyen et de la somme des carrés de déviation.
Le lien simple est également appelé lien voisin le plus proche, qui définit la distance entre deux clusters comme la distance la plus courte entre deux points quelconques des deux clusters. En d’autres termes, la distance entre deux clusters est déterminée par la distance entre leurs points les plus proches. Cependant, cette approche aboutit souvent à de longues chaînes de clusters et est très sensible aux valeurs aberrantes et au bruit dans les données.
La liaison Ccomplete, également connue sous le nom de lien du voisin le plus éloigné, utilise la distance la plus longue entre deux points quelconques dans deux clusters pour déterminer la distance entre deux clusters. Cela signifie que la distance entre deux clusters est définie par la distance entre leurs points les plus éloignés. Les méthodes de liaison complète ont tendance à produire des clusters sphériques compacts qui sont moins sensibles aux valeurs aberrantes et au bruit dans les données.
La méthode de liaison moyenne calcule la distance entre deux clusters comme la distance moyenne entre toutes les paires de points dans les deux clusters. Cette approche tend à produire des morphologies de clusters intermédiaires entre les clusters en forme de longue chaîne générés par des maillons simples et les clusters sphériques compacts générés par des maillons complets.
La méthode de liaison de Ward, également connue sous le nom de liaison de variance minimale, est utilisée pour déterminer la distance entre deux clusters en minimisant l'augmentation de la variance lorsque les deux clusters sont fusionnés. Cette méthode a tendance à générer des clusters avec une variance et une taille similaires.
Le choix de la méthode de liaison utilisée dans le clustering hiérarchique a un impact important sur les résultats du clustering. Différentes méthodes de liaison conduisent à différentes sorties de clustering. Les méthodes de liaison simple ont tendance à former de longues chaînes de clusters, les méthodes de liaison complète produisent des clusters sphériques compacts et les méthodes de liaison moyenne produisent des clusters intermédiaires. De plus, la règle de la somme des carrés des écarts produit des clusters avec des variances et des tailles similaires. Avant de choisir une méthode de liaison spécifique, nous devons examiner attentivement les caractéristiques des données ainsi que les objectifs actuels de la tâche, car cela aura un impact important sur les résultats du regroupement.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!