層次聚類是一種無監督學習技術,根據距離或相似性測量將相似的觀察結果分組。連結方法決定了聚類間距離的計算方式。
本文就來介紹下層次聚類中使用的連結方法,包括單一連結、完全連結、平均連結和離差平方和法。
單一鏈結(Single linkage)也被稱為最近鄰鏈接,它將兩個簇之間的距離定義為這兩個簇中任意兩個點之間的最短距離。換句話說,兩個簇之間的距離是由它們最接近的點之間的距離決定的。然而,這種方法常常會導致形成長鏈狀的聚類,而且對資料中的異常值和雜訊非常敏感。
完全鏈接(Ccomplete linkage)也稱為最遠鄰居鏈接,它使用兩個簇中任意兩點之間的最長距離來確定兩個簇之間的距離。這意味著兩個簇之間的距離由它們最遠點之間的距離定義。完全連結方法傾向於產生緊湊的球形集群,這些集群對資料中的異常值和雜訊不太敏感。
平均連結(Average linkage)方法計算兩個聚類之間的距離為兩個聚類中所有點對之間的平均距離。這種方法傾向於產生介於單連結產生的長鏈狀集群和完整連結產生的緊湊球形集群之間的集群形態。
離差平方和法(Ward linkage),也被稱為最小方差鏈接,用於通過最小化兩個聚類合併時方差的增加來確定兩個聚類之間的距離。這種方法傾向於產生方差和大小相似的聚類。
層次聚類中使用的連結方法選擇對聚類結果有著重要影響。不同的連結方法會導致不同的聚類輸出。單連結方法傾向於形成長鏈狀的聚類集群,完全連結方法則產生緊湊的球形聚類集群,而平均連結方法則產生介於兩者之間的聚類集群。另外,離差平方和法則會產生具有相似變異數和大小的聚類群集。在選擇特定的連結方法之前,我們需要仔細考慮資料的特徵以及目前的任務目標,因為這會對聚類結果產生重要影響。
以上是層次聚類中使用的不同連結方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!