ホームページ >テクノロジー周辺機器 >AI >階層的クラスタリングで使用されるさまざまなリンク方法
階層クラスタリングは、距離または類似性の尺度に基づいて類似の観測値をグループ化する教師なし学習手法です。リンク方法によって、クラスター間の距離がどのように計算されるかが決まります。
この記事では、単一リンク、完全リンク、平均リンク、偏差二乗和法など、階層的クラスタリングで使用されるリンク法を紹介します。
単一リンケージ (単一リンケージ) は最近傍リンクとも呼ばれ、2 つのクラスター間の距離を 2 つのクラスター内の任意の 2 点間の最短距離として定義します。言い換えれば、2 つのクラスター間の距離は、それらの最も近い点間の距離によって決まります。ただし、このアプローチではクラスターの長いチェーンが生成されることが多く、データ内の外れ値やノイズの影響を非常に受けやすくなります。
完全リンケージ (Ccomplete リンケージ) は、最遠近傍リンクとも呼ばれ、2 つのクラスター内の任意の 2 点間の最長距離を使用して 2 つのクラスター間の距離を決定します。これは、2 つのクラスター間の距離が、それらの最も遠い点間の距離によって定義されることを意味します。完全なリンケージ手法では、データ内の外れ値やノイズの影響を受けにくいコンパクトな球状クラスターが生成される傾向があります。
平均リンケージ法は、2 つのクラスター間の距離を、2 つのクラスター内のすべての点のペア間の平均距離として計算します。このアプローチでは、単一のリンクによって生成される長い鎖状クラスターと完全なリンクによって生成されるコンパクトな球状クラスターの間のクラスター形態が生成される傾向があります。
Ward リンケージ法 (最小分散リンケージとも呼ばれます) は、2 つのクラスターがマージされたときの分散の増加を最小限に抑えて、2 つのクラスター間の距離を決定するために使用されます。この方法では、同様の分散とサイズを持つクラスターが生成される傾向があります。
階層的クラスタリングで使用されるリンク方法の選択は、クラスタリングの結果に重要な影響を与えます。リンク方法が異なると、クラスタリング出力も異なります。単一結合法はクラスターの長い鎖を形成する傾向があり、完全結合法はコンパクトな球状クラスターを生成し、平均結合法はその間のクラスターを生成します。さらに、偏差の二乗和の法則により、同様の分散とサイズを持つクラスターが生成されます。特定のリンク方法を選択する前に、データの特性と現在のタスクの目標を注意深く検討する必要があります。これはクラスタリングの結果に重要な影響を与えるためです。
以上が階層的クラスタリングで使用されるさまざまなリンク方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。