使用樹狀圖可視化聚類

PHPz轉載: 2023-05-01 09:01:061396瀏覽

一般情況下，我們都是使用散佈圖進行聚類視覺化，但是某些的聚類演算法視覺化時散點圖並不理想，所以在這篇文章中，我們介紹如何使用樹狀圖（ Dendrograms）對我們的聚類結果進行視覺化。

樹狀圖

樹狀圖是顯示物件、群組或變數之間的層次關係的圖表。樹狀圖由在節點或簇處連接的分支組成，它們代表具有相似特徵的觀察組。分支的高度或節點之間的距離表示群組之間的不同或相似程度。也就是說分支越長或節點之間的距離越大，組就越不相似。分支越短或節點之間的距離越小，組越相似。

樹狀圖對於可視化複雜的資料結構和識別具有相似特徵的資料子組或簇很有用。它們通常用於生物學、遺傳學、生態學、社會科學和其他可以根據相似性或相關性對數據進行分組的領域。

背景知識：

「樹狀圖」一詞來自希臘文「dendron」（樹）和「gramma」（繪圖）。 1901年，英國數學家和統計學家卡爾皮爾遜以樹狀圖顯示不同植物種類之間的關係。他稱這個圖為「聚類圖」。這可以被認為是樹狀圖的首次使用。

資料準備

我們將使用幾家公司的真實股價來進行聚類。為了方便獲取，所以使用 Alpha Vantage 提供的免費 API 來收集資料。 Alpha Vantage同時提供免費 API 和進階 API，透過API存取需要金鑰，請參考他的網站。

import pandas as pd
 import requests
 
 companies={'Apple':'AAPL','Amazon':'AMZN','Facebook':'META','Tesla':'TSLA','Alphabet (Google)':'GOOGL','Shell':'SHEL','Suncor Energy':'SU',
'Exxon Mobil Corp':'XOM','Lululemon':'LULU','Walmart':'WMT','Carters':'CRI','Childrens Place':'PLCE','TJX Companies':'TJX',
'Victorias Secret':'VSCO','MACYs':'M','Wayfair':'W','Dollar Tree':'DLTR','CVS Caremark':'CVS','Walgreen':'WBA','Curaleaf':'CURLF'}

科技、零售、石油和天然氣以及其他行業中挑選了 20 家公司。

import time
 
 all_data={}
 for key,value in companies.items():
 # Replace YOUR_API_KEY with your Alpha Vantage API key
 url = f'https://www.alphavantage.co/query?function=TIME_SERIES_DAILY_ADJUSTED&symbol={value}&apikey=<YOUR_API_KEY>&outputsize=full'
 response = requests.get(url)
 data = response.json()
 time.sleep(15)
 if 'Time Series (Daily)' in data and data['Time Series (Daily)']:
 df = pd.DataFrame.from_dict(data['Time Series (Daily)'], orient='index')
 print(f'Received data for {key}')
 else:
 print("Time series data is empty or not available.")
 df.rename(columns = {'1. open':key}, inplace = True)
 all_data[key]=df[key]

在上面的程式碼在 API 呼叫之間設定了 15 秒的暫停，這樣可以保證不會因為太頻繁而被封鎖。

# find common dates among all data frames
 common_dates = None
 for df_key, df in all_data.items():
 if common_dates is None:
 common_dates = set(df.index)
 else:
 common_dates = common_dates.intersection(df.index)
 
 common_dates = sorted(list(common_dates))
 
 # create new data frame with common dates as index
 df_combined = pd.DataFrame(index=common_dates)
 
 # reindex each data frame with common dates and concatenate horizontally
 for df_key, df in all_data.items():
 df_combined = pd.concat([df_combined, df.reindex(common_dates)], axis=1)

將上面的資料整合成我們需要的DF，下面就可以直接使用了

層次聚類

層次聚類（Hierarchical clustering）是一種用於機器學習和資料分析的聚類演算法。它使用嵌套簇的層次結構，根據相似性將相似物件分組到簇中。該演算法可以是聚集性的可以從單一物件開始並將它們合併成簇，也可以是分裂的，從一個大簇開始並遞歸地將其分成較小的簇。

要注意的是並非所有聚類方法都是層次聚類方法，只能在少數聚類演算法上使用樹狀圖。

聚類演算法我們將使用 scipy 模組中提供的層次聚類。

1、自上而下聚類

import numpy as np
 import scipy.cluster.hierarchy as sch
 import matplotlib.pyplot as plt
 
 # Convert correlation matrix to distance matrix
 dist_mat = 1 - df_combined.corr()
 
 # Perform top-down clustering
 clustering = sch.linkage(dist_mat, method='complete')
 cuts = sch.cut_tree(clustering, n_clusters=[3, 4])
 
 # Plot dendrogram
 plt.figure(figsize=(10, 5))
 sch.dendrogram(clustering, labels=list(df_combined.columns), leaf_rotation=90)
 plt.title('Dendrogram of Company Correlations (Top-Down Clustering)')
 plt.xlabel('Companies')
 plt.ylabel('Distance')
 plt.show()

使用樹狀圖可視化聚類

#如何根據樹狀圖確定最佳簇數

找到最佳簇數的最簡單方法是查看生成的樹狀圖中使用的顏色數。最佳簇的數量比顏色的數量少一個就可以了。所以根據上面這個樹狀圖，最佳聚類的數量是兩個。

另一種找到最佳簇數的方法是辨識簇間距離突然變化的點。這稱為“拐點”或“肘點”，可用於確定最能捕捉資料變化的聚類數量。上面圖中我們可以看到，不同數量的簇之間的最大距離變化發生在 1 和 2 個簇之間。因此，再一次說明最佳簇數是兩個。

從樹狀圖中取得任意數量的簇

使用樹狀圖的一個優點是可以透過查看樹狀圖將物件聚類到任意數量的簇中。例如，需要找到兩個聚類，可以查看樹狀圖上最頂部的垂直線並決定聚類。例如在這個例子中，如果需要兩個簇，那麼第一個簇中有四家公司，第二個集群中有 16 個公司。如果我們需要三個簇就可以將第二個簇進一步拆分為 11 個和 5 個公司。如果需要的更多可以依序類推。

2、自下而上聚類

import numpy as np
 import scipy.cluster.hierarchy as sch
 import matplotlib.pyplot as plt
 
 # Convert correlation matrix to distance matrix
 dist_mat = 1 - df_combined.corr()
 
 # Perform bottom-up clustering
 clustering = sch.linkage(dist_mat, method='ward')
 
 # Plot dendrogram
 plt.figure(figsize=(10, 5))
 sch.dendrogram(clustering, labels=list(df_combined.columns), leaf_rotation=90)
 plt.title('Dendrogram of Company Correlations (Bottom-Up Clustering)')
 plt.xlabel('Companies')
 plt.ylabel('Distance')
 plt.show()

使用樹狀圖可視化聚類

#我們為由下而上的聚類別所獲得的樹狀圖類似於自上而下的聚類。最佳簇數仍然是兩個（基於顏色數和“拐點”方法）。但是如果我們需要更多的集群，就會觀察到一些細微的差異。這也很正常，因為使用的方法不一樣，導致結果會有一些細微的差異。

總結

樹狀圖是可視化複雜資料結構和識別具有相似特徵的資料子群組或簇的有用工具。在本文中，我們使用層次聚類方法來示範如何建立樹狀圖以及如何確定最佳聚類數。對於我們的資料樹狀圖有助於理解不同公司之間的關係，但它們也可以用於其他各種領域，以理解資料的層次結構。

以上是使用樹狀圖可視化聚類的詳細內容。更多資訊請關注PHP中文網其他相關文章！

scipy 递归数据结构对象算法数据分析

陳述：

本文轉載於：51cto.com。如有侵權，請聯絡admin@php.cn刪除

上一篇：怎麼用Python寫個有趣的記仇本下一篇：怎麼用Python寫個有趣的記仇本

看更多