在機器學習應用中,相似性測量是用來評估兩個樣本物件相似程度的指標。通常使用距離度量來表示,有效的距離度量可以提高機器學習模型的效能。
不過從數值關係上,相似性測量和距離測量剛好相反。
相似性測量通常以數值表示,數值越高表示資料樣本越相似。一般採用0到1之間的數字進行轉換,其中0表示相似度低,即資料物件不相似;而1表示相似度高,表示資料物件非常相似。
距離測量表示資料物件相似度與距離數值成反比。
歐氏距離(Euclidean Distance)
即歐幾裡得度量,它是兩點之間的最小距離,大多數機器學習演算法都使用此距離度量來衡量觀察結果的相似性。
曼哈頓距離(Manhattan Distance)
#曼哈頓距離是兩個地方在所有維度上的總差異。因為在城市中幾乎不可能沿著直線移動,建築物被分組為阻擋直線路徑的網格。 「曼哈頓距離」一詞經常用來指稱兩個城市街區之間的距離。
閔可夫斯基距離(Minkowski Distance)
是歐幾里德距離和曼哈頓距離的廣義形式,定義nD空間中兩個觀測值之間的距離。
漢明距離(Hamming Distance)
#漢明距離衡量兩個相同長度的字串的相似程度。漢明距離是相同長度的兩個字串之間對應字元不同的點數。
餘弦距離(Cosine Similarity)
#此指標廣泛用於文本探勘、自然語言處理和資訊檢索系統,用來衡量兩個給定文件之間的相似性。
切比雪夫距離(Chebyshev Distance)
#兩個nD觀測值或向量之間的切比雪夫距離等於資料樣本座標之間變化的最大絕對值。在二維世界中,資料點之間的切比雪夫距離可以確定為其二維座標的絕對差總和。
馬氏距離(Mahalanobis Distance)
#主要用於多元統計測試,測量資料點與分佈的距離。
卡方距離(Chi-square Distance)
#卡方距離通常用於電腦視覺,同時進行紋理分析以找到歸一化直方圖之間的相似性,稱為「直方圖匹配」。
皮爾森相關係數(Pearson Correlation)
#皮爾森相關係數量化了兩個屬性之間線性單調關係的強度,衡量兩個資料集合是否在一條線上。
斯皮爾曼相關係數(Spearman Correlation)
#斯皮爾曼相關係數衡量兩個變數的依賴性的非參數指標,它利用單調方程式評價兩個統計變數的相關性。斯皮爾曼相關係數常用於假設檢定。
以上是關於相似性測量和距離測量的關聯的詳細內容。更多資訊請關注PHP中文網其他相關文章!