首頁 >後端開發 >php教程 >PHP中的K-means演算法詳解

PHP中的K-means演算法詳解

王林
王林原創
2023-07-08 16:42:071501瀏覽

PHP中的K-means演算法詳解

K-means演算法是一種常用的聚類分析演算法,在資料探勘和機器學習領域有著廣泛的應用。本文將詳細介紹使用PHP實作K-means演算法的過程,並提供程式碼範例。

  1. 演算法原理

K-means演算法透過將資料集中的樣本點劃分為多個簇,使得簇內樣本點之間的距離盡量小,而簇間樣本點之間的距離盡量大。具體實作過程如下:

1.1 初始化

首先,需要確定簇的個數K。然後從資料集中隨機選擇K個樣本點作為初始的中心點。

1.2 分配

對於資料集中的每個樣本點,計算其與所有中心點之間的距離,將其分配到距離最近的簇中。

1.3 更新

對於每個簇,計算簇內樣本點的平均值,作為新的中心點。

1.4 重複迭代

重複執行分配和更新的過程,直到簇內樣本點不再發生變化,或達到預定的迭代次數。

  1. PHP程式碼範例

以下是使用PHP實作K-means演算法的程式碼範例:

<?php

function kMeans($data, $k, $iterations) {
  // 初始化簇中心点
  $centers = [];
  for ($i = 0; $i < $k; $i++) {
    $centers[] = $data[array_rand($data)];
  }

  // 迭代分配和更新过程
  for ($iteration = 0; $iteration < $iterations; $iteration++) {
    $clusters = array_fill(0, count($centers), []);

    foreach ($data as $point) {
      // 计算样本点与各个中心点的距离
      $distances = [];
      foreach ($centers as $center) {
        $distance = calculateDistance($point, $center);
        $distances[] = $distance;
      }

      // 将样本点分配到最近的簇
      $clusterIndex = array_search(min($distances), $distances);
      $clusters[$clusterIndex][] = $point;
    }

    // 更新中心点
    $newCenters = [];
    foreach ($clusters as $cluster) {
      $newCenter = calculateMean($cluster);
      $newCenters[] = $newCenter;
    }

    // 判断是否达到终止条件
    if ($centers == $newCenters) {
      break;
    }

    $centers = $newCenters;
  }

  return $clusters;
}

// 计算两个样本点之间的欧氏距离
function calculateDistance($point1, $point2) {
  $distance = 0;
  for ($i = 0; $i < count($point1); $i++) {
    $distance += pow($point1[$i] - $point2[$i], 2);
  }
  return sqrt($distance);
}

// 计算簇内样本点的均值
function calculateMean($cluster) {
  $mean = [];
  $dimension = count($cluster[0]);
  for ($i = 0; $i < $dimension; $i++) {
    $sum = 0;
    foreach ($cluster as $point) {
      $sum += $point[$i];
    }
    $mean[] = $sum / count($cluster);
  }
  return $mean;
}

// 测试代码
$data = [
  [2, 10],
  [2, 5],
  [8, 4],
  [5, 8],
  [7, 5],
  [6, 4],
  [1, 2],
  [4, 9],
];

$k = 2;
$iterations = 100;

$clusters = kMeans($data, $k, $iterations);

print_r($clusters);

?>

在上述程式碼中,我們首先定義了一個kMeans函數,用於執行K-means演算法。然後實現了calculateDistance函數,用於計算兩個樣本點之間的歐氏距離。最後實作了calculateMean函數,用於計算簇內樣本點的平均值。

  1. 結果展示

根據上述程式碼,我們將一個簡單的二維資料集進行聚類分析,並列印出結果。輸出結果將顯示簇的分配。

Array
(
    [0] => Array
        (
            [0] => Array
                (
                    [0] => 2
                    [1] => 10
                )

            [1] => Array
                (
                    [0] => 2
                    [1] => 5
                )

            [2] => Array
                (
                    [0] => 1
                    [1] => 2
                )

        )

    [1] => Array
        (
            [0] => Array
                (
                    [0] => 8
                    [1] => 4
                )

            [1] => Array
                (
                    [0] => 5
                    [1] => 8
                )

            [2] => Array
                (
                    [0] => 7
                    [1] => 5
                )

            [3] => Array
                (
                    [0] => 6
                    [1] => 4
                )

            [4] => Array
                (
                    [0] => 4
                    [1] => 9
                )

        )
)

以上結果表明,K-means演算法將樣本點分為兩個簇,第一個簇包含[2, 10]、[2, 5]和[1, 2]三個樣本點,第二個簇包含其他五個樣本點。

透過上述程式碼和範例數據,我們可以看到使用PHP實作K-means演算法的過程非常簡單,同時也能得到有效的聚類結果。

總結

K-means演算法是一種常用的聚類分析演算法,透過將資料集中的樣本點劃分為多個簇,實現簇內距離最小化、簇間距離最大化的目標。本文透過提供了使用PHP實現K-means演算法的詳細過程和程式碼範例,並透過一個簡單的二維資料集進行了演示。讀者可以根據實際需求,進行相關參數的調整,以應用在自己的資料分析任務中。

以上是PHP中的K-means演算法詳解的詳細內容。更多資訊請關注PHP中文網其他相關文章!

陳述:
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn