今天,我想和大家分享一下机器学习中常见的无监督学习聚类方法
在无监督学习中,我们的数据并不带有任何标签,因此在无监督学习中要做的就是将这一系列无标签的数据输入到算法中,然后让算法找到一些隐含在数据中的结构,通过下图中的数据,可以找到的一个结构就是数据集中的点可以分成两组分开的点集(簇),能够圈出这些簇(cluster)的算法,就叫做聚类算法(clustering algorithm)。
聚类分析的目标是将观测值划分为组(“簇”),以便分配到同一簇的观测值之间的成对差异往往小于不同簇中的观测值之间的差异。聚类算法分为三种不同的类型:组合算法、混合建模和模式搜索。
K-means 算法是目前最流行的聚类方法之一。
K-means 是由贝尔实验室的 Stuart Lloyd 在 1957 年提出来的,最开始是用于脉冲编码调制,直到 1982 年才将该算法对外公布。1965 年,Edward W.Forgy 发布了相同的算法,因此 K-Means 有时被称为 Lloyd-Forgy。
聚类问题通常需要处理一组未经标记的数据集,并且需要一个算法来自动将这些数据分成有紧密关系的子集或簇。目前,最流行和广泛应用的聚类算法是K均值算法
假如有一个无标签的数据集(上图左),并且我们想要将其分为两个簇,现在执行 K 均值算法,具体操作如下:
内循环的第一步是要进行簇分配,也就是说,遍历每一个样本,再根据每一个点到聚类中心距离的远近将其分配给不同的聚类中心(离谁近分配给谁),对于本例而言,就是遍历数据集,将每个点染成红色或蓝色。
内循环的第二步是将聚类中心移动,使得红色和蓝色的聚类中心分别移动到它们所属点的平均位置
将所有的点根据与新的聚类中心距离的远近进行新的簇分配,并且不断循环此过程,直到聚类中心的位置不再随着迭代而改变,同时点的颜色也不再发生改变。这时可以说K均值已经完成了聚合。这个算法在找出数据中的两个簇方面表现相当出色
简单易懂,计算速度较快,适用于大规模数据集。
层次聚类是按照某个层次对样本集进行聚类的操作。这里的层次指的实际上是某种距离的定义
聚类的最终目的是减少分类的数量,因此在行为上类似于从叶子节点向根节点逐步靠近的树状图过程,这种行为也被称为“自下而上”
更通俗的,层次聚类是将初始化的多个类簇看做树节点,每一步迭代,都是将两两相近的类簇合并成一个新的大类簇,如此反复,直至最终只剩一个类簇(根节点)。
层次聚类策略分为两种基本范式:聚集型(自下而上)和分裂型(自上而下)。
与层次聚类相反的是分裂聚类,也称为DIANA(Divise Analysis),其行为过程为“自上而下”
K-means算法的结果取决于选择搜索的聚类数量和起始配置的分配。而相反,层次聚类方法则不需要这样的规范。相反,它们要求用户根据两组观察值之间的成对差异性来指定(不相交)观察组之间的差异性度量。顾名思义,层次聚类方法产生一个层次结构表示,其中每个层次的集群都是通过合并下一个较低级别的集群而创建的。在最低级别,每个集群包含一个观察值。在最高级别,只有一个集群包含所有的数据
重写后的内容为:凝聚层次聚类(Agglomerative Clustering)是一种自底向上的聚类算法,它将每个数据点看作一个初始簇,并逐步合并它们以形成更大的簇,直到满足停止条件。在该算法中,每个数据点最初被视为一个单独的簇,然后逐步合并簇,直到所有数据点合并为一个大簇
修改后的内容:亲和传播算法(AP)通常被翻译为亲和力传播算法或者邻近传播算法
Affinity Propagation 是一种基于图论的聚类算法,旨在识别数据中的"exemplars"(代表点)和"clusters"(簇)。与 K-Means 等传统聚类算法不同,Affinity Propagation 不需要事先指定聚类数目,也不需要随机初始化簇心,而是通过计算数据点之间的相似性得出最终的聚类结果。
平移聚类是一种基于密度的非参数聚类算法,其基本思想是通过寻找数据点密度最大的位置(称为“局部最大值”或“高峰”),来识别数据中的群集。该算法的核心在于对每个数据点进行局部密度估计,并将密度估计结果用于计算数据点移动的方向和距离
Bisecting K-Means 是一种基于 K-Means 算法的层次聚类算法,其基本思想是将所有数据点划分为一个簇,然后将该簇分成两个子簇,并对每个子簇分别应用 K-Means 算法,重复执行这个过程,直到达到预定的聚类数目为止。
算法首先将所有数据点视为一个初始簇,然后对该簇应用K-Means算法,将该簇分成两个子簇,并计算每个子簇的误差平方和(SSE)。然后,选择误差平方和最大的子簇,并将其再次分成两个子簇,重复执行这个过程,直到达到预定的聚类数目为止。
基于密度的空间聚类算法DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种典型的具有噪声的聚类方法
密度的方法具有不依赖于距离的特点,而是依赖于密度。因此,它能够克服基于距离的算法只能发现“球形”聚簇的缺点
DBSCAN算法的核心思想是:对于一个给定的数据点,如果它的密度达到一定的阈值,则它属于一个簇中;否则,它被视为噪声点。
OPTICS(Ordering Points To Identify the Clustering Structure)是一种基于密度的聚类算法,它能够自动确定簇的数量,同时也能够发现任意形状的簇,并且能够处理噪声数据
OPTICS 算法的核心思想是根据给定数据点计算其与其他点之间的距离,以确定其在密度上的可达性,并构建一个基于密度的距离图。然后,通过扫描该距离图,自动确定簇的数量,并对每个簇进行划分
BIRCH(平衡迭代降低和层次聚类)是一种基于层次聚类的聚类算法,它能够高效地处理大规模数据集,并且对于任何形状的簇都能够取得良好的效果
BIRCH算法的核心思想是:透過對數據集進行分層聚類,逐步減小數據規模,最終得到簇結構。BIRCH算法採用一種類似於B樹的結構,稱為CF樹,它可以快速地插入和刪除子簇,並且可以自動平衡,從而確保簇的質量和效率
以上是九种聚类算法,探索无监督机器学习的详细内容。更多信息请关注PHP中文网其他相关文章!