ML |聚类中的链接类型

原文:https://www.geesforgeks.org/ml-聚类中的链接类型/

先决条件: 层次聚类

分层聚类的过程包括以自下而上的方式将子聚类(第一次迭代中的数据点)聚类成较大的聚类，或者以自上而下的方式将较大的聚类分成较小的子聚类。在两种类型的分级聚类中，需要计算两个子聚类之间的距离。不同类型的联系描述了测量两个子数据点之间距离的不同方法。不同类型的联系如下

1.单键:对于两个聚类 R 和 S，单键返回两点 I 和 j 之间的最小距离，使得 I 属于 R，j 属于 S。

$L(R, S) = min(D(i, j)), i\epsilon R, j\epsilon S$

2.完全联动:对于两个聚类 R 和 S，完全联动返回两点 I 和 j 之间的最大距离，使得 I 属于 R，j 属于 S。

$L(R, S) = max(D(i, j)), i\epsilon R, j\epsilon S$

3.平均关联:对于两个聚类 R 和 S，首先计算 R 中任意数据点 I 和 S 中任意数据点 j 之间的距离，然后计算这些距离的算术平均值。平均链接返回算术平均值。

$L(R, S) = \frac{1}{n_{R}+n_{S}}\sum _{i=1}^{n_{R}}\sum _{j=1}^{n_{S}} D(i, j), i\epsilon R, j\epsilon S$

在哪里

$n_{R}$ –R 中的数据点数量

$n_{S}$ –以秒为单位的数据点数量