在octave语言中K-means聚类算法求聚类中心的向量化计算

　　使用octave编程的时候，一定要注意使用向量化编程的思想，下面我就说说我今天做题遇到的一个Ｋ-means聚类问题，如何使用octave中的函数向量计算聚类中心centroids。

octave几个函数：

　　bsxfun:

　　　　二元操作函数，调用方式： bsxfun (F, A, B)，A为向量、二维矩阵或多维矩阵，B也为向量、二维矩阵或多维矩阵，Ｆ为二元操作函数。如果 A 和 B 维度数不一样，或者对应维度长度不一样，此函数会首先尝试把 A 和 B 都broadcast 到相同维度，且对应维度长度相同的两个向量。然后，再把Ａ和Ｂ中一一的两个元素使用二元函数Ｆ做计算，返回的结果是与broadcast之后的Ａ和Ｂ相同维度、对应维度相同长度的一个向量。

　　　　例如：

　　　　　　A = [1, 2, 3]; #这里A 可以看做是行向量

　　　　　　B = [1, 2, 3]; #这里B 可以看做是行向量

　　　　　　C = bsxfun(@plus, A, B);

　　　　　　则 C = [2, 4, 6]

　　　　因为它天生支持broadcast，所以如果必须要broadcast，系统不会产生　“warning: operator +: automatic broadcasting operation applied”

　　　　警告。

　　　　例如：

　　　　　　Ａ2 = A'; # 这里表示撇号的作用就是求转置。即Ｃ是Ａ向量的转置，即C是列向量。

　　　　　　Ｄ = bsxfun(@plus, A2, B);

　　　　　　则　Ｄ = [ 2, 3, 4,

　　　　　　　　　　 3, 4, 5,

　　　　　　　　　　 4, 5, 6]

　　　　　　解释：

　　　　　　　　发现A2是３×１，Ｂ是１×３，于是将A2 broadcast 到３×３，其他两列拷贝第一列的值；Ｂ也broadcast到３×３，

　　　　　　其他两行拷贝第一行的值；接着，将A2与Ｂ对应位置的元素，进行plus操作，这里是求和操作，于是得到结果Ｄ。

　　accumarray:

　　　　分组计算函数，调用方式： accumarray (SUBS, VALS, SZ, FUNC, FILLVAL, ISSPARSE)，SUBS为一个数组，

　　其元素内容为新的数组下标值，VALS为一个数组，其元素为要进行操作的数值，缺省的动作是 sum 求和操作。

　　　　例如：

　　　　　　A = [1, 2, 3, 4]' #注意Ａ为列向量

　　　　　　B = [1, 2, 1, 2]' #注意Ｂ为列向量

　　　　　　C = accumarray(B, A)

　　　　　　　　则 C = [4, 6]' #注意Ｃ为列向量。

　　　　　　　　解释：

　　　　　　　　　　Ｂ的值对应分配到新的数组的对应下标，由于B(1) = B(3) = 2，于是A(1)，A(3) 的值分到C(1)，且缺省FUNC是求和操作，

　　　　　　　　于是C(1)=A(1)+A(3) = 4，同理C(2) = A(2) + A(4) = 6

　　　　accumarray函数调用，返回的结果是一维向量，如果想返回矩阵呢，那就必须用到下面的accumdim函数。

　　accumdim:

　　　　分组计算函数，调用方式：accumdim (SUBS, VALS, DIM, N, FUNC, FILLVAL)

　　　　例如：

　　　　　　A = [1, 1, 1; 2, 2, 2; 3, 3, 3; 4, 4, 4] #Ａ为４×３矩阵

　　　　　　B = [1, 2, 1, 2]'　＃Ｂ为列向量

　　　　　　C = accumdim(B, A)

　　　　　　　　则 C = [ 4, 4, 4; 6, 6, 6] #２×3矩阵。

　　　　　　　　解释，简单的说，就是将Ａ矩阵中的行向量，按Ｂ下标分组，每组中的向量对应列求和，得到新的一个向量。

　　　　假设，Ｘ为样本点矩阵，ｍ×ｎ，表示ｍ个样本点，ｎ个特征；idx为一维列向量，其值为ｍ个样本点对应的聚类下标，取值（1..K)，即Ｋ个聚类。

　centroids即为Ｋ个聚类中心，为K×n矩阵，每一行表示一个中心，第k行表示第ｋ个聚类的中心。现在要求新的聚类中心。

代码如下：

position = unique(idx)

cmeans = accumdim(idx, X, 1, 0, @mean)

centroids(position, :) = cmeans