Kmeans++算法

Kmeans++算法,主要可以解决初始中心的选择问题,不可解决k的个数问题。

Kmeans++主要思想是选择的初始聚类中心要尽量的远。

做法:

1.    在输入的数据点中随机选一个作为第一个聚类中心。

2.    对于所有数据点,计算它与已有的聚类中心的最小距离D(x)

3.    选择一个数据点作为新增的聚类中心,选择原则:D(x)较大的点被选为聚类中心的概率较大。

4.    重复2~3步骤直到选出k个聚类中心。

5.    运行Kmeans算法。

package com.lfy.main;

import java.util.ArrayList;
import java.util.List;
import java.util.Random; /**
* K均值聚类算法
*/
public class Kmeans {
private int numOfCluster;// 分成多少簇
private int timeOfIteration;// 迭代次数
private int dataSetLength;// 数据集元素个数,即数据集的长度
private ArrayList<float[]> dataSet;// 数据集
private ArrayList<float[]> center;// 质心
private ArrayList<ArrayList<float[]>> cluster; //簇
private ArrayList<Float> sumOfErrorSquare;// 误差平方和
private Random random; /**
* 设置需分组的原始数据集
*
* @param dataSet
*/ public void setDataSet(ArrayList<float[]> dataSet) {
this.dataSet = dataSet;
} /**
* 获取结果分组
*
* @return 结果集
*/ public ArrayList<ArrayList<float[]>> getCluster() {
return cluster;
} /**
* 构造函数,传入需要分成的簇数量
*
* @param numOfCluster
* 簇数量,若numOfCluster<=0时,设置为1,若numOfCluster大于数据源的长度时,置为数据源的长度
*/
public Kmeans(int numOfCluster) {
if (numOfCluster <= 0) {
numOfCluster = 1;
}
this.numOfCluster = numOfCluster;
} /**
* 初始化
*/
private void init() {
timeOfIteration = 0;
random = new Random();
//如果调用者未初始化数据集,则采用内部测试数据集
if (dataSet == null || dataSet.size() == 0) {
initDataSet();
}
dataSetLength = dataSet.size();
//若numOfCluster大于数据源的长度时,置为数据源的长度
if (numOfCluster > dataSetLength) {
numOfCluster = dataSetLength;
}
center = initCenters();
cluster = initCluster();
sumOfErrorSquare = new ArrayList<Float>();
//查看init质心的选取情况
printDataArray(center,"initCenter");
} /**
* 如果调用者未初始化数据集,则采用内部测试数据集
*/
private void initDataSet() {
dataSet = new ArrayList<float[]>();
// 其中{6,3}是一样的,所以长度为15的数据集分成14簇和15簇的误差都为0
float[][] dataSetArray = new float[][] { { 8, 2 }, { 3, 4 }, { 2, 5 },
{ 4, 2 }, { 7, 3 }, { 6, 2 }, { 4, 7 }, { 6, 3 }, { 5, 3 },
{ 6, 3 }, { 6, 9 }, { 1, 6 }, { 3, 9 }, { 4, 1 }, { 8, 6 } }; for (int i = 0; i < dataSetArray.length; i++) {
dataSet.add(dataSetArray[i]);
}
} /**
* 随机选取k个质点
* 初始化中心点,分成多少簇就有多少个中心点
*
* @return 中心点集
*/
private ArrayList<float[]> initCenters() {
ArrayList<float[]> center = new ArrayList<float[]>();
int[] randoms = new int[numOfCluster];
int temp = random.nextInt(dataSetLength);
randoms[0] = temp;
//----------------------
List<Integer> list=new ArrayList<Integer>();
list.add(temp);
//randoms数组中存放dataSet数据集的不同的下标
for (int i = 1; i < numOfCluster; i++) {
// while (true) {
// temp = random.nextInt(dataSetLength);
//
// int j=0;
// for(; j<i; j++){
// if(randoms[j] == temp){
// break;
// }
// }
// //没有与任何一个已经选定的质心重复
// //跳出外层循环,设定一个随机质心
// if (j == i) {
// break;
// }
// }
//----------------------
ArrayList<float[]> ltemp=new ArrayList<float[]>();
//从剩下的点中继续找质点
for (int k = 0; k < dataSetLength; k++) {
//如果该点还没有被选择为质点,则计算它与已有的所有质点的最小距离
if(!list.contains(k)) {
float[] distance = new float[numOfCluster];
for (int j = 0; j < list.size(); j++) {
//某点k到已有中心点的距离
distance[j] = distance(dataSet.get(k), dataSet.get(list.get(j)));
}
int j = minDistance(distance);
float[] f={0,0};
f[0]=k;
f[1]=distance[j];
ltemp.add(f);
}
}
int m=maxDistance(ltemp);
temp=(int) ltemp.get(m)[0];
list.add(temp);
//----------------------
randoms[i] = temp;
} for (int i = 0; i < numOfCluster; i++) {
center.add(dataSet.get(randoms[i]));// 生成初始化中心点集
}
return center;
} /**
* 初始化簇集合
*
* @return 一个分为k簇的空数据的簇集合
*/
private ArrayList<ArrayList<float[]>> initCluster() {
ArrayList<ArrayList<float[]>> cluster = new ArrayList<ArrayList<float[]>>();
for (int i = 0; i < numOfCluster; i++) {
cluster.add(new ArrayList<float[]>());
}
return cluster;
} /**
* 计算两个点之间的距离
*
* @param element
* 点1
* @param center
* 点2
* @return 距离
*/
private float distance(float[] element, float[] center) {
float distance = 0.0f;
float x = element[0] - center[0];
float y = element[1] - center[1];
float z = x * x + y * y;
distance = (float) Math.sqrt(z); return distance;
} /**
* 获取距离集合中最小距离的位置
*
* @param distance
* 距离数组
* @return 最小距离在距离数组中的位置
*/
private int minDistance(float[] distance) {
float minDistance = distance[0];
int minLocation = 0;
for (int i = 1; i < distance.length; i++) {
if (distance[i] <= minDistance) {
minDistance = distance[i];
minLocation = i;
}
}
return minLocation;
} /**
* 获取距离集合中最小距离的最大的位置
*
* @param distance
* 各点最小距离数组
* @return 各点最小距离在距离数组中的位置
*/
private int maxDistance(ArrayList<float[]> distance) {
float[] maxDistance = distance.get(0);
int maxLocation = 0;
for (int i = 1; i < distance.size(); i++) {
if (distance.get(i)[1] >= maxDistance[1]) {
maxDistance = distance.get(i);
maxLocation = i;
}
}
return maxLocation;
} /**
* 核心,将当前元素放到最小距离的簇中
*/
private void clusterSet() {
float[] distance = new float[numOfCluster];
for (int i = 0; i < dataSetLength; i++) {
for (int j = 0; j < numOfCluster; j++) {
//计算数据集点与所有中心点的距离
distance[j] = distance(dataSet.get(i), center.get(j));
}
int j = minDistance(distance);
// 核心,将当前元素放到最小距离中心相关的簇中
cluster.get(j).add(dataSet.get(i));
}
} /**
* 求族中各点到其中心点距离的平方,即误差平方
*
* @param element
* 点1
* @param center
* 点2
* @return 误差平方
*/
private float errorSquare(float[] element, float[] center) {
float x = element[0] - center[0];
float y = element[1] - center[1]; float errSquare = x * x + y * y; return errSquare;
} /**
* 计算一次迭代误差平方和
*/
private void countRule() {
float jcF = 0;
for (int i = 0; i < cluster.size(); i++) {
for (int j = 0; j < cluster.get(i).size(); j++) {
jcF += errorSquare(cluster.get(i).get(j), center.get(i));
}
}
sumOfErrorSquare.add(jcF);
} /**
* 设置新的簇中心方法
*/
private void setNewCenter() {
for (int i = 0; i < numOfCluster; i++) {
int n = cluster.get(i).size();
if (n != 0) {
float[] newCenter = { 0, 0 };
for (int j = 0; j < n; j++) {
newCenter[0] += cluster.get(i).get(j)[0];
newCenter[1] += cluster.get(i).get(j)[1];
}
// 设置一个平均值
newCenter[0] = newCenter[0] / n;
newCenter[1] = newCenter[1] / n;
center.set(i, newCenter);
}
}
printDataArray(center,"newCenter");
} /**
* 打印数据,测试用
*
* @param dataArray
* 数据集
* @param dataArrayName
* 数据集名称
*/
public void printDataArray(ArrayList<float[]> dataArray,
String dataArrayName) {
for (int i = 0; i < dataArray.size(); i++) {
System.out.println("print:" + dataArrayName + "[" + i + "]={"
+ dataArray.get(i)[0] + "," + dataArray.get(i)[1] + "}");
}
System.out.println("===================================");
} /**
* Kmeans算法核心过程方法
*/
private void kmeans() {
init(); // 循环分组,直到误差不变为止
while (true) {
clusterSet(); countRule(); // 误差不变了,分组完成
if (timeOfIteration != 0) {
if (sumOfErrorSquare.get(timeOfIteration) - sumOfErrorSquare.get(timeOfIteration - 1) == 0) {
break;
}
}
//设置各簇新的质心,继续迭代
setNewCenter();
timeOfIteration++;
cluster.clear();
cluster = initCluster();
}
System.out.println("note:the times of repeat:timeOfIteration="+timeOfIteration);//输出迭代次数
} /**
* 执行算法
*/
public void execute() {
long startTime = System.currentTimeMillis();
System.out.println("kmeans begins");
kmeans();
long endTime = System.currentTimeMillis();
System.out.println("kmeans running time=" + (endTime - startTime)
+ "ms");
System.out.println("kmeans ends");
System.out.println();
}
}
package com.lfy.main;

import java.util.ArrayList;

public class KmeansTest {
public static void main(String[] args)
{
//初始化一个Kmean对象,设置k值
Kmeans k=new Kmeans(3);
ArrayList<float[]> dataSet=new ArrayList<float[]>(); dataSet.add(new float[]{3,4});
dataSet.add(new float[]{4,4});
dataSet.add(new float[]{3,3});
dataSet.add(new float[]{4,3});
//
dataSet.add(new float[]{0,2});
dataSet.add(new float[]{1,2});
dataSet.add(new float[]{0,1});
dataSet.add(new float[]{1,1});
//
dataSet.add(new float[]{3,1});
dataSet.add(new float[]{3,0});
dataSet.add(new float[]{5,0});
dataSet.add(new float[]{4,0});
dataSet.add(new float[]{4,1}); //设置原始数据集
k.setDataSet(dataSet);
//执行算法
k.execute();
//得到聚类结果
ArrayList<ArrayList<float[]>> cluster=k.getCluster();
//查看结果
for(int i=0;i<cluster.size();i++)
{
k.printDataArray(cluster.get(i), "cluster["+i+"]");
} }
}

算法 - k-means++的更多相关文章

  1. 第4章 最基础的分类算法-k近邻算法

    思想极度简单 应用数学知识少 效果好(缺点?) 可以解释机器学习算法使用过程中的很多细节问题 更完整的刻画机器学习应用的流程 distances = [] for x_train in X_train ...

  2. KNN 与 K - Means 算法比较

    KNN K-Means 1.分类算法 聚类算法 2.监督学习 非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据 喂给它的数据集是无label的数据,是杂乱无章的,经过 ...

  3. ML: 聚类算法-K均值聚类

    基于划分方法聚类算法R包: K-均值聚类(K-means)                   stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...

  4. 聚类算法:K-means 算法(k均值算法)

    k-means算法:      第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...

  5. 聚类算法:K均值、凝聚层次聚类和DBSCAN

    聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...

  6. 分类算法——k最近邻算法(Python实现)(文末附工程源代码)

    kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...

  7. 【学习笔记】分类算法-k近邻算法

    k-近邻算法采用测量不同特征值之间的距离来进行分类. 优点:精度高.对异常值不敏感.无数据输入假定 缺点:计算复杂度高.空间复杂度高 使用数据范围:数值型和标称型 用例子来理解k-近邻算法 电影可以按 ...

  8. 常见聚类算法——K均值、凝聚层次聚类和DBSCAN比较

    聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...

  9. 分类算法----k近邻算法

    K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...

  10. 【机器学习】聚类算法——K均值算法(k-means)

    一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...

随机推荐

  1. Git 如何针对项目修改本地提交提交人的信息

    Git 如果不进行修改的话,在默认情况下将会使用全局的用户名称和电子邮件. 但是在 GitHub 中是通过用户邮件来进行提交人匹配的. 如何针对项目来修改提交的用户信息? 针对 TortoiseGit ...

  2. 深度学习笔记(十一)网络 Inception, Xception, MobileNet, ShuffeNet, ResNeXt, SqueezeNet, EfficientNet, MixConv

    1. Abstract 本文旨在简单介绍下各种轻量级网络,纳尼?!好吧,不限于轻量级 2. Introduction 2.1 Inception 在最初的版本 Inception/GoogleNet, ...

  3. IT公司技术博客地址

    IT公司技术博客 美团点评技术团队今日头条技术博客Tencent ISUX DesignTGideas-腾讯互动娱乐创意设计团队>AlloyTeam | 腾讯全端 AlloyTeam 团队 Bl ...

  4. weblogic漏洞总结 复现(未完)

    复现方式 Docker复现 WEBlogic爆出了很多漏洞 先了解一下现在主流的版本 Weblogic 10.3.6.0 Weblogic 12.1.3.0 Weblogic 12.2.1.1 Web ...

  5. webservice代码编写主要包括服务器端发布和客户端调用。

    一.java工程发布,java工程调用   (一).服务器端的编写 1.在eclipse里新建java project工程,创建功能类,通过关键字@webservice(name="newI ...

  6. python2topython3遇到的问题

  7. java中线程状态

    刚开始接触java时,就觉得多线程是一个障碍,不容易理解,当时选择了跳过,不过工作一段时间后,发现这块还是需要深入研究一下的,及时平时工作中不使用多线程,但一定会使用web容器,比如tomcat,也是 ...

  8. Linux命令之文件和目录操作命令(一)—— ls

    本文介绍了ls命令的最常用法. 1.用法: ls [选项][目录名或文件名] 2.选项: -l 使用长格式显示目录或文件的详细信息 -a 显示隐藏文件 -h 人性化显示文件或目录的大小 -d 显示目录 ...

  9. 按二次back键退出程序应用的实现

    package com.loaderman.twoexitdemo; import android.os.Bundle; import android.os.Handler; import andro ...

  10. ORA-00904: "B"."METHOD": 标识符无效,00904. 00000 - "%s: invalid identifier"

    1 SELECT COUNT(1) FROM (SELECT a.id AS "id", a.district AS "district", a.company ...