K-Means 算法(Java)

kMeans算法原理见我的上一篇文章。这里介绍K-Means的Java实现方法，参考了Python的实现方法。

一、数据点的实现

package com.meachine.learning.kmeans;

import java.util.ArrayList;

/**

 * 数据点,有n维数据

 *

 */

public class Point {

    private static int num;

    private int id;

    private int dimensioNum; // 维度

    private ArrayList<Double> values;

    private int clusterId = -1;

    private double minDist = Integer.MAX_VALUE;

    public Point() {

	id = ++num;

	values = new ArrayList<>();

    }

    public void add(double e) {

	values.add(e);

	dimensioNum++;

    }

    //------set与get省略----------

}

二、数据簇的实现

package com.meachine.learning.kmeans;

import lombok.EqualsAndHashCode;

import lombok.Getter;

import lombok.Setter;

import lombok.ToString;

/**

 * 簇<br>

 * 数据集合的基本信息

 *

 */

public class Cluster {

    // 簇id

    private int clusterId;

    // 属于该簇的点的个数

    private int numOfPoints;

    // 簇中心点的信息

    private Point center;

    public Cluster(int id) {

	this.clusterId = id;

	numOfPoints = 0;

    }

    public Cluster(int id, Point center) {

	this.clusterId = id;

	this.center = center;

    }

  //----------set与get省略----------------

}

三、计算数据点距离

package com.meachine.learning.kmeans;

import java.util.List;

/**

 * 计算距离接口

 *

 */

public interface IDistance<T> {

    public double getDis(List<T> p1, List<T> p2);

}

package com.meachine.learning.kmeans;

import java.util.List;

/**

 * 欧式距离

 *

 */

public class OujilidDistance<T extends Number> implements IDistance<T> {

    public double getDis(List<T> a, List<T> b) {

	if (a.size() != b.size()) {

	    throw new IllegalArgumentException("Size not compatible!");

	}

	double result = 0;

	for (int i = 0; i < a.size(); i++) {

	    result += Math.pow((a.get(i).doubleValue() - b.get(i).doubleValue()), 2);

	}

	return Math.sqrt(result);

    }

}

四、K-Means算法

package com.meachine.learning.kmeans;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileReader;

import java.io.IOException;

import java.util.ArrayList;

import java.util.List;

import java.util.Random;

/**

 * K-Means算法

 *

 * @author Cang

 *

 */

public class KMeans {

    // 簇的个数

    private int k;

    // 维度,即多少个变量

    private int dimensioNum;

    // 最大迭代次数

    private int maxItrNum = 100;

    private IDistance<Double> distance;

    private List<Point> points;

    private List<Cluster> clusters = new ArrayList<Cluster>();

    private String dataFileName = "D:/testSet.txt";

    public KMeans(int k) {

	this.k = k;

    }

    /**

     * 初始化数据

     */

    public void init() {

	points = loadDataSet(dataFileName);

	distance = new OujilidDistance<Double>();

	initCluster();

    }

    /**

     * 加载数据集

     *

     * @param fileName

     * @return

     */

    private List<Point> loadDataSet(String fileName) {

	List<Point> points = new ArrayList<>();

	File file = new File(fileName);

	BufferedReader reader = null;

	try {

	    reader = new BufferedReader(new FileReader(file));

	    String tempString = null;

	    int i = 0;

	    while ((tempString = reader.readLine()) != null) {

		Point point = new Point();

		dimensioNum = tempString.split("\t").length;

		for (String data : tempString.split("\t")) {

		    point.add(Double.parseDouble(data));

		}

		points.add(point);

	    }

	    reader.close();

	} catch (IOException e) {

	    e.printStackTrace();

	}

	return points;

    }

    /**

     * 初始化簇中心

     *

     * @return

     */

    private void initCluster() {

	Random ran = new Random();

	int id = 0;

	while (id < k) {

	    Cluster c = new Cluster(++id);

	    int temp = ran.nextInt(points.size());

	    c.setCenter(points.get(temp));

	    clusters.add(c);

	}

    }

    /**

     * kMeans 具体算法

     */

    public void clustering() {

	boolean finished = false;

	int count = 0;

	while (!finished) {

	    // 寻找最近的中心

	    finished = true;

	    for (Point point : points) {

		for (Cluster cluster : clusters) {

		    double minLen = distance.getDis(cluster.getCenter().getValues(),

			    point.getValues());

		    // 更新最小距离

		    if (minLen < point.getMinDist()) {

			if (cluster.getClusterId() != point.getClusterId()) {

			    finished = false;

			    point.setClusterId(cluster.getClusterId());

			}

			point.setMinDist(minLen);

		    }

		}

	    }

	    System.out.println("Cluster center info:");

	    for (Cluster string : clusters) {

		System.out.println(string.getCenter().getValues());

	    }

	    // 更改中心的位置

	    changeCentroids();

	    // 超过循环次数，则跳出循环

	    if (++count > maxItrNum) {

		finished = true;

	    }

	}

    }

    /**

     * 改变簇中心

     */

    private void changeCentroids() {

	for (Cluster cluster : clusters) {

	    ArrayList<Double> newCenterValue = new ArrayList<Double>();

	    Point newCenterPoint = new Point();

	    double result = 0;

	    for (int i = 0; i < dimensioNum; i++) {

		for (Point point : points) {

		    if (point.getClusterId() == cluster.getClusterId()) {

			result += point.getValues().get(i);

		    }

		}

		newCenterValue.add(result / points.size());

	    }

	    newCenterPoint.setClusterId(cluster.getClusterId());

	    newCenterPoint.setValues(newCenterValue);

	    cluster.setCenter(newCenterPoint);

	}

    }

    public static void main(String[] args) {

	KMeans kmeans = new KMeans(4);

	kmeans.init();

	kmeans.clustering();

    }

}

K-Means 算法(Java)的更多相关文章

k近邻算法-java实现
最近在看<机器学习实战>这本书,因为自己本身很想深入的了解机器学习算法,加之想学python,就在朋友的推荐之下选择了这本书进行学习. 一 . K-近邻算法(KNN)概述最简单最初级的分 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
K－means算法
K-means算法很简单,它属于无监督学习算法中的聚类算法中的一种方法吧,利用欧式距离进行聚合啦. 解决的问题如图所示哈:有一堆没有标签的训练样本,并且它们可以潜在地分为K类,我们怎么把它们划分呢? ...
k近邻算法的Java实现
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...
KNN算法java实现代码注释
K近邻算法思想非常简单,总结起来就是根据某种距离度量检测未知数据与已知数据的距离,统计其中距离最近的k个已知数据的类别,以多数投票的形式确定未知数据的类别. 一直想自己实现knn的java实现,但限于 ...
Floyd算法java实现demo
Floyd算法java实现,如下: https://www.cnblogs.com/Halburt/p/10756572.html package a; /** * ┏┓ ┏┓+ + * ┏┛┻━━━ ...
k-means算法Java一维实现
这里的程序稍微有点变形.k_means方法返回K-means聚类的若干中心点.代码: import java.util.ArrayList; import java.util.Collections; ...
感知机学习算法Java实现
感知机学习算法Java实现. Perceptron类用于实现感知机, 其中的perceptronOriginal()方法用于实现感知机学习算法的原始形式: perceptronAnother()方法用 ...
一致哈希算法Java实现
一致哈希算法(Consistent Hashing Algorithms)是一个分布式系统中经常使用的算法. 传统的Hash算法当槽位(Slot)增减时,面临全部数据又一次部署的问题.而一致哈希算法确 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...

随机推荐

python的类继承与派生
一.继承和派生简介: 其实是一个一个事物站在不同角度去看,说白了就是基于一个或几个类定义一个新的类.比如定义了动物类接着派生出了人类,你也可以说人类继承了动物类.一个意思.此外python类似于C和C ...
dubbo有什么作用
转自:http://blog.csdn.net/ichsonx/article/details/39008519 1. Dubbo是什么? Dubbo是一个分布式服务框架,致力于提供高性能和透明化的R ...
having使用的时机
where 子句的作用是在对查询结果进行分组前,将不符合where条件的行去掉,即在分组之前过滤数据,条件中不能包含聚组函数,使用where条件显示特定的行. having 子句的作用是筛选满足条件的 ...
徐州网络赛B-BE，GE or NE【记忆化搜索】【博弈论】
In a world where ordinary people cannot reach, a boy named "Koutarou" and a girl named &qu ...
pandas的Categorical方法
对于数据样本的标签,如果我们事先不知道这个样本有多少类别,那么可以对数据集的类别列进行统计,这时我们用pandas的Categorical方法就非常快的实现. 1.说明: 你的数据最好是一个serie ...
spring boot实战(第一篇)第一个案例
版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] spring boot实战(第一篇)第一个案例前言写在前面的话一直想将spring boot相关内容写成一个系列的 ...
talib 中文文档（三）：talib 方法大全
Function API Examples Similar to TA-Lib, the function interface provides a lightweight wrapper of th ...
【react 条件渲染】在render的html中使用三元运算符进行条件渲染
return ( {renderedPages.map(page => ( <Button key={page} onClick={() => onPageChange(page)} ...
Spongebob and Squares---cf599D（数学公式1 + (1+2) + (1+2+3) +....）
题目链接:http://codeforces.com/contest/599/problem/D 一个3×5(m×n)的长方形,里面包含15个边长为1的正方形,有8个边长为2的正方形,有3个边长为3的 ...
Python开发【Django】：时间处理
时间格式化做博客后台时,需要经常对数据库里面的时间格式(2017-02-17 02:10:44.308638)进行处理,格式化成自己想要的时间(列如年月日),下面就来记录下如何对时间进行处理 1.时 ...

K-Means 算法(Java)

一、数据点的实现

二、数据簇的实现

三、计算数据点距离

四、K-Means算法

K-Means 算法(Java)的更多相关文章

随机推荐

热门专题