数据挖掘算法之k-means算法

系列文章：数据挖掘算法之决策树算法

k-means算法可以说是数据挖掘中十大经典算法之一了，属于无监督的学习。该算法由此衍生出了很多类k-means算法，比如k中心点等等，在数据挖掘领域，很多地方都会用到该算法，他能够把相似的一类很好的聚在一起。一类指的是，他们之间的相似度较高，计算相似度的常用度量有欧氏距离、余弦定理等。本算法采用的是欧式距离度量。这个对理解k-means算法不会造成任何实质性的影响。

为了更好的说明k-means算法是把属于一类的对象聚成一个簇的，下面贴两张图，一张是100个数据对象是，K=2的情况【图1】。

另外一张是1000个数据对象，k=3的情况，希望大家看完图能够加深对K-means算法的理解。

[图1 objectNum=100 k=2]

[图2 objectNum=1000 k=3]

k-means算法的中心思想其实就是迭代，通过不断的迭代，使聚类效果达到局部最优，为什么我们说局部最优呢？因为K-means算法的效果的优劣性和最初选取的中心点是有莫大关系的，我们只能在初始中心点的基础上达到局部最优解。

k-means算法的过程如下：

1）从N个文档随机选取K个文档作为质心（即中心点）

2）对剩余的每个文档测量其到每个质心的距离，并把它归到最近的质心的类

3）重新计算已经得到的各个类的质心

4）迭代2～3步直至新的质心与原质心相等或小于指定阈值(我们这里实际上用迭代次数代替了阈值的功能)，算法结束

输入：一个数据集dataset,类个数k

输出：k个小的数据集，也就是K个类。

该算法会有一些缺点主要是：

1、计算量大，不断的迭代，不断的计算，计算量大事在所难免了。

2、K值的指定也是一个难点，很多时候我们并不知道k是多少？

3、只能得到局部最优解，这一点我们在前面已经讨论过了。

算法能够一行行读txt数据，当然其他格式数据也是可以的，稍微改动下即可。相当方便实用。本着开源的方式，附上90%代码：void produceData(string fileName,int maxNum,int objectNum);方法代码没有附上，该方法用来产生随机数据。如果需要全部源代码请点赞后留下email地址，我将会在第一时间发到你邮箱，不便之处敬请原谅，毕竟写一篇文章也不是那么容易，我只是想看看到底能帮助到多少人，谢谢理解！

#include<iostream>

#include<fstream>

#include<vector>

#include<random>

#include<time.h>

#include<string.h>

using namespace std;

const int maxNum=0x1<<;

const int repeatMax=;//控制迭代的上限，这里主要从效率的角度来考虑。一般来说迭代50--100次就能达到很好的效果

const int AttributeCount=;//数据属性维度.

const int ClusterK=;//聚成的簇的数量

typedef  double AttributeType;

struct Object{//数据项的数据结构

    AttributeType attribute[AttributeCount];

};

vector<Object> allObj;//保存所有的数据

Object cluster[][ClusterK];//各个簇的数据项，这里假定每个簇的最大量为1000了，可以写成vector的数据结构，

Object oldcenter[ClusterK];//旧的各个中心点

int oldCluObjNum[ClusterK];//旧的各个簇有多少数据量

Object center[ClusterK];//对比旧的中心点

int CluObjNum[ClusterK];//对比旧的各簇的数据量

void getAllobject(ifstream &ifs);//加载所有数据

void kmeans(ifstream &ins);//算法

void produceData(string fileName,int maxNum,int objectNum);//随机产生数据，fileName文件名，maxNum数据的最大数，objectNum数据个数

int cloestCluster(Object obj);//返回当前数据项与哪个簇最近

void initCenter();//初始化各中心点

void updateCluster(int cluK,Object obj);//更新簇结构

bool isChange();//判断迭代之后中心点是否改变，若没有改变可以迭代结束了，得到局部最优解

void copyCenter();//复制到旧的中

void computeCenter();//重新计算中心点

AttributeType Distance(Object obj,Object obj2);//计算两个点之间的距离

int main(){

    //produceData("data2.txt",100,50);

    ifstream ifs;

    ifs.open("data2.txt");

    kmeans(ifs);

    ifs.close();

    system("pause");

}

void kmeans(ifstream &ins){

    getAllobject(ins);

    initCenter();

    for(int i=;i<ClusterK;i++){

        center[i]=allObj[i];

        CluObjNum[i]=;

    }

    int repeat=;

    while(isChange()&&repeat<repeatMax){//一直迭代，直到中心点不再改变，或者达到迭代的上限

        copyCenter();

        for(vector<Object>::iterator begin=allObj.begin();begin<allObj.end();begin++){

            int closestK=cloestCluster(*begin);

            updateCluster(closestK,*begin);

        }

        computeCenter();

        for(int i=;i<ClusterK;i++){

            cout<<"第"<<i<<"个簇,他们之间的中心点是:";

            char file[]={'c','l','u','s','t','e','r',static_cast<char>(i+''),'.','t','x','t','\0'};

            ofstream out;

            out.open(file,ifstream::trunc);//输入到各个簇的文件中保存

            for(int l=;l<AttributeCount;l++){

                cout<<center[i].attribute[l]<<" ";

            }

            cout<<endl;

            for(int m=;m<=CluObjNum[i];m++){

                for(int j=;j<AttributeCount;j++)

                    out<<cluster[m][i].attribute[j]<<" ";

                out<<endl;

            }

            cout<<endl;

            out.close();

        }

        cout<<endl;

        repeat++;

    }

}

void updateCluster(int cluK,Object obj){//把obj更新到cluK簇中，同时项增加1

    cluster[CluObjNum[cluK]+][cluK]=obj;

    CluObjNum[cluK]++;

}

void computeCenter(){

    for(int i=;i<ClusterK;i++){

        for(int m=;m<AttributeCount;m++){

            double sum=;

            for(int j=;j<CluObjNum[i];j++){

                sum+=cluster[j][i].attribute[m];

            }

            center[i].attribute[m]=sum/CluObjNum[i];

        }

    }

}

void copyCenter(){

    for(int i=;i<ClusterK;i++){

        oldCluObjNum[i]=CluObjNum[i];

        CluObjNum[i]=;

        for(int j=;j<AttributeCount;j++){

            oldcenter[i].attribute[j]=center[i].attribute[j];

        }

    }

}

void initCenter(){

    Object obj;

    for(int i=;i<AttributeCount;i++){

        obj.attribute[i]=-;

    }

    for(int i=;i<ClusterK;i++){

            oldcenter[i]=obj;

    }

}

int cloestCluster(Object obj){

    AttributeType sq=maxNum,m=maxNum;

    int theCloest=;

    for(int i=;i<ClusterK;i++){

        m=Distance(obj,center[i]);

        if(m<sq){

            theCloest=i;

            sq=m;

        }

    }

    return theCloest;

}

AttributeType Distance(Object obj,Object obj2){

    AttributeType dis=;

    for(int i=;i<AttributeCount;i++){

        dis+=(obj.attribute[i]-obj2.attribute[i])*(obj.attribute[i]-obj2.attribute[i]);

    }

    return dis;

}

bool isChange(){

    for(int i=;i<ClusterK;i++){

        for(int j=;j<AttributeCount;j++)

            if(oldcenter[i].attribute[j]!=center[i].attribute[j])

                return true;

    }

    return false;

}

void getAllobject(ifstream &ifs){

    while(ifs){

        Object obj;

        for(int i=;i<AttributeCount;i++)

            ifs>>obj.attribute[i];

        allObj.push_back(obj);

    }

}

以下提供我的一个数据集运行的最终结果：

数据挖掘算法之k-means算法的更多相关文章

机器学习算法之Kmeans算法（K均值算法）
Kmeans算法(K均值算法) KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑 ...
图说十大数据挖掘算法(一)K最近邻算法
如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果很多同学不假思索,直接回答:“菠萝”!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图 ...
机器学习（Machine Learning）算法总结-K临近算法
一.算法详解 1.什么是K临近算法 Cover 和 Hart在1968年提出了最初的临近算法属于分类(classification)算法邻近算法,或者说K最近邻(kNN,k-NearestNeig ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
【算法】K最近邻算法（K-NEAREST NEIGHBOURS，KNN）
K最近邻算法(k-nearest neighbours,KNN) 算法对一个元素进行分类查看它k个最近的邻居在这些邻居中,哪个种类多,这个元素有更大概率是这个种类使用使用KNN来做两项基本工 ...
机器学习算法之K近邻算法
0x00 概述 K近邻算法是机器学习中非常重要的分类算法.可利用K近邻基于不同的特征提取方式来检测异常操作,比如使用K近邻检测Rootkit,使用K近邻检测webshell等. 0x01 原理 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
Python实现机器学习算法：K近邻算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000(实际使用:200) ''' import numpy as np import time def loadData(file ...
数据挖掘十大算法--K-均值聚类算法
一.相异度计算在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...

随机推荐

孤荷凌寒自学python第三十三天python的文件操作初识
孤荷凌寒自学python第三十三天python的文件操作初识 (完整学习过程屏幕记录视频地址在文末,手写笔记在文末) 今天开始自学python的普通文件操作部分的内容. 一.python的文件打开 ...
create vm
#!/bin/sh echo $# [ $# < ] && { echo "error" exit } instance_name=$ instance_ip ...
heat模板
Heat 目前支持两种格式的模板,一种是基于 JSON 格式的 CFN 模板:另外一种是基于 YAML 格式的 HOT 模板.CFN 模板主要是为了保持对 AWS 的兼容性.HOT 模板是 Heat ...
2013 ACM/ICPC Asia Regional Changsha Online – C题 Color Representation Conversion （坑爹模拟题）
题意:给你三种颜色表示模式,RGB,HSV和HSL,实现任意模式之间两两转化. 1.最好别看题目中给的转化公式描述,我觉得叙述的一点也不清楚,看维基百科,把维基百科上的公式一句一句翻译过来就好 2.在 ...
docker 生成新的镜像
下载了ubuntu的初始化镜像,但是没有网络安装包,安装了字后,如果生成新的镜像 sudo docker commit -m "add ifconfig/ping package" ...
【bzoj3668】[Noi2014]起床困难综合症贪心
原文地址:http://www.cnblogs.com/GXZlegend/p/6797090.html 题目描述 21 世纪,许多人得了一种奇怪的病:起床困难综合症,其临床表现为:起床难,起床后精神 ...
【Luogu】P2489迷宫探险（概率DP）
题目链接设f[i][j][k][l]是当前在(i,j),对陷阱的了解状态为k(0表示了解该陷阱为无危险,1表示了解该陷阱有危险,2不了解),l表示当前血,走出迷宫的概率 dfsDP即可. 注意随时更 ...
Codeforces Round #386 (Div. 2) 746F(set的运用)
题目大意给出一个歌单(有n首歌),每个歌都有愉悦值和时间,你可以选择从第x首歌开始听(也就是选择连续的一段),并且你可以选择w首歌让它的时间减半,限制时间为k,求最大的愉悦值首先我们需要贪心一下, ...
一步步制作RPM包
一步步制作RPM包来源 http://blog.51cto.com/laoguang/1103628 一.RPM制作步骤我们在企业中有的软件基本都是编译的,我们每次安装都得编译,那怎么办呢?那就根 ...
关于PDA、GPS等动态资源的几种GIS解决方案
关于PDA.GPS等动态资源的几种GIS解决方案(原创) 今年来GIS发展迅速,特别是实时监控中引入了GPS,PDA等动态资源,使得GIS在各个行业的应用更为广泛. 1.在这些动态资源资源的监控中主要 ...

数据挖掘算法之k-means算法

数据挖掘算法之k-means算法的更多相关文章

随机推荐

热门专题