数据挖掘算法之k-means算法
系列文章:数据挖掘算法之决策树算法
k-means算法可以说是数据挖掘中十大经典算法之一了,属于无监督的学习。该算法由此衍生出了很多类k-means算法,比如k中心点等等,在数据挖掘领域,很多地方都会用到该算法,他能够把相似的一类很好的聚在一起。一类指的是,他们之间的相似度较高,计算相似度的常用度量有欧氏距离、余弦定理等。本算法采用的是欧式距离度量。这个对理解k-means算法不会造成任何实质性的影响。
为了更好的说明k-means算法是把属于一类的对象聚成一个簇的,下面贴两张图,一张是100个数据对象是,K=2的情况【图1】。
另外一张是1000个数据对象,k=3的情况,希望大家看完图能够加深对K-means算法的理解。

[图1 objectNum=100 k=2]

[图2 objectNum=1000 k=3]
k-means算法的中心思想其实就是迭代,通过不断的迭代,使聚类效果达到局部最优,为什么我们说局部最优呢?因为K-means算法的效果的优劣性和最初选取的中心点是有莫大关系的,我们只能在初始中心点的基础上达到局部最优解。
k-means算法的过程如下:
#include<iostream>
#include<fstream>
#include<vector>
#include<random>
#include<time.h>
#include<string.h>
using namespace std;
const int maxNum=0x1<<;
const int repeatMax=;//控制迭代的上限,这里主要从效率的角度来考虑。一般来说迭代50--100次就能达到很好的效果
const int AttributeCount=;//数据属性维度.
const int ClusterK=;//聚成的簇的数量
typedef double AttributeType;
struct Object{//数据项的数据结构
AttributeType attribute[AttributeCount];
};
vector<Object> allObj;//保存所有的数据
Object cluster[][ClusterK];//各个簇的数据项,这里假定每个簇的最大量为1000了,可以写成vector的数据结构,
Object oldcenter[ClusterK];//旧的各个中心点
int oldCluObjNum[ClusterK];//旧的各个簇有多少数据量
Object center[ClusterK];//对比旧的中心点
int CluObjNum[ClusterK];//对比旧的各簇的数据量
void getAllobject(ifstream &ifs);//加载所有数据
void kmeans(ifstream &ins);//算法
void produceData(string fileName,int maxNum,int objectNum);//随机产生数据,fileName文件名,maxNum数据的最大数,objectNum数据个数
int cloestCluster(Object obj);//返回当前数据项与哪个簇最近
void initCenter();//初始化各中心点
void updateCluster(int cluK,Object obj);//更新簇结构
bool isChange();//判断迭代之后中心点是否改变,若没有改变可以迭代结束了,得到局部最优解
void copyCenter();//复制到旧的中
void computeCenter();//重新计算中心点
AttributeType Distance(Object obj,Object obj2);//计算两个点之间的距离
int main(){
//produceData("data2.txt",100,50);
ifstream ifs;
ifs.open("data2.txt");
kmeans(ifs);
ifs.close();
system("pause");
} void kmeans(ifstream &ins){
getAllobject(ins);
initCenter();
for(int i=;i<ClusterK;i++){
center[i]=allObj[i];
CluObjNum[i]=;
}
int repeat=;
while(isChange()&&repeat<repeatMax){//一直迭代,直到中心点不再改变,或者达到迭代的上限
copyCenter();
for(vector<Object>::iterator begin=allObj.begin();begin<allObj.end();begin++){
int closestK=cloestCluster(*begin);
updateCluster(closestK,*begin);
}
computeCenter();
for(int i=;i<ClusterK;i++){
cout<<"第"<<i<<"个簇,他们之间的中心点是:";
char file[]={'c','l','u','s','t','e','r',static_cast<char>(i+''),'.','t','x','t','\0'};
ofstream out;
out.open(file,ifstream::trunc);//输入到各个簇的文件中保存
for(int l=;l<AttributeCount;l++){
cout<<center[i].attribute[l]<<" ";
}
cout<<endl;
for(int m=;m<=CluObjNum[i];m++){
for(int j=;j<AttributeCount;j++)
out<<cluster[m][i].attribute[j]<<" ";
out<<endl;
}
cout<<endl;
out.close();
}
cout<<endl;
repeat++;
}
}
void updateCluster(int cluK,Object obj){//把obj更新到cluK簇中,同时项增加1
cluster[CluObjNum[cluK]+][cluK]=obj;
CluObjNum[cluK]++;
}
void computeCenter(){
for(int i=;i<ClusterK;i++){
for(int m=;m<AttributeCount;m++){
double sum=;
for(int j=;j<CluObjNum[i];j++){
sum+=cluster[j][i].attribute[m];
}
center[i].attribute[m]=sum/CluObjNum[i];
}
}
}
void copyCenter(){
for(int i=;i<ClusterK;i++){
oldCluObjNum[i]=CluObjNum[i];
CluObjNum[i]=;
for(int j=;j<AttributeCount;j++){
oldcenter[i].attribute[j]=center[i].attribute[j];
}
}
}
void initCenter(){
Object obj;
for(int i=;i<AttributeCount;i++){
obj.attribute[i]=-;
}
for(int i=;i<ClusterK;i++){
oldcenter[i]=obj;
}
}
int cloestCluster(Object obj){
AttributeType sq=maxNum,m=maxNum;
int theCloest=;
for(int i=;i<ClusterK;i++){
m=Distance(obj,center[i]);
if(m<sq){
theCloest=i;
sq=m;
}
}
return theCloest;
}
AttributeType Distance(Object obj,Object obj2){
AttributeType dis=;
for(int i=;i<AttributeCount;i++){
dis+=(obj.attribute[i]-obj2.attribute[i])*(obj.attribute[i]-obj2.attribute[i]);
}
return dis;
} bool isChange(){
for(int i=;i<ClusterK;i++){
for(int j=;j<AttributeCount;j++)
if(oldcenter[i].attribute[j]!=center[i].attribute[j])
return true;
}
return false;
}
void getAllobject(ifstream &ifs){
while(ifs){
Object obj;
for(int i=;i<AttributeCount;i++)
ifs>>obj.attribute[i];
allObj.push_back(obj);
}
}
以下提供我的一个数据集运行的最终结果:

版权所有,欢迎转载,但是转载请注明出处:潇一
数据挖掘算法之k-means算法的更多相关文章
- 机器学习算法之Kmeans算法(K均值算法)
Kmeans算法(K均值算法) KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑 ...
- 图说十大数据挖掘算法(一)K最近邻算法
如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果 很多同学不假思索,直接回答:“菠萝”!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图 ...
- 机器学习(Machine Learning)算法总结-K临近算法
一.算法详解 1.什么是K临近算法 Cover 和 Hart在1968年提出了最初的临近算法 属于分类(classification)算法 邻近算法,或者说K最近邻(kNN,k-NearestNeig ...
- 机器学习——KNN算法(k近邻算法)
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
- 【算法】K最近邻算法(K-NEAREST NEIGHBOURS,KNN)
K最近邻算法(k-nearest neighbours,KNN) 算法 对一个元素进行分类 查看它k个最近的邻居 在这些邻居中,哪个种类多,这个元素有更大概率是这个种类 使用 使用KNN来做两项基本工 ...
- 机器学习算法之K近邻算法
0x00 概述 K近邻算法是机器学习中非常重要的分类算法.可利用K近邻基于不同的特征提取方式来检测异常操作,比如使用K近邻检测Rootkit,使用K近邻检测webshell等. 0x01 原理 ...
- KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法 聚类算法 2.监督学习 非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据 喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
- Python实现机器学习算法:K近邻算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000(实际使用:200) ''' import numpy as np import time def loadData(file ...
- 数据挖掘十大算法--K-均值聚类算法
一.相异度计算 在正式讨论聚类前,我们要先弄清楚一个问题:怎样定量计算两个可比較元素间的相异度.用通俗的话说.相异度就是两个东西区别有多大.比如人类与章鱼的相异度明显大于人类与黑猩猩的相异度,这是能 ...
- 基于改进人工蜂群算法的K均值聚类算法(附MATLAB版源代码)
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
随机推荐
- python基础实践(四)
# -*- coding:utf-8 -*-# Author:sweeping-monkwhy = "为什么要组织列表?"print(why)Chicken_soup = &quo ...
- Lua2
1. 迭代器与Closure 在Lua中,迭代器通常为函数,每调用一次函数,即返回集合中的“下一个”元素.每个迭代器都需要在每次成功调用之间保持一些状态,这样才能知道它所在的位置和下一次遍历时的位置. ...
- lo口环路问题分析
流程如下,collecter抓取网卡lo和wlan0数据,其中lo口无数据,wlan0是笔记本上网网口,然后按自定义协议把数据包通过lo口发给后端dispatch进行分发! 这种模式下,抓包程序每经过 ...
- 在 MongoDB 上模拟事务操作来实现支付
我们的产品叫「学海密探」,属于在线教育行业,产品需要有支付功能,然而支付最蛋疼是什么?有人会说是支付宝和微信等支付接口的接入开发!没错,但支付接口的开发算是比较简单的了,我觉得凡是跟钱有关系的操作最重 ...
- Linux网卡驱动程序对ethtool的支持和实现
Linux 的一个显著特点就是其强大的网络功能,Linux 几乎支持所有的网络协议,并在这些协议基础上提供了丰富的应用.对 Linux 网络管理的重要性不言而喻,这些管理依赖于网络工具,比如最常用的 ...
- 历届试题 带分数 全排列模板 JAVA
标题:带分数 100 可以表示为带分数的形式:100 = 3 + 69258 / 714 还可以表示为:100 = 82 + 3546 / 197 注意特征:带分数中,数字1~9分别出现且只出现一次( ...
- java实现远程开机
import java.io.IOException; import java.net.*;public class 远程开机 { public static void main(String[] a ...
- 【bzoj2212】[Poi2011]Tree Rotations 权值线段树合并
原文地址:http://www.cnblogs.com/GXZlegend/p/6826614.html 题目描述 Byteasar the gardener is growing a rare tr ...
- BZOJ4552 [Tjoi2016&Heoi2016]排序 【二分 + 线段树】
题目链接 BZOJ4552 题解 之前去雅礼培训做过一道题,\(O(nlogn)\)维护区间排序并能在线查询 可惜我至今不能get 但这道题有着\(O(nlog^2n)\)的离线算法 我们看到询问只有 ...
- JAVA项目-嗖嗖移动
/** * 移动卡类 */ public class MobileCard { private String cardNumber; //卡号 private String userName; //用 ...