K均值算法实现

运行环境：Ubuntu+Code::Blocks（G++）

K-均值：在D（数据集）中随机地选择k个对象，每个对象代表一个簇的初始均值或中心。对剩下的每个对象，根据其与各个簇中心的欧式距离，将它分配到最相似的簇中。（不能保证k-均值方法收敛于全局最优解，并且它常常终止于一个局部最优解。可以不同的初始簇中心，多次运行k-均值算法。）

代码为3个簇，初始的簇中心为输入的前三个点。（代码是六七月份写的，直接放上来。）

 #include <iostream>

 #include <vector>

 #include <cmath>

 #include <fstream>

 #include <cstdlib>

 #define OP ','

 #define SET_SIZE 3 //簇的个数

 using namespace std;

 const double EXP = 1e-;//用于判断新的中心点与原中心点的距离，如果比exp要小则说明聚类结束

 //定义的点的坐标

 typedef struct point

 {

     double xAxle;

     double yAxle;

     point()

     {

         xAxle = ;

         yAxle = ;

     }

     point(double _x,double _y)

     {

         xAxle = _x;

         yAxle = _y;

     }

 }Point;

 //读取文件里面的内容，到numSave数组里面去

 void readFile(ifstream &inFile,const string &fileName,vector<Point> &numSave)

 {

     inFile.clear();

     inFile.open(fileName.c_str());

     if(!inFile)

     {

         cout << "无法打开输入文件！" << endl;

     }

     //一行一行的读取

     string temp;

     while(getline(inFile,temp))

     {

         //文件里面一行是一个坐标点

         double x = atof(temp.substr(,temp.find(OP)).c_str());

         double y = atof(temp.substr(temp.find(OP) + ,temp.size()-).c_str());

         numSave.push_back(Point(x,y));

     }

     inFile.close();

 }

 //计算距离值

 double calDistance(Point &a,Point &b)

 {

     return sqrt((a.xAxle - b.xAxle) * (a.xAxle - b.xAxle) + (a.yAxle - b.yAxle)*(a.yAxle - b.yAxle));

 }

 //计算一个簇里面的均值以获得中心点

 void calAverage(vector<Point> num,double &xValueAver,double &yValueAver)

 {

     int xValue = ,yValue = ;

     for(unsigned int i = ;i < num.size();i ++)

     {

         xValue += num[i].xAxle;

         yValue += num[i].yAxle;

     }

     //获得平均值

     xValueAver = (double)xValue/num.size();

     yValueAver = (double)yValue/num.size();

 }

 //根据簇中心得到集合，getSetValue存储每一个簇里面的元素

 void getSet(vector<Point> &numSave,vector<Point> &setCentre,vector<Point> (&getSetValue)[SET_SIZE])

 {

     for(unsigned int i = ;i < numSave.size();i ++)

     {

          //设置一个最大值，为了找到最小值

         double temp = 100000000.0;

         //记录最小的距离numSave[i]的值

         unsigned int k = ;

         for(unsigned int j = ;j < SET_SIZE;j ++)

         {

             //计算距离

             double dis = calDistance(numSave[i],setCentre[j]);

             if(temp > dis)

             {

                 temp = dis;

                 k = j;//保留最小距离的那个编号

             }

         }

         //将最小值放在相应编号的簇里面

         getSetValue[k].push_back(numSave[i]);

     }

 }

 void k_average(vector<Point> &numSave,ofstream &os)

 {

     vector<Point> setCentre;

     vector<Point> getSetValue[SET_SIZE];

     vector<Point> tempCentre;//用来保存之前的数据，方便对比

     //初始时将数据的前几个（定义的簇中心个数）作为中心点

     for(unsigned int i = ;i < SET_SIZE && i < numSave.size();i ++)

     {

         setCentre.push_back(numSave[i]);

     }

     while(true)

     {

         for(unsigned int i = ;i < SET_SIZE;i ++)

         {

             getSetValue[i].clear();

         }

         //根据簇中心找到与簇中心相关的点（距离近的点）

          getSet(numSave,setCentre,getSetValue);

          tempCentre = setCentre;

          bool flag = true;

          for(unsigned int i = ;i < SET_SIZE;i ++)

          {

              //输出簇中心点

              os << setCentre[i].xAxle << " and " << setCentre[i].yAxle << endl;

              /*

              for(unsigned int j = 0;j < getSetValue[i].size();j ++)

              {

                  os << getSetValue[i][j].xAxle << " " << getSetValue[i][j].yAxle << "----";

              }

              os << endl;

              */

              //根据新的集合获得新的簇中心

              calAverage(getSetValue[i],setCentre[i].xAxle,setCentre[i].yAxle);

          }

          //当其中有一项当前的簇中心相对于之前的移动了较大距离就继续寻找

          for(unsigned int i = ;i < SET_SIZE;i ++)

          {

              if(fabs(setCentre[i].xAxle - tempCentre[i].xAxle) > EXP || fabs(setCentre[i].yAxle - tempCentre[i].yAxle) > EXP )

              {

                  flag = false;

                  break;

              }

          }

           os << endl;

           //当每个簇中心不再变化时就不用找了

          if(flag)

          {

              break;

          }

     }

 }

 int main()

 {

     ifstream inFile;

     vector<Point> numSave;

     readFile(inFile,"input.txt",numSave);

     ofstream outFile;

     outFile.open("output.txt");

     if(!outFile)

     {

         cout << "不能打开文件。请检查文件！" << endl;

     }

     k_average(numSave,outFile);

     return ;

 }

代码如下：

K均值算法实现的更多相关文章

聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...
一句话总结K均值算法
一句话总结K均值算法核心:把样本分配到离它最近的类中心所属的类,类中心由属于这个类的所有样本确定. k均值算法是一种无监督的聚类算法.算法将每个样本分配到离它最近的那个类中心所代表的类,而类中心的确 ...
聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用
1.用python实现K均值算法 import numpy as np x = np.random.randint(1,100,20)#产生的20个一到一百的随机整数 y = np.zeros(20) ...
【机器学习】K均值算法（I）
K均值算法是一类非监督学习类,其可以通过观察样本的离散性来对样本进行分类. 例如,在对如下图所示的样本中进行聚类,则执行如下步骤 1:随机选取3个点作为聚类中心. 2:簇分配:遍历所有样本然后依据每个 ...
Bisecting KMeans (二分K均值)算法讲解及实现
算法原理由于传统的KMeans算法的聚类结果易受到初始聚类中心点选择的影响,因此在传统的KMeans算法的基础上进行算法改进,对初始中心点选取比较严格,各中心点的距离较远,这就避免了初始聚类中心会选 ...
KMeans (K均值)算法讲解及实现
算法原理 KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大.该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标 ...
聚类分析K均值算法讲解
聚类分析及K均值算法讲解吴裕雄当今信息大爆炸时代,公司企业.教育科学.医疗卫生.社会民生等领域每天都在产生大量的结构多样的数据.产生数据的方式更是多种多样,如各类的:摄像头.传感器.报表.海量网络 ...
K均值算法
为了便于可视化,样本数据为随机生成的二维样本点. from matplotlib import pyplot as plt import numpy as np import random def k ...
K均值算法-python实现
测试数据展示: #coding:utf-8__author__ = 'similarface''''实现K均值算法算法摘要:-----------------------------输入:所有数据点 ...
spark Bisecting k-means（二分K均值算法）
Bisecting k-means(二分K均值算法) 二分k均值(bisecting k-means)是一种层次聚类方法,算法的主要思想是:首先将所有点作为一个簇,然后将该簇一分为二.之后选择能最大程 ...

随机推荐

【转】SVN服务器客户端以及环境的搭建和使用
vss,cvs,svn三者都是版本控制工具 vss是锁定-编辑-解锁模式,svn虽然也支持锁定,但默认是修改-冲突-合并模式 vss的版本号对应的是单个文件,svn的版本号对应的是整个版本库 vss是 ...
我的Android最佳实践之—— Android启动画面的实现方法
本文实例讲述了Android启动画面的实现方法.分享给大家供大家参考.具体分析如下: 在应用程序中经常用到启动画面,会启动一个后台线程为主程序的运行准备资源.Android要实现启动画面可以这样做: ...
ActionScript 3.0 编程精髓示例源码下载
根据书籍介绍(http://product.china-pub.com/38852#qy)的指引,找到了下载地址:http://moock.org/eas3/examples/
Form_Form与OAF页面互相调用（案例）
2014-12-27 Created By BaoXinjian
hadoop对于压缩文件的支持及算法优缺点
hadoop对于压缩文件的支持及算法优缺点 hadoop对于压缩格式的是透明识别,我们的MapReduce任务的执行是透明的,hadoop能够自动为我们将压缩的文件解压,而不用我们去关心. 如果 ...
windows下Gulp入门详细教程 &&gulp安装失败的原因（红色）
以下教程亲自实践可行: 另外添加一个Gulp自动编译.压缩.更新.测试的教程链接:https://markpop.github.io/2014/09/17/Gulp%E5%85%A5%E9%97%A8 ...
CentOS安装apache2（转载）
From:http://www.onepx.com/centos-apache-246.html 之前服务器 Apache 版本一直是 2.2.x,鉴于 Centos 更新软件的惰性,我看直到 201 ...
项目中用到的logback列子
<?xml version="1.0" encoding="UTF-8"?> <configuration> <appender ...
centos5安装在大硬盘上面的问题
硬盘空间大小: 3TB 原始硬盘是GPT格式的,系统安装现象如下: 此时按 ctrl + alt + F2 ,进入命令行界面,输入如下: 发现用parted修改硬盘分区格式为msdos,报错!基本可 ...
给a标签herf属性赋值时，必须加http://
新建一个web工程,FirstWeb,在其中新建一个页面:test.jsp <%@ page language="java" contentType="text/h ...

K均值算法实现

K均值算法实现的更多相关文章

随机推荐

热门专题