kmean算法C++实现

kmean均值算法是一种最常见的聚类算法。算法实现简单，效果也比较好。kmean算法把n个对象划分成指定的k个簇，每个簇中所有对象的均值的平均值为该簇的聚点（中心）。

k均值算法有如下五个步骤：

随机生成最初始k个簇心。可以从样本中随机选择，也可以根据样本中每个特征的取值特点随机生成。
对每个样本计算到每个簇心的欧式距离，将样本划分到欧氏距离最小的簇心（聚点）。
对划分到同一个簇心（聚点）的样本计算平均值，用均值更新簇心（聚点）
若某些簇心（聚点）发生变化，转到2；若所有的聚点都没有变化，转5
输出划分结果

 #include <vector>

 #include <cassert>

 #include <iostream>

 #include <cmath>

 #include <fstream>

 #include <climits>

 #include <ctime>

 #include <iomanip>

 using namespace std;

 namespace terse {

 class Kmeans {

 private:

     vector<vector<double>> m_dataSet;

     int m_k;

     vector<int> m_clusterResult;         // result of cluster

     vector<vector<double>> m_cluserCent; //center of k clusters

 private:

     vector<string> split(const string& s, string pattern) {

         vector<string> res;

         size_t start = ;

         size_t end = ;

         while (start < s.size()) {

             end = s.find_first_of(pattern, start);

             if (end == string::npos) {

                 res.push_back(s.substr(start, end - start - ));

                 return res;

             }

             res.push_back(s.substr(start, end - start));

             start = end + ;

         }

         return res;

     }

     void loadDataSet(const char* fileName) {

         ifstream dataFile(fileName);

         if (!dataFile.is_open()) {

             cerr << "open file " << fileName << "failed!\n";

             return;

         }

         string tmpstr;

         vector<double> data;

         while (!dataFile.eof()) {

             data.clear();

             tmpstr.clear();

             getline(dataFile, tmpstr);

             vector<string> tmp = split(tmpstr, ",");

             for (string str : tmp) {

                 data.push_back(stod(str));

             }

             this->m_dataSet.push_back(data);

         }

         dataFile.close();

     }

     //compute Euclidean distance of two vector

     double distEclud(vector<double>& v1, vector<double>& v2) {

         assert(v1.size() == v2.size());

         double dist = ;

         for (size_t i = ; i < v1.size(); i++) {

             dist += (v1[i] - v2[i]) * (v1[i] - v2[i]);

         }

         return sqrt(dist);

     }

     void generateRandCent() {

         int numOfFeats = this->m_dataSet[].size();

         size_t numOfSamples = this->m_dataSet.size();

         //first:min second：max

         vector<pair<double, double>> minMaxOfFeat(numOfFeats);

         for (int i = ; i < numOfFeats; i++) {

             minMaxOfFeat[i].first = this->m_dataSet[][i];

             minMaxOfFeat[i].second = this->m_dataSet[][i];

         }

         for (size_t i = ; i < numOfSamples; i++) {

             for (int j = ; j < numOfFeats; j++) {

                 if (this->m_dataSet[i][j] > minMaxOfFeat[j].second) {

                     minMaxOfFeat[j].second = this->m_dataSet[i][j];

                 }

                 if (this->m_dataSet[i][j] < minMaxOfFeat[j].first) {

                     minMaxOfFeat[j].first = this->m_dataSet[i][j];

                 }

             }

         }

         srand(time(NULL));

         for (int i = ; i < this->m_k; i++) {

             for (int j = ; j < numOfFeats; j++) {

                 this->m_cluserCent[i][j] = minMaxOfFeat[j].first

                         + (minMaxOfFeat[j].second - minMaxOfFeat[j].first)

                                 * (rand() / (double) RAND_MAX);

             }

         }

     }

     void printClusterCent(int iter) {

         int m = this->m_cluserCent.size();

         int n = this->m_cluserCent[].size();

         cout << "iter =  " << iter;

         for (int i = ; i < m; i++) {

             cout << " {";

             for (int j = ; j < n; j++) {

                 cout << this->m_cluserCent[i][j] << ",";

             }

             cout << "};";

         }

         cout << endl;

     }

     void writeResult(const char* fileName = "res.txt") {

         ofstream fout(fileName);

         if (!fout.is_open()) {

             cerr << "open file " << fileName << "failed!";

             return;

         }

         for (size_t i = ; i < this->m_dataSet.size(); i++) {

             for (size_t j = ; j < this->m_dataSet[].size(); j++) {

                 fout << this->m_dataSet[i][j] << "\t";

             }

             fout << setprecision() << this->m_clusterResult[i] << "\n";

         }

         fout.close();

     }

 public:

     Kmeans(int k, const char* fileName) {

         this->m_k = k;

         this->loadDataSet(fileName);

         this->m_clusterResult.reserve(this->m_dataSet.size());

         this->m_cluserCent = vector<vector<double>>(k,

                 vector<double>(this->m_dataSet[].size()));

         generateRandCent();

     }

     Kmeans(int k, vector<vector<double>>& data) {

         this->m_k = k;

         this->m_dataSet = data;

         this->m_clusterResult.reserve(this->m_dataSet.size());

         this->m_cluserCent = vector<vector<double>>(k,

                 vector<double>(this->m_dataSet[].size()));

         generateRandCent();

     }

     //verbose = 1,printClusterCent();

     void kmeansCluster(int verbose = ) {

         int iter = ;

         bool isClusterChanged = true;

         while (isClusterChanged) {

             isClusterChanged = false;

             //step 1: find the nearest centroid of each point

             int numOfFeats = this->m_dataSet[].size();

             size_t numOfSamples = this->m_dataSet.size();

             for (size_t i = ; i < numOfSamples; i++) {

                 int minIndex = -;

                 double minDist = INT_MAX;

                 for (int j = ; j < this->m_k; j++) {

                     double dist = distEclud(this->m_cluserCent[j],

                             m_dataSet[i]);

                     if (dist < minDist) {

                         minDist = dist;

                         minIndex = j;

                     }

                 }

                 if (m_clusterResult[i] != minIndex) {

                     isClusterChanged = true;

                     m_clusterResult[i] = minIndex;

                 }

             }

             //step 2: update cluster center

             vector<size_t> cnt(this->m_k, );

             this->m_cluserCent = vector<vector<double>>(this->m_k,

                     vector<double>(numOfFeats, 0.0));

             for (size_t i = ; i < numOfSamples; i++) {

                 for (int j = ; j < numOfFeats; j++) {

                     this->m_cluserCent[this->m_clusterResult[i]][j] +=

                             this->m_dataSet[i][j];

                 }

                 cnt[this->m_clusterResult[i]]++;

             }

             // mean of the vector belong to a cluster

             for (int i = ; i < this->m_k; i++) {

                 for (int j = ; j < numOfFeats; j++) {

                     this->m_cluserCent[i][j] /= cnt[i];

                 }

             }

             if (verbose)

                 printClusterCent(iter++);

         }

         writeResult();

     }

 };

 };

 int main(){

     terse::Kmeans kmeans(,"datafile.txt");

     kmeans.kmeansCluster();

     return ;

 }

 /*namespace terse*/

kmean算法C++实现的更多相关文章

<转>与EM相关的两个算法-K-mean算法以及混合高斯模型
转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html http://www.cnblogs.com/jerrylead/ ...
EM相关两个算法 k-mean算法和混合高斯模型
转自http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006924.html http://www.cnblogs.com/jerrylead/ ...
机器学习课程-第8周-聚类(Clustering)—K-Mean算法
1. 聚类(Clustering) 1.1 无监督学习: 简介在一个典型的监督学习中,我们有一个有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,在这里的监督学习中,我们有一系列标签 ...
K-Means聚类算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...
学习OpenCV——Kmean（C++）
从前也练习使用过OpenCV的Kmean算法,但是那版本低,而且也是基于C的开发.这两天由于造论文的需要把它重新翻出来在研究一下C++,发现有了些改进 kmeans C++: doublekmeans ...
运用三角不等式加速Kmeans聚类算法
运用三角不等式加速Kmeans聚类算法引言:最近在刷<数据挖掘导论>,第九章, 9.5.1小节有提到,可以用三角不等式,减少不必要的距离计算,从而达到加速聚类算法的目的.这在超大数据量的 ...
MLlib--PIC算法
转载请标明出处http://www.cnblogs.com/haozhengfei/p/82c3ef86303321055eb10f7e100eb84b.html PIC算法幂迭代聚类 ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
K-SVD算法
它与K-mean算法原理上是类似的: K-mean 算法: (之前写过:http://www.cnblogs.com/yinheyi/p/6132362.html) 对于初始化的类别中心,可以看作初化 ...

随机推荐

centos7 磁盘管理—— lvm的使用
Linux用户安装Linux操作系统时遇到的一个常见的难以决定的问题就是如何正确地评估各分区大小,以分配合适的硬盘空间.普通的磁盘分区管理方式在逻辑分区划分好之后就无法改变其大小,当一个逻辑分区存放不 ...
spring案列——xml配置
一.需要的jar包 spring.jar(官网下载) commons-logging.jar 二.项目结构三.entity(实体类) package com.team.model; public c ...
Delphi for iOS开发指南(5):在iOS应用程序中使用Calendar组件来选择日期
http://blog.csdn.net/delphiteacher/article/details/8923519 在FireMonkey iOS应用程序中的Calendar FireMonkey使 ...
Ubuntu14.04下Pycharm3.4 字体渲染
在ubuntu下搭建了django的开发环境,搭建过程十分简单,Pycharm的安装更简单,下载tar包解压并执行bin目录下的脚本即可,但是看着那个字体真心不爽.于是开始搜索调教. 1.安装打了渲染 ...
SSH 安全建议
当你查看你的 SSH 服务日志,可能你会发现充斥着一些不怀好意的尝试性登录.这里有 5 条常规建议(和一些个别特殊策略)可以让你的 OpenSSH 会话更加安全. 强化密码登录密码登录很方便,因为你 ...
SQL查询和替换含有回车，空格，TAB，等
---如下是查询语句 --查询名称有退格键 ),item_name) go --查询名称有制表符tab ),item_name) go --查询名称有换行 ),item_name) go --查询名称 ...
C# AutoMapper 了解一下
什么是AutoMapper? 简单来说就是将一个对象映射到另一个对象的代码. 摆脱了繁琐的赋值过程 (最常见也就是Model -——ViewModel) AutoMapper安装我使用的是VS201 ...
BZOJ 1008--[HNOI2008]越狱（容斥&快速幂）
1008: [HNOI2008]越狱 Time Limit: 1 Sec Memory Limit: 162 MBSubmit: 12593 Solved: 5439[Submit][Status ...
前端ajax传数据成功发送，但后端接收不到
前几天遇到这样的问题,找了好久,是在ajax contentType属性设置的问题. contentType默认是application/x-www-form-urlencoded 但是 ...
在Load average 高的情况下如何鉴别系统瓶颈
在Load average 高的情况下如何鉴别系统瓶颈.是CPU不足,还是io不够快造成? 或是内存不足? 一:查看系统负载vmstat procs -----------memory-------- ...

kmean算法C++实现

kmean算法C++实现的更多相关文章

随机推荐

热门专题