R语言中的聚类的使用

这里的聚类主要用到K-Means和K-Medoide聚类。在进行聚类之前，为了避免不同参数之间量纲不同所造成的影响，先将数据进行(0-1)标准化

# 如参数weight

data$weight <- (data$weight-min(data$weight))/(max(data$weight)-min(data$weight))

K-Means算法

1.读取数据

data <- read.csv("data/km/data.csv",header = T)

2.调用kmeans算法

# 设置聚类数

cluster_num <-

# 调用kmeans算法

km <- kmeans(data,cluster_num)

3.查看分类情况和总体汇总

# 查看具体分类情况

fitted(km)

# 查看分类概括

table(data$weight, km$cluster)

4.将结果保存

# 构建新数据框映射

df <- data.frame(km[[]],data$weight)

# 参数重新命名

names(df) <- (c("classification_number","weight"))

# 保存写入

write.csv(df,file="data/km.csv")

K-Medoide算法

这里用到K-Medoide中对大样本数据处理的算法------CLARA算法

1.下载cluster包

install.packages("cluster")

2.引入cluster包

# 引入cluster包

library(cluster)

3.读取数据

data <- read.csv("data/km/data.csv",header = T)

4.调用CLARA算法

# 设置聚类数

cluster_num <-

# 调用CLARA算法

cl <- clara(data,cluster_num)

5.将结果保存

# 构建新数据框映射

df <- data.frame(cl$clustering,data$weight)

#参数重新命名
names(df) <- (c("classification_number","weight")) 
# 写入 write.csv(df,file="data/clara.csv")

R语言中的聚类的使用的更多相关文章

R语言中基于聚类的离群点挖掘
思路:首先,通过K-means算法将数据点划分为成若K个簇:然后计算每一个数据对象到最近簇的中心距离,来与离群点设置的阈值进行比较,以此来判别该数据对象是否是离群点. 1.读取数据 data<- ...
R语言中样本平衡的几种方法
R语言中样本平衡的几种方法在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性.在不平衡的数据中,任一算法都没法从样本量少的类中获取 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
机器学习：R语言中如何使用最小二乘法
详细内容见上一篇文章:http://www.cnblogs.com/lc1217/p/6514734.html 这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下:(数据同 ...
R+openNLP︱openNLP的六大可实现功能及其在R语言中的应用
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- openNLP是NLP中比较好的开源工具,R语 ...
R语言中的横向数据合并merge及纵向数据合并rbind的使用
R语言中的横向数据合并merge及纵向数据合并rbind的使用我们经常会遇到两个数据框拥有相同的时间或观测值,但这些列却不尽相同.处理的办法就是使用merge(x, y ,by.x = ,by.y ...
R语言中数据结构
R语言还是有点古老感觉,数据结构没有Python中那么好用.以下简单总结一下R语言中经常使用的几个数据结构. 向量: R中的向量能够理解为一维的数组,每一个元素的mode必须同样,能够用c(x:y)进 ...
R语言中的数据处理包dplyr、tidyr笔记
R语言中的数据处理包dplyr.tidyr笔记 dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了 ...
R语言中的四类统计分布函数
R语言中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数).分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r).如: 1)正态分布的函数是norm,命令dnorm( ...

随机推荐

UISCREEN 和支持高分辨率的显示屏
UIScreen对象包含了整个屏幕的边界矩形.当构造应用的用户界面接口时,你应该使用该对象的属性来获得推荐的矩形大小,用以构造你的程序窗口. CGRect bound = [[UIScreen mai ...
思科ACL不连续通配符掩码的计算
access-list 120 permit ip 10.0.0.0 0.0.0.191 any 这条ACL看似简单,却又复杂,因为正常我们见到的通配符掩码都是诸如0.0.0.255(255. ...
iPhone4 降级6.12教程无须SHSH 不装插件不睡死[转载] by 轻鸢
无shsh降级电脑系统,细节操作等其它影响因素较多,不确保每个人都能成功,楼主发帖前刷机几十次均成功.步骤有些繁琐,按照步骤每一步都正确可保证最后不睡死注意一下,无SHSH降级都是不完美的,开机需要 ...
centos IPTables 配置方法
entos IPTables 配置方法 http://os.51cto.com/art/201103/249359_1.htm iptables 指南 1.1.19 http://www.frozen ...
NAT and Traversal NAT（TURN/STUN/ICE）
http://www.cnblogs.com/whyandinside/archive/2010/12/08/1900492.html -------------------------------- ...
KMP + 求相等前后缀--- POJ Seek the Name, Seek the Fame
Seek the Name, Seek the Fame Problem's Link: http://poj.org/problem?id=2752 Mean: 给你一个字符串,求这个字符串中有多少 ...
HttpWatch工具简介及使用技巧(转)
HttpWatch是一个可用于录制HTTP请求信息的工具,由Simtec Limited公司开发,其官网为:Http://www.httpwatch.com,HttpWatch只支持IE和Firefo ...
判断站点访问的终端类型（移动端还是pc端）的方法（转）
要了解某个网站是在移动设备上打开的还是在pc web浏览器中打开的,我们可以有以下综合的几种方式来搞定: 通过判断Request.UserAgent中的具体信息来分析判断,因为UserAgent包含了 ...
【UVa】Partitioning by Palindromes（dp）
http://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=27&page=sh ...
转载:Struts2支持断点续传下载实现
转自:http://blog.sina.com.cn/s/blog_667ac0360102eckm.html package com.ipan.core.controller.web.result; ...

R语言中的聚类的使用

R语言中的聚类的使用的更多相关文章

随机推荐

热门专题