Calinski-Harabasz准则有时称为方差比准则 (VRC),它可以用来确定聚类的最佳K值.Calinski Harabasz 指数定义为: 其中,K是聚类数,N是样本数,SSB是组与组之间的平方和误差,SSw是组内平方和误差.因此,如果SSw越小.SSB越大,那么聚类效果就会越好,即Calinsky criterion值越大,聚类效果越好. 1.下载permute.lattice.vegan包 install.packages(c("permute","lattic…
这几个都是R语言中的特殊值,都是R的保留字, NA:Not available  表示缺失值   用 is.na() 来判断是否为缺失值 NULL:表示空值,即没有内容  用 is.null() 来判断是否为空值 NaN:Not a Number,表示非数值   用 is.nan() 来判断是否为非数值 Inf:Infinite 表示无穷大  用 is.finite()   is.infinite() 来判断是否为无穷大数…
R语言中样本平衡的几种方法 在对不平衡的分类数据集进行建模时,机器学习算法可能并不稳定,其预测结果甚至可能是有偏的,而预测精度此时也变得带有误导性.在不平衡的数据中,任一算法都没法从样本量少的类中获取足够的信息来进行精确预测.因此,机器学习算法常常被要求应用在平衡数据集上.不平衡分类是一种有监督学习,但它处理的对象中有一个类所占的比例远远大于其余类.比起多分类,这一问题在二分类中更为常见.不平衡一词指代数据中响应变量(被解释变量)的分布不均衡,如果一个数据集的响应变量在不同类上的分布差别较大我们…
R语言,一种自由软件编程语言与操作环境,主要用于统计分析.绘图.数据挖掘.R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发.R是基于S语言的一个GNU计划项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行.R的语法是来自Scheme. R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux).…
说明 在前一篇中,我们介绍了 R 语言和 R Studio 的安装,并简单的介绍了一个示例,接下来让我们由浅入深的学习 R 语言的相关知识. 本篇将主要介绍 R 语言的基本操作.变量和几种基本数据类型,好对 R 语言的使用方法有一个基本的概念.通过本篇的学习,你将了解到: R 语言有哪些基本操作 什么是变量,以及如何给变量赋值 R 语言有哪些基本数据类型,如何确定变量的数据类型 R 语言的基本操作 R 语言的默认提示符是 > ,它表示正在等待输入命令,每次输入命令后敲击回车即可执行当前命令. R…
详细内容见上一篇文章:http://www.cnblogs.com/lc1217/p/6514734.html 这里只是介绍下R语言中如何使用最小二乘法解决一次函数的线性回归问题. 代码如下:(数据同上一篇博客)(是不是很简单????) > x<-c(6.19,2.51,7.29,7.01,5.7,2.66,3.98,2.5,9.1,4.2) > y<-c(5.25,2.83,6.41,6.71,5.1,4.23,5.05,1.98,10.5,6.3) > lsfit(x,y…
R语言中的数据处理包dplyr.tidyr笔记   dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口:tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用. 本文将介绍dplyr包的下述五个函数用法: 筛选: filter() 排列: arrange() 选择: select() 变形: mutate() 汇总: summ…
R语言中提供了四类有关统计分布的函数(密度函数,累计分布函数,分位函数,随机数函数).分别在代表该分布的R函数前加上相应前缀获得(d,p,q,r).如: 1)正态分布的函数是norm,命令dnorm(0)就可以获得正态分布的密度函数在0处的值(0.3989)(默认为标准正态分布). 2)同理,pnorm(0)是0.5就是正态分布的累计密度函数在0处的值. 3)而qnorm(0.5)则得到的是0,即标准正态分布在0.5处的分位数是0(在来个比较常用的:qnorm(0.975)就是那个估计中经常用到…
R语言中的字符处理 (2011-07-10 22:29:48) 转载▼ 标签: r语言 字符处理 字符串 连接 分割 分类: R R的字符串处理能力还是很强大的,具体有base包的几个函数和stringr包. 1.计算字符串的字符数 nchar()  2. 字符串连接 paste(..., sep = " ", collapse = NULL),其中collpase参数可将多个字符串连接成一个. ===================================== > pa…
基本数据类型 6种 numaric  如 12, 12.4 integer  如 2L,0L complex  包含实数和虚数 如 3+2i character  要用双引号或者单引号包括起来 如 "a","good" logical  如 TRUE,FALSE raw  是计算机能够直接识别的类型,是二进制的形式保存的数据 NULL  表示空值 NA  表示缺失值 高级数据类型 主要有6种 vector   向量 matrix   矩阵 array    数组 d…