数据分析与挖掘 - R语言：KNN算法

一个简单的例子！
环境：CentOS6.5
Hadoop集群、Hive、R、RHive，具体安装及调试方法见博客内文档。

KNN算法步骤：
需对所有样本点（已知分类+未知分类）进行归一化处理。然后，对未知分类的数据集中的每个样本点依次执行以下操作：
1、计算已知类别数据集中的点与当前点（未知分类）的距离。
2、按照距离递增排序
3、选取与当前距离最小的k个点
4、确定前k个点所在类别的出现频率
5、返回前k个点出现频率最高的类别作为当前点的预测类别

编写R脚本：

#!/usr/bin/Rscript

#1、对iris进行归一化处理

iris_s <- data.frame(scale(iris[, 1:4]))

iris_s <- cbind(iris_s, iris[, 5])

names(iris_s)[5] = "Species"

#2、对iris数据集随机选择其中的100条记录作为已知分类的样本集

sample.list <- sample(1:150, size = 100)

iris.known <- iris_s[sample.list, ]

#3、剩余50条记录作为未知分类的样本集（测试集）

iris.unknown <- iris_s[-sample.list, ]

#4、对测试集中的每一个样本，计算其与已知样本的距离，因为已经归一化，此处直接使用欧氏距离

length.known <- nrow(iris.known)

length.unknown <- nrow(iris.unknown)

#5、计算

for (i in 1:length.unknown) {

    dis_to_known <- data.frame(dis = rep(0, length.known))

    for (j in 1:length.known) {

        dis_to_known[j, 1] <- dist(rbind(iris.unknown[i, 1:4], iris.known[j,1:4]), method = "euclidean")

        dis_to_known[j, 2] <- iris.known[j, 5]

        names(dis_to_known)[2] = "Species"

    }

    dis_to_known <- dis_to_known[order(dis_to_known$dis), ]

    k <- 5

    type_freq <- as.data.frame(table(dis_to_known[1:k, ]$Species))

    type_freq <- type_freq[order(-type_freq$Freq), ]

    iris.unknown[i, 6] <- type_freq[1, 1]

}

names(iris.unknown)[6] = "Species.pre"

#7、输出分类结果

iris.unknown[, 5:6]

输出结果：略，结果集中，Species为样本实际分类，Species.pre为Knn算法的分类，正确率达90%以上。

KNN是有监督的学习算法，其特点有：
1、精度高，对异常值不敏感
2、只能处理数值型属性
3、计算复杂度高（如已知分类的样本数为n，那么对每个未知分类点要计算n个距离）

KNN算法存在的问题：
1、k值的确定是个难题。
2、如果距离最近的k个已知分类样本中，频数最高的类型有多个（频数相同），如何选择对未知样本的分类？目前看是随机的。
3、如果有n个未知类型样本，m个已知类型样本，则需要计算n*m个距离，计算量较大，且需存储全部数据集合，空间复杂度也较大。
4、能否把预测的样本分类加入到已知类别集合中，对剩余的未知类型样本进行分类？
5、归一化放在所有处理的最前面，这样需要知道全部的样本集合（已知分类+未知分类）来构建分类器，而实际上未知分类的样本并不一定能事先获得，这样如何进行归一化处理？

数据分析与挖掘 - R语言：KNN算法的更多相关文章

零基础数据分析与挖掘R语言实战课程（R语言）
随着大数据在各行业的落地生根和蓬勃发展,能从数据中挖金子的数据分析人员越来越宝贝,于是很多的程序员都想转行到数据分析, 挖掘技术哪家强?当然是R语言了,R语言的火热程度,从TIOBE上编程语言排名情况 ...
数据分析与挖掘 - R语言：贝叶斯分类算法（案例一）
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 名词解释: 先验概率:由以往的数据分析得到的概率, 叫做先验概率. 后验概率:而在 ...
数据分析与挖掘 - R语言：贝叶斯分类算法（案例三）
案例三比较简单,不需要自己写公式算法,使用了R自带的naiveBayes函数. 代码如下: > library(e1071)> classifier<-naiveBayes(iris ...
数据分析与挖掘 - R语言：K-means聚类算法
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目--有一个用户点击数据样本(husercollect)--按用户访问的 ...
数据分析与挖掘 - R语言：贝叶斯分类算法（案例二）
接着案例一,我们再使用另一种方法实例一个案例直接上代码: #!/usr/bin/Rscript library(plyr) library(reshape2) #1.根据训练集创建朴素贝叶斯分类器 ...
数据分析与挖掘 - R语言：多元线性回归
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 线性回归主要用来做预测模型. 1.准备数据集: X Y 0.10 42.0 0.1 ...
R语言分类算法之随机森林
R语言分类算法之随机森林 1.原理分析: 随机森林是通过自助法(boot-strap)重采样技术,从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练集样本集合,然后根据自助样本集生成k个决策 ...
R语言神经网络算法
人工神经网络(ANN),简称神经网络,是一种模仿生物神经网络的结构和功能的数学模型或计算模型.神经网络由大量的人工神经元联结进行计算.大多数情况下人工神经网络能在外界信息的基础上改变内部结构,是一种自 ...
R语言推荐算法 recommenderlab包
recommend li_volleyball 2016年3月20日 library(recommenderlab) library(ggplot2) # data(MovieLense) dim(M ...

随机推荐

实际体验 .NET Standard 2.0 的魅力
在我们的 .net core 大迁移工程中,有些项目完成了迁移,有些还未迁移,这就带来了一个烦恼——我们自己开发的公用类库如何在 .net core 与 .net framework 项目中共享?如果 ...
{ MySQL基础数据类型}一介绍二数值类型三日期类型四字符串类型五枚举类型与集合类型
MySQL基础数据类型阅读目录一介绍二数值类型三日期类型四字符串类型五枚举类型与集合类型一介绍存储引擎决定了表的类型,而表内存放的数据也要有不同的类型,每种数据类型都有自己 ...
[No0000E7]C# 封装与访问修饰符
C# 支持的访问修饰符: Public Private Protected Internal Protected internal Public 访问修饰符 Public 访问修饰符允许一个类将其成员 ...
iOS知识点持续更新。。。
1.自动布局拉伸和压缩优先级 Autolayout中每个约束都有一个优先级,优先级的范围是1~1000.创建一个约束,默认的优先级最高是1000. Content Hugging Priority:该 ...
进制转换 map
a_z = [i for i in map(chr, range(ord('a'), ord('z') + 1))]'''Address of var1 variable: 240ff24Addres ...
zabbix zatree centos7安装zabbix-agent
https://github.com/Emersonxuelinux/zatree-3.0-/tree/master/zabbix-3.0.x /bin/sh /config/ds.sh /tmp/z ...
xcrun: error: invalid active developer path (/Library/Developer/CommandLineTools), missing xcrun at[转载]
今天在添加友盟统计的podfile pod install报错了: bogon:Children songximing$ pod install /Library/Ruby/Gems//gems/co ...
图->连通性->最小生成树(普里姆算法)
文字描述用连通网来表示n个城市及n个城市间可能设置的通信线路,其中网的顶点表示城市,边表示两城市之间的线路,赋于边的权值表示相应的代价.对于n个定点的连通网可以建立许多不同的生成树,每一棵生成树都可 ...
20165225《Java程序设计》第七周学习总结
20165225<Java程序设计>第七周学习总结 1.视频与课本中的学习: - 第十一章学习总结 MySQL数据库管理系统,简称MySQL,是世界上最流行的开源数据库管理系统,其社区版( ...
java之map的基本介绍
map简介在讲解Map排序之前,我们先来稍微了解下map.map是键值对的集合接口,它的实现类主要包括:HashMap,TreeMap,Hashtable以及LinkedHashMap等.其中这四者 ...

数据分析与挖掘 - R语言：KNN算法

数据分析与挖掘 - R语言：KNN算法的更多相关文章

随机推荐

热门专题