机器学习与R语言：kNN

#----------------------------------------

# 功能描述：演示kNN建模过程

# 数据集：威斯康星乳腺癌诊断

#

#----------------------------------------

#第一步：收集数据

# import the CSV file

wbcd <- read.csv("/Users/chenyangang/R语言/data/wisc_bc_data.csv", stringsAsFactors = FALSE)

#熟悉数据

str(wbcd)

#radius 半径

#texture 质地

#perimeter 周长

#area 面积

#smoothness 光滑度

#compactness 致密度

#concavity 凹度

#points 凹点

#symmetry 对称性

#dimension 分型维数

#第二步：探索和准备数据

# 删除 id 变量

wbcd <- wbcd[-1]

# 目标数据的分类

table(wbcd$diagnosis)

# 分类器要求目标属性为因子类型，所以需要进行转化

wbcd$diagnosis <- factor(wbcd$diagnosis, levels = c("B", "M"),

labels = c("Benign", "Malignant"))

# 目标变量的占比

round(prop.table(table(wbcd$diagnosis)) * 100, digits = 1)

# 五数分析：分析半径、面积、光滑度，目的：看变量间的差异，是否需要进行数据的标准化

summary(wbcd[c("radius_mean", "area_mean", "smoothness_mean")])

# 2.1 最小－最大数据标注化，用于数值型变量

normalize <- function(x) {

return ((x - min(x)) / (max(x) - min(x)))

}

# 测试标准化函数

normalize(c(1, 2, 3, 4, 5))

normalize(c(10, 20, 30, 40, 50))

# 标准化数据

wbcd_n <- as.data.frame(lapply(wbcd[2:31], normalize))

#2.2 创建训练集和测试数据

wbcd_train <- wbcd_n[1:469, ]

wbcd_test <- wbcd_n[470:569, ]

# 分别为训练集和测试集提取目标变量

wbcd_train_labels <- wbcd[1:469, 1]

wbcd_test_labels <- wbcd[470:569, 1]

#第三步：基于数据训练模型

#--------------------------------------------

# 创建分类器：

# p <- knn(train, test, class, k)

# train: 训练集，数值型

# test: 测试集

# class：分类的因子向量

# k : 一个整数

# 该函数返回一个因子向量，该向量含有测试数据框中每一行的预测分类

#---------------------------------------------

# 加载class包

library(class)

#建模

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test,

cl = wbcd_train_labels, k=21)

## 第四步: 评估模型性能

# 加载 "gmodels" 包

library(gmodels)

# 交叉表分析

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred,

prop.chisq=FALSE)

#有两个被错误分类

## 第五步：提供模型的性能

# 5.1 使用scale() 函数进行 z-score 标准化数据

wbcd_z <- as.data.frame(scale(wbcd[-1]))

# 查看标准化后的结果

summary(wbcd_z$area_mean)

# 创建数据集和测试集

wbcd_train <- wbcd_z[1:469, ]

wbcd_test <- wbcd_z[470:569, ]

# 重新进行分类

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test,

cl = wbcd_train_labels, k=21)

# 交叉表分析

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred,

prop.chisq=FALSE)

#重新分类后，并没有带来提升，出现了下降，方法可供参考，利用数据的标准化

# 可以对不用的k值进行尝试

wbcd_train <- wbcd_n[1:469, ]

wbcd_test <- wbcd_n[470:569, ]

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=1)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=5)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=11)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=15)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=21)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

wbcd_test_pred <- knn(train = wbcd_train, test = wbcd_test, cl = wbcd_train_labels, k=27)

CrossTable(x = wbcd_test_labels, y = wbcd_test_pred, prop.chisq=FALSE)

机器学习与R语言：kNN的更多相关文章

【机器学习与R语言】13- 如何提高模型的性能？
目录 1.调整模型参数来提高性能 1.1 创建简单的调整模型 2.2 定制调整参数 2.使用元学习来提高性能 2.1 集成学习(元学习)概述 2.2 bagging 2.3 boosting 2.4 ...
【机器学习与R语言】12- 如何评估模型的性能？
目录 1.评估分类方法的性能 1.1 混淆矩阵 1.2 其他评价指标 1)Kappa统计量 2)灵敏度与特异性 3)精确度与回溯精确度 4)F度量 1.3 性能权衡可视化(ROC曲线) 2.评估未来的 ...
【机器学习与R语言】11- Kmeans聚类
目录 1.理解Kmeans聚类 1)基本概念 2)kmeans运作的基本原理 2.Kmeans聚类应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解Km ...
【机器学习与R语言】10- 关联规则
目录 1.理解关联规则 1)基本认识 2)Apriori算法 2.关联规则应用示例 1)收集数据 2)探索和准备数据 3)训练模型 4)评估性能 5)提高模型性能 1.理解关联规则 1)基本认识购物 ...
【机器学习与R语言】9- 支持向量机
目录 1.理解支持向量机(SVM) 1)SVM特点 2)用超平面分类 3)对非线性空间使用核函数 2. 支持向量机应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 ...
【机器学习与R语言】8- 神经网络
目录 1.理解神经网络 1)基本概念 2)激活函数 3)网络拓扑 4)训练算法 2.神经网络应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高性能 1.理解神经网络 1) ...
【机器学习与R语言】7-回归树和模型树
目录 1.理解回归树和模型树 2.回归树和模型树应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理解回归树和模型树决策树用于数值预测: 回归树:基于到达 ...
【机器学习与R语言】6-线性回归
目录 1.理解回归 1)简单线性回归 2)普通最小二乘估计 3)相关系数 4)多元线性回归 2.线性回归应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估模型 5)提高模型性能 1.理 ...
【机器学习与R语言】5-规则学习算法
目录 1.分类规则原理 1.1 1R单规则算法 1.2 RIPPER算法 2. 规则学习应用示例 1)收集数据 2)探索和准备数据 3)训练数据 4)评估性能 5)提高性能 6)选择决策树中的分类规则 ...
【机器学习与R语言】4-决策树
目录 1.决策树原理 2.决策树应用示例 2.1)收集数据 2.2)探索和准备数据 2.3)训练模型 2.4)评估模型性能 2.5)提高模型性能通过自适应增强算法(boosting) 将惩罚因子分配 ...

随机推荐

【BZOJ3416】Poi2013 Take-out 栈
[BZOJ3416]Poi2013 Take-out Description 小F喜欢玩一个消除游戏——take-out 保证k+1|n,保证输入数据有解这是一个单人游戏游戏者的目标是消除初始时给定 ...
【BZOJ2616】SPOJ PERIODNI 笛卡尔树+树形DP
[BZOJ2616]SPOJ PERIODNI Description Input 第1行包括两个正整数N,K,表示了棋盘的列数和放的车数. 第2行包含N个正整数,表示了棋盘每列的高度. Output ...
vue里监听安卓的物理返回键
Hybrid App中,原生内嵌H5单页,由于安卓是有物理返回键的,按安卓物理返回键的时候会返回到上一个路由. 实际中需求是:当有弹层的时候,按物理返回键是关闭弹层,是页面的时候才执行返回上一个路由, ...
Net 常用资源
opensource: http://www.dotnetfoundation.org/projects https://github.com/dotnet/corefx Enterprise Lib ...
[iOS微博项目 - 4.6] - 微博配图
github: https://github.com/hellovoidworld/HVWWeibo A.微博配图 1.需求显示原创微博.转发微博的缩略图 4张图使用2x2布局,其他使用3x3布局, ...
Apache Kafka源码分析 – Broker Server
1. Kafka.scala 在Kafka的main入口中startup KafkaServerStartable, 而KafkaServerStartable这是对KafkaServer的封装 1: ...
Photoshop打开时报错“不能打开暂存盘文件。。。”
解决方法: 1.找到应用程序(Photoshop.exe文件) 2.右键 -> 属性 -> 兼容性 -> 更改所有用户的设置 -> 勾选上“以管理员身份运行此程序”.
python中lambda使用
一.lambda函数 1.lambda函数基础: lambda函数也叫匿名函数,即,函数没有具体的名称,而用def创建的方法是有名称的.如下: """命名的foo函数&q ...
浅析Linux中的进程调度
2016-11-22 前面在看软中断的时候,牵扯到不少进程调度的知识,这方面自己确实一直不怎么了解,就趁这个机会好好学习下. 现代的操作系统都是多任务的操作系统,尽管随着科技的发展,硬件的处理器核心越 ...
解决MySQL ERROR 1130 (HY000): Host '192.168.31.115' is not allowed to connect to this MariaDB server
# 给root用户授权 GRANT ALL PRIVILEGES ON *.* TO 'root'@'192.168.31.115' IDENTIFIED BY 'root' WITH GRANT O ...

机器学习与R语言：kNN

机器学习与R语言：kNN的更多相关文章

随机推荐

热门专题