数据挖掘算法(一)--K近邻算法 (KNN)
数据挖掘算法学习笔记汇总
数据挖掘算法(一)–K近邻算法 (KNN)
数据挖掘算法(二)–决策树
数据挖掘算法(三)–logistic回归
算法简介
KNN算法的训练样本是多维特征空间向量,其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。
在分类阶段,k是一个用户定义的常数。一个没有类别标签的向量(查询或测试点)将被归类为最接近该点的k个样本点中最频繁使用的一类。
一般情况下,将欧氏距离作为距离度量
但是这是只适用于连续变量。在文本分类这种离散变量情况下,另一个度量——重叠度量(或海明距离)可以用来作为度量。例如对于基因表达微阵列数据,k-NN也与Pearson和Spearman相关系数结合起来使用。通常情况下,如果运用一些特殊的算法来计算度量的话,k近邻分类精度可显著提高,如运用大间隔最近邻居或者邻里成分分析法。
算法流程 简述
1、计算待分类点与已知类别数据集中每个点的距离;
2、按照距离递增次序排序;
3、选取与待分类点距离最小的k个点;
4、确定前k个点类别出现的频率;
5、返回前k个点出现频率最高的类别作为当前待分类点的预测分类。
代码
主要自己利用python代码实现了一遍KNN算法,另外也使用了sklearn的neighbors进行计算,学习sklearn包怎么使用。
本文代码运行环境:
python:3.5.1
pandas:0.19.2
sklearn:0.18.1
其他环境可能有细微差别
# -*coding:utf-8*-
import numpy as np
import pandas as pd
import operator
from sklearn import neighbors
def weight(onedata):
#作为下面的pd.read_csv的转换函数
if onedata == 'largeDoses':
return 3
elif onedata == 'smallDoses':
return 2
else:
return 1
def autoNorm(dataFrame):
minValues = dataFrame.min(0) # 获取一列的最小值
maxValues = dataFrame.max(0) # 获取一列的最大值
ranges = maxValues - minValues
m = dataFrame.shape[0]
dataFrame = dataFrame - np.tile(minValues, (m, 1))
dataFrame = dataFrame / np.tile(ranges, (m, 1))
return dataFrame, ranges, minValues
def classify0(input, dataSet, labels, k):
rowNum = dataSet.shape[0]
diffMat = np.tile(input, (rowNum, 1)) - dataSet
sqDiffMat = diffMat ** 2
sqDistances = sqDiffMat.sum(axis=1) # 求每一行的和
distances = sqDistances ** 0.5 # 计算得到欧式距离
sortedDistIndicies = distances.argsort()
classCount = {}
for i in range(k):
voteIlabel = labels[sortedDistIndicies.index[sortedDistIndicies.values[i]]]
classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0]
# 读取数据
data = pd.read_csv("./datingTestSet.txt", sep='\t', header=None, converters={3: weight})
# 归一化数据
normData, ranges, minValues = autoNorm(data.iloc[:, 0:3])
# 利用后50%作为训练数据,前50%作为测试数据
Percent = 0.50
m = normData.shape[0]
numTest = int(m * Percent)
errorCount = 0.0
for i in range(numTest):
classifierResult = classify0(normData.iloc[i, :], normData.iloc[numTest:m, :], data.iloc[numTest:m, 3], 3)
# print("KNN计算值: %d, 真实值: %d" % (classifierResult, data.iloc[i, 3]))
if classifierResult != data.iloc[i, 3]:
errorCount += 1.0
print("KNN的正确率: %f" % (1 - errorCount / float(numTest)))
clf = neighbors.KNeighborsClassifier(3)
classifierResult = clf.fit(normData.iloc[numTest:m, :], data.iloc[numTest:m, 3])
score = clf.score(normData.iloc[0:numTest, :], data.iloc[0:numTest, 3])
print("sklearn的正确率: %f"% score)
运行结果
KNN的正确率: 0.920000
sklearn的正确率: 0.936000
代码和测试数据下载地址:
链接:http://pan.baidu.com/s/1kU8rEcR 密码:w57h
参考资料:
1、《机器学习实战》
2、wiki
欢迎python爱好者加入:学习交流群 667279387
数据挖掘算法(一)--K近邻算法 (KNN)的更多相关文章
- 机器学习——KNN算法(k近邻算法)
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
- 【分类算法】K近邻(KNN) ——kd树(转载)
K近邻(KNN)的核心算法是kd树,转载如下几个链接: [量化课堂]一只兔子帮你理解 kNN [量化课堂]kd 树算法之思路篇 [量化课堂]kd 树算法之详细篇
- 机器学习算法之K近邻算法
0x00 概述 K近邻算法是机器学习中非常重要的分类算法.可利用K近邻基于不同的特征提取方式来检测异常操作,比如使用K近邻检测Rootkit,使用K近邻检测webshell等. 0x01 原理 ...
- Python实现机器学习算法:K近邻算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000(实际使用:200) ''' import numpy as np import time def loadData(file ...
- 【机器学习】k近邻算法(kNN)
一.写在前面 本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
- 从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动 前言 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
- <转>从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/likika2012/article/details/39619687 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经 ...
- 用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
- 从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法 前言 前两日,在微博上说: ...
- 机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...
随机推荐
- 创建linux系统下的虚拟机
1.打开VMware软件 2.创建新的虚拟机 3.下一步 4.点击 稍后安装操作系统——下一步 5.选择 其中版本 我的镜像是这个版本所以选择这个 6.下一步 设置虚拟机名称 要保存的位置 7 ...
- jquery判断手指滑动方向
jquery判断手指滑动方向 <pre> /*判断哪个滑动方向还是自己改下 要么上下 要么左右*/ var startX; var startY; $(".shanghua&qu ...
- 【algo&ds】2.线性表
1.线性表 线性表(英语:Linear List)是由n(n≥0)个数据元素(结点)a[0],a[1],a[2]-,a[n-1]组成的有限序列. 其中: 数据元素的个数n定义为表的长度 = " ...
- thinkphp 比RBAC更好的权限认证方式(Auth类认证)
Auth 类已经在ThinkPHP代码仓库中存在很久了,但是因为一直没有出过它的教程, 很少人知道它, 它其实比RBAC更方便 . RBAC是按节点进行认证的,如果要控制比节点更细的权限就有点困难了, ...
- java编程思想第四版第八章总结
1. 多态的含义 面向对象的三大基本特征: 封装,继承,多态. 多态是干什么的? 多态将做什么和怎么做分离开.从另一个角度将接口是实现类分离开. 多态的作用 消除类型之间耦合的关系 使用多态的好处? ...
- SQL的四种连接(左外连接、右外连接、内连接、全连接)
1.内联接(典型的联接运算,使用像 = 或 <> 之类的比较运算符).包括相等联接和自然联接. 内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行.例如,检索 stude ...
- nyoj 83-迷宫寻宝(二) (计算几何, 叉积)
83-迷宫寻宝(二) 内存限制:10MB 时间限制:1000ms 特判: No 通过数:2 提交数:6 难度:5 题目描述: 一个叫ACM的寻宝者找到了一个藏宝图,它根据藏宝图找到了一个迷宫,这是一个 ...
- nyoj 1071-不可以!(a*b + fabs(a*b))
1071-不可以! 内存限制:64MB 时间限制:1000ms 特判: No 通过数:10 提交数:18 难度:1 题目描述: 判断:两个数x.y的正负性. 要求:不可以使用比较运算符,即" ...
- setState何时同步,何时异步,为什么?
setState何时同步,何时异步,为什么 答案:在React库控制时,异步:否则同步. 示例代码如下: constructor(props){ super(porps); this.state = ...
- react-router重定向
① ②通过this.props重定向