数据挖掘算法（一）--K近邻算法（KNN）

数据挖掘算法学习笔记汇总

数据挖掘算法（一）–K近邻算法（KNN）

数据挖掘算法（二）–决策树

 数据挖掘算法（三）–logistic回归

算法简介

KNN算法的训练样本是多维特征空间向量，其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。

在分类阶段，k是一个用户定义的常数。一个没有类别标签的向量（查询或测试点）将被归类为最接近该点的k个样本点中最频繁使用的一类。

一般情况下，将欧氏距离作为距离度量

d=(x1−x2)2+(y1−y2)2−−−−−−−−−−−−−−−−−−−√

但是这是只适用于连续变量。在文本分类这种离散变量情况下，另一个度量——重叠度量（或海明距离）可以用来作为度量。例如对于基因表达微阵列数据，k-NN也与Pearson和Spearman相关系数结合起来使用。通常情况下，如果运用一些特殊的算法来计算度量的话，k近邻分类精度可显著提高，如运用大间隔最近邻居或者邻里成分分析法。

算法流程简述

1、计算待分类点与已知类别数据集中每个点的距离；

2、按照距离递增次序排序；

3、选取与待分类点距离最小的k个点；

4、确定前k个点类别出现的频率；

5、返回前k个点出现频率最高的类别作为当前待分类点的预测分类。

代码

主要自己利用python代码实现了一遍KNN算法，另外也使用了sklearn的neighbors进行计算，学习sklearn包怎么使用。

本文代码运行环境：

python：3.5.1

pandas：0.19.2

sklearn：0.18.1

其他环境可能有细微差别

# -*coding:utf-8*-

import numpy as np

import pandas as pd

import operator

from sklearn import neighbors

def weight(onedata):

    #作为下面的pd.read_csv的转换函数

    if onedata == 'largeDoses':

        return 3

    elif onedata == 'smallDoses':

        return 2

    else:

        return 1

def autoNorm(dataFrame):

    minValues = dataFrame.min(0)  # 获取一列的最小值

    maxValues = dataFrame.max(0)  # 获取一列的最大值

    ranges = maxValues - minValues

    m = dataFrame.shape[0]

    dataFrame = dataFrame - np.tile(minValues, (m, 1))

    dataFrame = dataFrame / np.tile(ranges, (m, 1))

    return dataFrame, ranges, minValues

def classify0(input, dataSet, labels, k):

    rowNum = dataSet.shape[0]

    diffMat = np.tile(input, (rowNum, 1)) - dataSet

    sqDiffMat = diffMat ** 2

    sqDistances = sqDiffMat.sum(axis=1)  # 求每一行的和

    distances = sqDistances ** 0.5  # 计算得到欧式距离

    sortedDistIndicies = distances.argsort()

    classCount = {}

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies.index[sortedDistIndicies.values[i]]]

        classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1

        sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)

        return sortedClassCount[0][0]

# 读取数据

data = pd.read_csv("./datingTestSet.txt", sep='\t', header=None, converters={3: weight})

# 归一化数据

normData, ranges, minValues = autoNorm(data.iloc[:, 0:3])

# 利用后50%作为训练数据，前50%作为测试数据

Percent = 0.50

m = normData.shape[0]

numTest = int(m * Percent)

errorCount = 0.0

for i in range(numTest):

    classifierResult = classify0(normData.iloc[i, :], normData.iloc[numTest:m, :], data.iloc[numTest:m, 3], 3)

    # print("KNN计算值: %d, 真实值: %d" % (classifierResult, data.iloc[i, 3]))

    if classifierResult != data.iloc[i, 3]:

        errorCount += 1.0

print("KNN的正确率: %f" % (1 - errorCount / float(numTest)))

clf = neighbors.KNeighborsClassifier(3)

classifierResult = clf.fit(normData.iloc[numTest:m, :], data.iloc[numTest:m, 3])

score = clf.score(normData.iloc[0:numTest, :], data.iloc[0:numTest, 3])

print("sklearn的正确率: %f"% score)

运行结果

KNN的正确率: 0.920000

sklearn的正确率: 0.936000

代码和测试数据下载地址：

链接：http://pan.baidu.com/s/1kU8rEcR 密码：w57h

参考资料：

1、《机器学习实战》

2、wiki

欢迎python爱好者加入：学习交流群 667279387

数据挖掘算法（一）--K近邻算法（KNN）的更多相关文章

机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
【分类算法】K近邻（KNN） ——kd树（转载）
K近邻(KNN)的核心算法是kd树,转载如下几个链接: [量化课堂]一只兔子帮你理解 kNN [量化课堂]kd 树算法之思路篇 [量化课堂]kd 树算法之详细篇
机器学习算法之K近邻算法
0x00 概述 K近邻算法是机器学习中非常重要的分类算法.可利用K近邻基于不同的特征提取方式来检测异常操作,比如使用K近邻检测Rootkit,使用K近邻检测webshell等. 0x01 原理 ...
Python实现机器学习算法：K近邻算法
''' 数据集:Mnist 训练集数量:60000 测试集数量:10000(实际使用:200) ''' import numpy as np import time def loadData(file ...
【机器学习】k近邻算法（kNN）
一.写在前面本系列是对之前机器学习笔记的一个总结,这里只针对最基础的经典机器学习算法,对其本身的要点进行笔记总结,具体到算法的详细过程可以参见其他参考资料和书籍,这里顺便推荐一下Machine Le ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
<转>从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/likika2012/article/details/39619687 前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章待写:1.KD树:2.神经 ...
用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
从K近邻算法、距离度量谈到KD树、SIFT+BBF算法
转载自:http://blog.csdn.net/v_july_v/article/details/8203674/ 从K近邻算法.距离度量谈到KD树.SIFT+BBF算法前言前两日,在微博上说: ...
机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...

随机推荐

NuGet Package Explorer使用教程下载
1.下载NuGet Package Explorer http://www.pc0359.cn/downinfo/91514.html 2.双击NuGet Package Explorer出现启动界面 ...
Weblogic 12c 的 Apache HTTP Server 整合插件（Plug-In）下载地址
资料来源:到哪里下载Weblogic 12c 的Plug-In 为 Apache HTTP Server 摘录如下: 最新的Weblogic 12c不再为 Apache HTTP Server提供缺省 ...
[LC] 108题将有序数组转换为二叉搜索树（建树）
①题目将一个按照升序排列的有序数组,转换为一棵高度平衡二叉搜索树. 本题中,一个高度平衡二叉树是指一个二叉树每个节点的左右两个子树的高度差的绝对值不超过 1. 示例: 给定有序数组: [-10,- ...
关于css中的字体样式
1.决定字体的属性 color:字体颜色属性值:单词,十六进制表示,rgb 2.字体大小 font-size:12px:属性值是整数字,不要带小数,单位是px叫做像素单位:凡是由像素拼成的图片我们 ...
Python input函数使用
本文链接:https://www.cnblogs.com/zyuanlbj/p/11905475.html 函数定义 def input(*args, **kwargs): # real signat ...
Linux定时任务 crontab（-l -e）、at、batch
1.周期性定时任务crontab cron['krɒn] 一时间单位 table crontab -e 进入编辑定时任务界面,每一行代表一个定时任务,#开头的行为注释行,一行分成6列分钟小时日 ...
看了这篇Redis，我以大专生的身份，进入了阿里，定级P7
摘要: 前几天讲了Redis的面试知识点,当然那只是一部分,我相信各位在面试,或者实际开发过程中对缓存雪崩,穿透,击穿也不陌生吧,就算没遇到过但是你肯定听过,那三者到底有什么区别,我们又应该怎么去防止 ...
php为什么要用swoole？
最近两个月一直在研究 Swoole,那么借助这篇文章,我希望能够把 Swoole 安利给更多人.虽然 Swoole 可能目前定位是一些高级 phper 的玩具,让中低级望而生畏,可能对一些应用场景也一 ...
选择了uniapp开发app
7月份打算做一简单app,之前公司做app的时候简单用过Dcloud公司的mui,当时由于uniapp刚出来,最终选择了mui.对uniapp的了解几乎没有. 做app对我来说几乎是零基础的,当然是 ...
【Luogu P1967】货车运输
Luogu P1967 题目大意:给定一张图和q个询问,询问x节点和y节点的路径之间最小边权最大可以是多少. 可以发现对于一条边\(E(x,y)\),如果x到y有另一条路径且最小边权大于\(E(x,y ...

数据挖掘算法（一）--K近邻算法 （KNN）

算法简介

代码

数据挖掘算法（一）--K近邻算法 （KNN）的更多相关文章

随机推荐

热门专题

数据挖掘算法（一）--K近邻算法（KNN）

数据挖掘算法（一）--K近邻算法（KNN）的更多相关文章