机器学习——k-近邻(K-Nearest Neighbor)

K-Nearest neighbor

（个人观点，仅供参考。）

K-Nearest neighbor

k-近邻算法，第一个机器学习算法，非常有效且易掌握，本文将主要探讨k-近邻算法的基本理论和使用距离侧量的算法分类物品；最后通过k-近邻算法改进约会网站和手写数字识别系统。文章内容参考《机器学习实战》

K-近邻分类算法

简单的说，通过采用不同特征值之间的距离方法进行分类

优点：精度高，对异值不敏感，无数据输入假定。

缺点：计算复杂、需要大量的内存。

适用于：数值型和标称型数据。

工作原理： 在训练集中，每个样本都存在标签，即我们知道样本集中每一个数据与所属的分类的对应关系。当我们给一个没有标签的数据时，我们比较这份数据与现有的所有数据分别进行比较，然后算法从样本集中提取样本集中特征最相近似数据的分类标签。一般来说，我们只选择样本数据集中前K个相似的的数据，通常k不大于20；

图来自wiki

例：区分电影的类型，人类可以工具自己对影片的理解来区分影片类型，但是机器则没有那么高级。但可以根据类型的特性来却别，例如爱情片打kiss的要多于动作片打Kiss的场景，动作片kick的场景要多与kiss。假设你无聊数了几部电影中kiss和kick的场景，数据如下图：

根据上表使用python画出散点图

从图中可以很明了的看出未知类型的电影和哪一类电影更相近一些，假设这里的k取值三，这里靠近未知电影的的三部电影全部为爱情电影，所以我们判定未知电影为爱情片。

按照上一篇文章机器学习的基本步骤，将使用python完成一个简单的KNN算法的。

KNN算法的简单方法：

1.收集数据：任何方式

2.准备数据：计算距离所需要的数据，最好是结构化的数据

3.分析数据：

4.训练数据：KNN算法不需要

5.测试：计算误差

6.算法应用

from numpy import *

import operator

def createDataSet():

     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

     labels = ['A','A','B','B']

     return group, labels

K-Nearest Neighbors 算法

从文本文件中解析和导入数据

# KNN Load data from files and translate to matris

def file2matrix(filename):

    fr = open(filename, encoding='utf-8')

    # get number of lines in files

    numberOfLines = len(fr.readlines())

    # create Numpy matrix to return

    # create a matrix  [0,0,0]

    returnMat = zeros((numberOfLines,3))

    classLabelVector = []

    fr = open(filename,encoding='utf-8')

    index = 0

    for line in fr.readlines():

        # strip() return a copy of the sequence with speciafied leading and trailing bytes removed

        line = line.strip()

        # split() split the binary sequence into subsequenceds of the same type, using sep as the delimiter string

        listFromLine = line.split('\t')

        # print (listFromLine)

        # 提取数据前三列 which generate a new matrix listFromLine

        returnMat[index,:] = listFromLine[0:3]

        # print (returnMat)

        # print (listFromLine)

        # print (listFromLine[0:3])

        # according to the flag to classify

        # print (listFromLine)

        classLabelVector.append(int(listFromLine[-1]))

        index = index + 1

    return returnMat,classLabelVector

(原文中的代码有些问题。文件数据中的最后一列需要转化成为数字)

使用python创建扩散图

分别定义了三个绘制散点图的函数：

# 绘制不带标签的散点图

def draw_scatter_noLabels(datingDataMat):

    fig = plt.figure()

    # 设置画布的布局

    ax = fig.add_subplot(111)

    ax.scatter(datingDataMat[:,1],datingDataMat[:,2])

    return (plt.show())

    # 绘制无标签数据

def draw_Time_Icecream_scatter_withLabels(datingDataMat,datingLabels):

    fig = plt.figure()

    ax = fig.add_subplot(111)

    ax.scatter(datingDataMat[:,1],datingDataMat[:,2],15*array(datingLabels),15*array(datingLabels))

    ax.set_title('Hellen\'s data')

    ax.set_xlabel('percentage of Time Spent Playing Video Games')

    ax.set_ylabel('Liters of ice cream consumed per week')

    return (plt.show())

# 绘制带有标签的Flyier MIles-Time spent on the video game

def draw_Miles_Time_scatter_withLabels(datingDataMat,datingLabels):

    fig = plt.figure()

    ax = fig.add_subplot(111)

    # identify three class type1  不喜欢 type2 喜欢 type3很喜欢

    type1_x = []

    type1_y = []

    type2_x = []

    type2_y = []

    type3_x = []

    type3_y = []

    for i in range(len(datingLabels)):

        # print (datingLabels)

        if datingLabels[i] == 1:

            type1_x.append(datingDataMat[i][0])

            type1_y.append(datingDataMat[i][1])

        if datingLabels[i] == 2:

            type2_x.append(datingDataMat[i][0])

            type2_y.append(datingDataMat[i][1])

        if datingLabels[i] == 3:

            type3_x.append(datingDataMat[i][0])

            type3_y.append(datingDataMat[i][1])

    type1 = ax.scatter(type1_x,type1_y,s=20,c='r')

    type2 = ax.scatter(type2_x,type2_y,s=40,c='y')

    type3 = ax.scatter(type3_x,type3_y,s=60,c='b')

    # ax.scatter(datingDataMat[:,0],datingDataMat[:,1],15*array(datingLabels),15*array(datingLabels),label=datingLabels)

    ax.set_title('Hellen\'s data')

    ax.set_xlabel('Frequent Flyier Mils earned Per Year')

    ax.set_ylabel('percentage of time spentplaying video games')

    plt.legend((type1,type2,type3),("Did Not like ",'Like in small Does','liked in large Does'))

    return (plt.show())

归一化数值

···

http://docs.alerta.io/en/latest/index.html

http://alerta.io/

End Sub