k-NN——算法实现

k-NN 没有特别的训练过程，给定训练集，标签，k，计算待预测特征到训练集的所有距离，选取前k个距离最小的训练集，k个中标签最多的为预测标签

约会类型分类、手写数字识别分类

计算输入数据到每一个训练数据的距离
选择前k个，判断其中类别最多的类作为预测类

import numpy as np

import operator

import matplotlib

import matplotlib.pyplot as plt

# inX: test data, N features (1xN)

# dataSet: M samples, N features (MxN)

# label: for M samples (1xM)

# k: k-Nearest Neighbor

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet

    distances = np.sum(diffMat**2, axis=1)**0.5

    sortDistances = distances.argsort() # 计算距离

    classCount = {}

    for i in range(k):

        voteLable = labels[sortDistances[i]]

        classCount[voteLable] = classCount.get(voteLable, 0) + 1

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) # 找出最多投票的类

    result = sortedClassCount[0][0]

    # print("Predict: ", result)

    return result

# 将一个文件写入矩阵，文件有4列，最后一列为labels，以\t间隔

def file2matrix(filename):

    with open(filename) as f:

        arrayLines = f.readlines()

        # print(arrayLines) # 有\n

    numberOfLines = len(arrayLines) # 将txt文件按行读入为一个list，一行为一个元素

    returnMat = np.zeros((numberOfLines, 3))

    classLabelVector = []

    index = 0

    for line in arrayLines:

        line = line.strip()

        listFromLine = line.split('\t')

        returnMat[index,:] = listFromLine[0:3]

        classLabelVector.append(int(listFromLine[-1]))

        index += 1

    return returnMat, classLabelVector

# 画一些图

def ex3():

    datingDateMat, datingLables = file2matrix("datingTestSet2.txt")

    fig = plt.figure()

    ax = fig.add_subplot(1,2,1)

    ax.scatter(datingDateMat[:,1], datingDateMat[:,2], s=15.0*np.array(datingLables), c=15.0*np.array(datingLables))

    ax2 = fig.add_subplot(1,2,2)

    ax2.scatter(datingDateMat[:,0], datingDateMat[:,1], s=15.0*np.array(datingLables), c=15.0*np.array(datingLables))

    plt.show()

# 将数据集归一化[0 1]之间 (value - min)/(max - min)

def autoNorm(dataSet):

    minVals = dataSet.min(axis=0)

    maxVals = dataSet.max(axis=0)

    ranges = maxVals - minVals

    m = dataSet.shape[0]

    normDataSet = dataSet - np.tile(minVals, (m,1))

    normDataSet = normDataSet/np.tile(ranges, (m,1))

    return normDataSet, ranges, minVals

# 分类器，输入数据集，归一化参数，labels，70%作为训练集，30%测试集

def datingClassTest(normDataSet, ranges, minVals, labels):

    m = normDataSet.shape[0]

    numOfTrain = int(m*0.7)

    trainIndex = np.arange(m)

    np.random.shuffle(trainIndex)

    dataSet = normDataSet[trainIndex[0:numOfTrain],:]

    testSet = normDataSet[trainIndex[numOfTrain:],:]

    labels = np.array(labels)

    dataSetLabels = labels[trainIndex[0:numOfTrain]]

    testSetLabels = labels[trainIndex[numOfTrain:]]

    k = int(input("Input k: "))

    results = []

    for inX in testSet:

        result = classify0(inX, dataSet, dataSetLabels, k)

        results.append(result)

    compResultsAndLable = np.argwhere(results==testSetLabels)

    acc = len(compResultsAndLable)/len(testSetLabels)

    print("Accuracy: {:.2f}".format(acc))

    print("Error: {:.2f}".format(1-acc))

    classList = ['not at all', 'in small doses', 'in large doses']

    inX1 = float(input("1: percentage of time spent playing video games? "))

    inX2 = float(input("2: frequent flier miles earned per year? "))

    inX3 = float(input("3: liters of ice cream consumed per year? "))

    inXUser = [inX1,inX2,inX3]

    inXUser = (inXUser - minVals)/ranges

    result = classify0(inXUser, dataSet, dataSetLabels, k)

    print("Predict: ", classList[result])

if __name__ == '__main__':

    # # -- ex1 --

    # inX = [1, 1]

    # dataSet = np.array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])

    # labels = ['A', 'A', 'B', 'B']

    # k = 3

    # classify0(inX, dataSet, labels, k)

    # # -- ex2 --

    datingDateMat, datingLables = file2matrix("datingTestSet2.txt")

    # # -- ex3 --

    # ex3()

    # #-- ex4 --

    # normDataSet, ranges, minVals = autoNorm(datingDateMat)

    # # -- ex5 --

    # datingClassTest(normDataSet, ranges, minVals, datingLables)

import numpy as np

import matplotlib

import matplotlib.pyplot as plt

import os

import operator

def img2vector(filename):

    with open(filename) as f:

        lines = f.readlines()

    return_vector = []

    for line in lines:

        line = line.strip()

        for j in line:

            return_vector.append(int(j))

    return return_vector

# inX: test data, N features (1xN)

# dataSet: M samples, N features (MxN)

# label: for M samples (1xM)

# k: k-Nearest Neighbor

def classify0(inX, dataSet, labels, k):

    dataSetSize = dataSet.shape[0]

    diffMat = np.tile(inX, (dataSetSize, 1)) - dataSet

    distances = np.sum(diffMat**2, axis=1)**0.5

    sortDistances = distances.argsort() # 计算距离

    classCount = {}

    for i in range(k):

        voteLable = labels[sortDistances[i]]

        classCount[voteLable] = classCount.get(voteLable, 0) + 1

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) # 找出最多投票的类

    result = sortedClassCount[0][0]

    # print("Predict: ", result)

    return result

def handwriting_class_test(data_set, training_labels, test_set, test_labels, k):

    results = []

    for i in range(len(test_set)):

        result = classify0(test_set[i], data_set, training_labels, k)

        results.append(result)

        # print('predict: ', result, 'answer: ', test_labels[i])

    compare_results = np.argwhere(results==test_labels)

    acc = len(compare_results)/len(test_labels)

    print("Accuracy: {:.5f}".format(acc))

    print("Error: {:.5f}".format(1-acc))

if __name__ == '__main__':

    dir_path = r'H:\ML\MachineLearninginAction\02kNN\digits'

    training_path = os.path.join(dir_path, r'trainingDigits')

    test_path = os.path.join(dir_path, r'testDigits')

    training_files_list = os.listdir(training_path)

    test_files_list = os.listdir(test_path)

    # 计算训练集矩阵与labels

    m = len(training_files_list)

    # m = 5

    data_set = np.zeros((m, 1024))

    training_labels = np.zeros(m)

    for i in range(m):

        data_set[i] = img2vector(os.path.join(training_path, training_files_list[i]))

        training_labels[i] = training_files_list[i].split('_')[0]

    # 测试集矩阵与labels

    mt = len(test_files_list)

    test_set = np.zeros((mt,1024))

    test_labels = np.zeros(mt)

    for i in range(mt):

        test_set[i] = img2vector(os.path.join(test_path, test_files_list[i]))

        test_labels[i] = test_files_list[i].split('_')[0]

    k = 3

    handwriting_class_test(data_set, training_labels, test_set, test_labels, k)

k-NN——算法实现的更多相关文章

kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
[Machine-Learning] K临近算法-简单例子
k-临近算法算法步骤 k 临近算法的伪代码,对位置类别属性的数据集中的每个点依次执行以下操作: 计算已知类别数据集中的每个点与当前点之间的距离: 按照距离递增次序排序: 选取与当前点距离最小的k个点 ...
k近邻算法的Java实现
k近邻算法是机器学习算法中最简单的算法之一,工作原理是:存在一个样本数据集合,即训练样本集,并且样本集中的每个数据都存在标签,即我们知道样本集中每一数据和所属分类的对应关系.输入没有标签的新数据之后, ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
聚类算法：K-means 算法(k均值算法)
k-means算法: 第一步:选$K$个初始聚类中心,$z_1(1),z_2(1),\cdots,z_k(1)$,其中括号内的序号为寻找聚类中心的迭代运算的次序号. 聚类中心的向量值可任意设 ...
从K近邻算法谈到KD树、SIFT+BBF算法
转自 http://blog.csdn.net/v_july_v/article/details/8203674 ,感谢july的辛勤劳动前言前两日,在微博上说:“到今天为止,我至少亏欠了3篇文章 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...

随机推荐

for each ……in
使用一个变量迭代一个对象的所有属性值,对于每一个属性值,有一个指定的语句块被执行. 作为ECMA-357(E4X)标准的一部分,for each...in语句已被废弃,E4X中的大部分特性已被删除,但 ...
Mac中显示及隐藏文件和文件夹的方法
一.方法一直接在文件或文件夹名前面的加一个'.'点号,然后系统会弹出修改确认对话框,点好就行了. 隐藏文件解除隐藏可以通过方法三显示所有隐藏文件,找到该文件去掉开头的'.',然后通过方法二来解除隐 ...
基于Centos7.X的CS:GO社区服搭建
基于Centos7.X的CS:GO私人服务器搭建由于比完了赛,在学校太过无聊,便想搭建一个CSGO社区服务器,方便舍友同学进来游玩,顺便帮助一些有想法的人,让他们少走一点弯路一.创建新用户,并下载 ...
shell循环ping ip的写法
#!/bin/bash for i in `seq 1 20` do if ping -w 2 -c 1 192.168.43.$i | grep "100%" > /dev ...
python27day
内容回顾 super 遵循mro算法只在新式类中能适应 py2新式类中需要自己添加参数封装广义上的封装狭义上的封装 (__名字) 方法名私有化实例变量私有化静态变量私有化私有化的特点只 ...
HTML 基础2
当浏览器读到一个样式表,它就会按照这个样式表来对文档进行格式化.有以下三种方式来插入样式表: 外部样式表内部样式内联样式外部样式表当样式需要被应用到很多页面的时候,外部样式表将是理想的选择.使 ...
mycat 简单介绍
一.mycat? 1.为什么叫mycat 其实mycat在最早的初期版本只支持mysql一种数据库,换句话说mycat其实就是mysql的增强版在mysql中只是数据库,并没有读写分离和分库分表,这 ...
jvm与dvm两种虚拟机的不同
jvm : java虚拟机 sun dvm: dalvik虚拟机 google 区别: 1.基于的架构不同,jvm 基于栈架构,栈是位于内存上的一个空间,执行指令操作,需要 ...
web常用开发工具
1.WebStorm[推荐] WebStorm 是jetbrains公司旗下一款JavaScript 开发工具.目前已经被广大中国JS开发者誉为"Web前端开发神器"." ...
iptables防火墙（纸是包不住火的，得用水泥）
iptables防火墙 1.Linux防火墙基础 2.编写防火墙规则 1.Linux防火墙基础 iptables概述: Linux 系统的防火墙: IP信息包过滤系统,它实际上由两个组件netfilt ...

k-NN——算法实现

k-NN——算法实现的更多相关文章

随机推荐

热门专题