KNN-机器学习算法

'''

Created on Sep 16, 2010

kNN: k Nearest Neighbors

Input:      inX: vector to compare to existing dataset (1xN)

            dataSet: size m data set of known vectors (NxM)

            labels: data set labels (1xM vector)

            k: number of neighbors to use for comparison (should be an odd number)

Output:     the most popular class label

@author: pbharrin

'''

from numpy import *

#NumPy是Python语言的一个扩展程序库。支持高端大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。

import pdb

pdb.set_trace()#用于调试

import operator#operator 模块是 Python 中内置的操作符函数接口，它定义了算术，比较和与标准对象 API 相对应的其他操作的内置函数。

#operator 模块是用 C 实现的，所以执行速度比 Python 代码快。

from os import listdir#os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。这个列表以字母顺序。 它不包括 '.' 和'..' 即使它在文件夹中。

def classify0(inX, dataSet, labels, k):

    #这个方法每次只能处理一个样本

    #这里的dataSet是一个数组，inX是待分类的样本,K是neighbor的数量

    #inX是以行向量的方式储存的，dataSet也是一行表示一个样本

    #KNN算法几乎不需要“训练”，属于即开即用那种的

    dataSetSize = dataSet.shape[0]#这是样本个数

    diffMat = tile(inX, (dataSetSize,1)) - dataSet#ile（）函数内括号中的参数代表扩展后的维度，而扩展是通过复制A来运作的，最终得到一个与括号内的参数（reps）维度一致的数组（矩阵）

    #将inX复制为和样本一样多的行数

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)#sum对array求和，如果参数是0，就按列求和，返回一个行向量；如果参数是1，就按行求和，但是也返回一个行向量（从计算的角度来看，是列向量转置之后的）

    distances = sqDistances**0.5#**是python中的幂运算,用在矩阵上的效果的对应位置相乘而不是矩阵乘法中的A*A

    ##现在distances中的每一个元素代表了待求目标点和每一个样本点之间的距离

    sortedDistIndicies = distances.argsort() #argsort是numpy的方法，从小到大排序（不加参数的话），返回的是index而不是排序后的元素本身

    classCount={}#这是个字典类型

    (labels)

    for i in range(k):

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1#给这个类型加一

    sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)#选出k中数量最大的label

    return sortedClassCount[0][0]##输出最大的label

def createDataSet():

    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

    #[[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]是list类型的二维向量，转成array可以方便进行向量化计算（array是numpy封装的)

    labels = ['A','A','B','B']

    return group, labels

group,labels=createDataSet()

classify0([0,0],group,labels,3)

KNN-机器学习算法的更多相关文章

机器学习---K最近邻(k-Nearest Neighbour，KNN)分类算法
K最近邻(k-Nearest Neighbour,KNN)分类算法 1.K最近邻(k-Nearest Neighbour,KNN) K最近邻(k-Nearest Neighbour,KNN)分类算法, ...
机器学习之利用KNN近邻算法预测数据
前半部分是简介, 后半部分是案例 KNN近邻算法: 简单说就是采用测量不同特征值之间的距离方法进行分类(k-Nearest Neighbor,KNN) 优点: 精度高.对异常值不敏感.无数据输入假定 ...
机器学习（一）——K-近邻（KNN）算法
最近在看<机器学习实战>这本书,因为自己本身很想深入的了解机器学习算法,加之想学python,就在朋友的推荐之下选择了这本书进行学习. 一 . K-近邻算法(KNN)概述最简单最初级的 ...
Python机器学习算法 — KNN分类
KNN简介 K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.KNN分类算法属于监督学习. 最简单最初级的分类器是将全部的训练 ...
机器学习--K近邻（KNN）算法的原理及优缺点
一.KNN算法原理 K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法. 它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对 ...
scikit-learn中的机器学习算法封装——kNN
接前面 https://www.cnblogs.com/Liuyt-61/p/11738399.html 回过头来看这张图,什么是机器学习?就是将训练数据集喂给机器学习算法,在上面kNN算法中就是将特 ...
机器学习算法-K-NN的学习 /ML 算法（K-NEAREST NEIGHBORS ALGORITHM TUTORIAL）
1为什么我们需要KNN 现在为止,我们都知道机器学习模型可以做出预测通过学习以往可以获得的数据. 因为KNN基于特征相似性,所以我们可以使用KNN分类器做分类. 2KNN是什么? KNN K-近邻,是 ...
机器学习算法·KNN
机器学习算法应用·KNN算法一.问题描述验证码目前在互联网上非常常见,从学校的教务系统到12306购票系统,充当着防火墙的功能.但是随着OCR技术的发展,验证码暴露出的安全问题越来越严峻.目前对验 ...
机器学习算法(KNN)
KNN简介 KNN(k-NearestNeighbor)算法的思想总结一下:就是在数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K ...
机器学习算法之——KNN、Kmeans
一.Kmeans算法 kmeans算法又名k均值算法.其算法思想大致为:先从样本集中随机选取 kk 个样本作为簇中心,并计算所有样本与这 kk 个“簇中心”的距离,对于每一个样本,将其划分到与其距离最 ...

随机推荐

「CQOI 2014」危桥
题目链接戳我 \(Solution\) 首先往返\(n\)次等价于走\(2n\)次. 将 \(a_n*2,b_n*2\); 那么我们直接按原图构图,然后: \((S,a_1,a_n),(S,b_1, ...
LinkedList类源码浅析(二)
1.上一节介绍了LinkedList的几个基本的方法,其他方法类似,就不一一介绍: 现在再来看一个删除的方法:remove(Object o) remove方法接受一个Object参数,这里需要对参数 ...
第三天·HTML常用标签
一·<h1>-<h6> 单词缩写:headHTML的<h1>-<h6>代表了六个等级的标题,其中<h1>标签比较重要,因此要尽量少用.一般& ...
springboot 使用redis
安装redis教程:https://www.cnblogs.com/nongzihong/p/10190489.html 依赖:  <dependency ...
使用oracle删除表中重复记录
(1)使用用rowid方法查询重复数据:select * from person a where rowid !=(select max(rowid) from person b where a.c ...
C++入门经典-例6.14-通过指针连接两个字符数组
1:字符数组是一个一维数组,引用字符数组的指针为字符指针,字符指针就是指向字符型内存空间的指针变量. char *p; char *string="www.mingri.book" ...
java多线程系列1：Sychronized关键字
1.Synchronized使用范围: 同步普通方法:锁的是当前对象 //包含synchronized修饰的同步方法的类addCountClass public class addCountClass ...
全面解读php-php会话控制技术
一.PHP会话控制技术 1.为什么要使用会话控制技术? 因为http协议是无状态协议,所以同一个用户在请求同一个页面两次的时候,http协议不会认为这两次请求都来自于同一个用户,会把它们当做是两次请求 ...
SpringMVC restful风格下载文件，文件后缀被截掉
原文:https://blog.csdn.net/wisdomhealth/article/details/78400421 @RequestMapping("/file/{filename ...
如何在Ubuntu / CentOS 6.x上安装Bugzilla 4.4
这里,我们将展示如何在一台Ubuntu 14.04或CentOS 6.5/7上安装Bugzilla.Bugzilla是一款基于web,用来记录跟踪缺陷数据库的bug跟踪软件,它同时是一款免费及开源软件 ...

KNN-机器学习算法

KNN-机器学习算法的更多相关文章

随机推荐

热门专题