KNN算法python实现小样例

K近邻算法概述
优点：精度高、对异常数据不敏感、无数据输入假定
缺点：计算复杂度高、空间复杂度高
适用数据范围：数值型和标称型
工作原理：
存在一个样本数据集合，也称作训练样本集，并且样本集中每个数据都存在标签，
即我们知道样本集中每一数据与所属分类的对应关系。输入没有标签的新数据后，
将新数据的每个特征与样本集中数据对应的特征进行比较，然后算法提取样本集
中特征最相似数据（最近邻）的分类标签。一般来说，我们只选择样本数据集中
前K各最相似的数据，这就是k——近邻算法k的出处，通常k是不大于20的整数。最
后，选择k个最相似数据中出现次数最多的分类，作为新数据的分类
K-近邻算法的一般流程
（1）收集数据：可以使用任何方法
（2）准备数据：距离计算所需要的数值，最好是结构化的数据格式
（3）分析数据：可以使用任何方法
（4）训练算法：此步骤不适用于k—近邻算法
（5）测试算法：计算错误率
（6）使用算法：首先需要输入样本数据和结构化的输出结果，然后运行k-近邻算法
判定输入数据分别属于哪个分类，最后应用对计算出的分类执行后续的处理

 from numpy import *

 import operator

 from os import listdir

 def createDataSet():

     group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

     labels=['A','A','B','B']

     return group,labels

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]

     #距离计算

     diffMat = tile(inX, (dataSetSize,1)) - dataSet

     sqDiffMat = diffMat**2

     sqDistances = sqDiffMat.sum(axis=1)

     distances = sqDistances**0.5

     # 按降序排列

     sortedDistIndicies = distances.argsort()

     classCount={}

     #选择距离最小的k个点

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

         #排序

     sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)

     return sortedClassCount

 group,labels=createDataSet()

 A=classify0([0,0],group,labels,3)

 print(A)

K-近邻算法是分类数据最简单最有效的算法。K-近邻算法是基于实例的学习，使用算法时我们必须有接近实际数据的训练样本数据。k-近邻算法必须保存全部数据集，如果训练数据集很大，必须使用大量的存储空间。此外，由于必须对数据集中的每个数据计算距离值，实际使用时可能非常耗时。

K-近邻算法的另一个缺陷是它无法给出任何数据的基础结构信息，因此我们也无法知晓平均实例样本和典型实例样本具有什么特征。

KNN算法python实现小样例的更多相关文章

KNN算法--python实现
邻近算法或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...
数据挖掘之分类算法---knn算法(有matlab样例)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法. 注意,不是聚类算法.所以这样的分类算法必定包含了训练过程. 然而和一般性的分类算法不同,knn算法是一种 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
KNN算法python实现
1 KNN 算法 knn,k-NearestNeighbor,即寻找与点最近的k个点. 2 KNN numpy实现效果: k=1 k=2 3 numpy 广播,聚合操作. 这里求距离函数,求某点和集 ...
KNN算法——python实现
二.Python实现对于机器学习而已,Python需要额外安装三件宝,分别是Numpy,scipy和Matplotlib.前两者用于数值计算,后者用于画图.安装很简单,直接到各自的官网下载回来安装即 ...
决策树python实现小样例
我们经常使用决策树处理分类问题,近年来的调查表明决策树也是经常使用的数据挖掘算法K-NN可以完成多分类任务,但是它最大的缺点是无法给出数据的内在含义,决策树的主要优势在于数据形式非常容易理解决策树的优 ...
adaboost python实现小样例
元算法是对其他算法进行组合的一种方式.单层决策树实际上是一个单节点的决策树.adaboost优点:泛化错误率低,易编码,可以应用在大部分分类器上,无参数调整缺点:对离群点敏感适用数据类型:数值型和标称 ...
Logistic回归python实现小样例
假设现在有一些点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归.利用Logistic回归进行分类的主要思想是:根据现有数据对分类边界线建立回归公式,依次进行分类.Lo ...
机器学习之KNN算法
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属 ...

随机推荐

ajax实现异步请求的过程
var xhr; xhr = new XMLHttpRequest(); //创建一个异步对象 xhr.open("Get", "test.a ...
vuejs 实现富文本
<div v-html="ritchtext" style="font-size:32px;" v-if="!platform" &g ...
【Java/Android性能优 7】Android公共库——图片缓存网络缓存下拉及底部更多ListView 公共类
本文转自:http://www.trinea.cn/android/android-common-lib/ 介绍总结的一些android公共库,包含缓存(图片缓存.预取缓存.网络缓存).公共View( ...
分布式缓存memcached介绍，win7环境安装，常用命令set,get,delete,stats， java访问
一.memcached是什么? 二.memcached不互相通信的分布式三.安装步骤四.本文介绍的命令主要包括: 存入命令(Storage commands) 取回命令(Retrieval com ...
Java static修饰符小记
首先我们明确一点:java是一个纯面向对象的编程语言,它的每一个文件都视为一个类,当我们创建一个对象的时候,就是在调用一个文件,那么这个时候,这个文件(类)里的一些东西,它是需要通过对象来使用或访问, ...
C#环形缓冲区（队列）完全实现
公司项目中经常设计到串口通信,TCP通信,而且大多都是实时的大数据的传输,然后大家都知道协议通讯肯定涉及到什么,封包.拆包.粘包.校验--什么鬼的概念一大堆,说简单点儿就是要一个高效率可复用的缓存区. ...
兼容ie8的圆形进度条
主要是利用html5中的svg 画出圆形进度条并且兼容ie8 https://github.com/GainLoss/Circular-progress-bar
关于调用百度地图api在自己写的网页中实现和解决在https中正常显示
百度地图开发者:http://lbsyun.baidu.com/index.php?title=jspopular 我们打开百度地图开发者网站,注册一个百度账号,然后打开控制台,开始创建应用:(如果你 ...
java核心技术要点笔记1
第1章 1.java特性简单性,java语法是一个C++语法的纯净版本. 面向对象,java将重点放在数据和对象的接口上.java与C++的主要不同点在于多继承,在java中实现多继承的机制是采用接 ...
java Vamei快速教程22 内存管理和垃圾回收
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明.谢谢! 整个教程中已经不时的出现一些内存管理和垃圾回收的相关知识.这里进行一个小小的总结. ...

KNN算法python实现小样例

KNN算法python实现小样例的更多相关文章

随机推荐

热门专题