KNN算法--python实现

邻近算法

或者说K最近邻(kNN，k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是k个最近的邻居的意思，说的是每个样本都可以用它最接近的k个邻居来代表。

关于K最近邻算法，非常好的一篇文章：KNN算法理解；另外一篇文章也值得参考：KNN最近邻Python实现

行业应用：客户流失预测、欺诈侦测等（更适合于稀有事件的分类问题）

写在前面的：Python2.7

数据iris: http://pan.baidu.com/s/1bHuQ0A 测试数据集: iris的第1行数据；训练数据: iris的2到150行数据

 #coding:utf-8

 import pandas as pd

 import numpy as np

 class KNNa(object):

     #获取训练数据集

     def getTrainData(self):

         dataSet = pd.read_csv('C:\pythonwork\practice_data\iris.csv', header=None)

         dataSetNP = np.array(dataSet[1:150])

         trainData = dataSetNP[:,0:dataSetNP.shape[1]-1]   #获得训练数据

         labels = dataSetNP[:,dataSetNP.shape[1]-1]    #获得训练数据类别

         return trainData,labels

     #得到测试数据的类别

     def classify(self, testData, trainData, labels, k):

         #计算测试数据与训练数据之间的欧式距离

         dist = []

         for i in range(len(trainData)):

             td = trainData[i,:]   #训练数据

             dist.append(np.linalg.norm(testData - td))   #欧式距离

         dist_collection = np.array(dist)   #获得所有的欧氏距离，并转换为array类型

         dist_index = dist_collection.argsort()[0:k]   #按升序排列，获得前k个下标

         k_labels = labels[dist_index]   #获得对应下标的类别

         #计算k个数据中，类别的数目

         k_labels = list(k_labels)   #转换为list类型

         labels_count = {}

         for i in k_labels:

             labels_count[i] = k_labels.count(i)  #计算每个类别出现的次数

         testData_label = max(labels_count, key=labels_count.get)   #次数出现最多的类别

         return testData_label

 if __name__ == '__main__':

     kn = KNNa()

     trainData,labels = kn.getTrainData()   #获得训练数据集,iris从第2行到第150行的149条数据

     testData = np.array([5.1, 3.5, 1.4, 0.2])   #取iris中的数据的第1行

     k = 10   #最近邻数据数目

     testData_label = kn.classify(testData,trainData,labels,k)    #获得测试数据的分类类别

     print '测试数据的类别：',testData_label

理论：

KNN算法--python实现的更多相关文章

kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
KNN算法python实现
1 KNN 算法 knn,k-NearestNeighbor,即寻找与点最近的k个点. 2 KNN numpy实现效果: k=1 k=2 3 numpy 广播,聚合操作. 这里求距离函数,求某点和集 ...
KNN算法——python实现
二.Python实现对于机器学习而已,Python需要额外安装三件宝,分别是Numpy,scipy和Matplotlib.前两者用于数值计算,后者用于画图.安装很简单,直接到各自的官网下载回来安装即 ...
KNN算法python实现小样例
K近邻算法概述优点:精度高.对异常数据不敏感.无数据输入假定缺点:计算复杂度高.空间复杂度高适用数据范围:数值型和标称型工作原理:存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...
机器学习之KNN算法
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属 ...
[Python] 应用kNN算法预测豆瓣电影用户的性别
应用kNN算法预测豆瓣电影用户的性别摘要本文认为不同性别的人偏好的电影类型会有所不同,因此进行了此实验.利用较为活跃的274位豆瓣用户最近观看的100部电影,对其类型进行统计,以得到的37种电影类 ...
k-近邻(KNN)算法改进约会网站的配对效果[Python]
使用Python实现k-近邻算法的一般流程为: 1.收集数据:提供文本文件 2.准备数据:使用Python解析文本文件,预处理 3.分析数据:可视化处理 4.训练算法:此步骤不适用与k——近邻算法 5 ...
kNN算法基本原理与Python代码实践
kNN是一种常见的监督学习方法.工作机制简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k各训练样本,然后基于这k个“邻居”的信息来进行预测,通常,在分类任务中可使用“投票法”,即选择这k ...

随机推荐

fedora安装QQ
只看重利益的TC根本没想到要维护和更新linux版本的QQ,所幸fedora linux的中文社区 (https://repo.fdzh.org) 对大家比较照顾,还是针对fedora做了wine Q ...
DDD领域驱动之干活（四）补充篇！
距离上一篇DDD系列完结已经过了很长一段时间,项目也搁置了一段时间,想想还是继续完善下去. DDD领域驱动之干货(三)完结篇! 上一篇说到了如何实现uow配合Repository在autofac和au ...
C语言精要总结-指针系列（二）
此文为指针系列第二篇: C语言精要总结-指针系列(一) C语言精要总结-指针系列(二) 指针运算前面提到过指针的解引用运算,除此之外,指针还能进行部分算数运算.关系运算指针能进行的有意义的算术运算 ...
[leetcode-438-Find All Anagrams in a String]
Given a string s and a non-empty string p, find all the start indices of p's anagrams in s.Strings c ...
linq中日期格式转换或者比较，程序报错说不支持方法的解决办法
public void TestMethod1(){using (var _context = new hotelEntities()){var rq = DateTime.Now.Date;var ...
MySQL实例
建表实例: CREATE TABLE command_content( ID ) PRIMARY KEY NOT NULL AUTO_INCREMENT, CONTENT ), COMMAND_ID ...
Android各种Manager
一.PowerManager 主要是用来控制电源状态,设置屏幕状态,和电池待机状态 PowerManager pm = ((PowerManager)getSystemService(POWER_S ...
处理input标签的border-radius
给input设置border-radius效果时一定要先设置border属性,否则会出现左上部有阴影的效果.
CSS三种引入方式：内联、页级、外联
1.内联CSS 内联CSS也可称为行内CSS或者行级CSS,它直接在标签内部引入,显著的优点是十分的便捷.高效:但是同时也造成了不能够重用样式的缺点,如果代码行数到达一定长度不建议采用.通常内联CSS ...
数据结构3——浅谈zkw线段树
线段树是所有数据结构中,最常用的之一.线段树的功能多样,既可以代替树状数组完成"区间和"查询,也可以完成一些所谓"动态RMQ"(可修改的区间最值问题)的操作.其 ...

KNN算法--python实现

KNN算法--python实现的更多相关文章

随机推荐

热门专题