用python实现k近邻算法

　　用python写程序真的好舒服。

　　code:

 import numpy as np

 def read_data(filename):

     '''读取文本数据，格式：特征1    特征2 ……  类别'''

     f=open(filename,'rt')

     row_list=f.readlines()  #以每行作为列表

     f.close()

     data_array=[]

     labels_vector=[]

     while True:

         if not row_list:

             break

         row=row_list.pop(0).strip().split('\t') #去除换行号，分割制表符

         temp_data_row=[float(a) for a in row[:-1]]  #将字符型转换为浮点型

         data_array.append(temp_data_row) #取特征值

         labels_vector.append(row[-1])   #取最后一个作为类别标签

     return np.array(data_array),np.array(labels_vector)

 def classify(test_data,dataset,labels,k):

     '''分类'''

     diff_dis_array=test_data-dataset    #使用numpy的broadcasting

     dis_array=(np.add.reduce(diff_dis_array**2,axis=-1))**0.5   #求距离

     dis_array_index=np.argsort(dis_array)   #升序距离的索引

     class_count={}

     for i in range(k):

         temp_label=labels[dis_array_index[i]]

         class_count[temp_label]=class_count.get(temp_label,0)+1 #获取类别及其次数的字典

     sorted_class_count=sorted(class_count.items(), key=lambda item:item[1],reverse=True)    #字典的值按降序排列

     return  sorted_class_count[0][0]    #返回元组列表的[0][0]

 def normalize(dataset):

     '''数据归一化'''

     return (dataset-dataset.min(0))/(dataset.max(0)-dataset.min(0))

 k=3 #近邻数

 test_data=[0,0] #待分类数据

 data,labels=read_data('testdata.txt')

 print('数据集：\n',data)

 print('标签集：\n',labels)

 result=classify(test_data,normalize(data),labels,k)

 print('分类结果：',result)

　　一个示例的数据集testdata.txt（以制表符隔开）：

　　1.0 1.1 A
　　1.0 1.0 A
　　0 0 B
　　0 0.1 B

用python实现k近邻算法的更多相关文章

机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
用Python从零开始实现K近邻算法
KNN算法的定义: KNN通过测量不同样本的特征值之间的距离进行分类.它的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别.K通 ...
机器学习经典算法具体解释及Python实现--K近邻(KNN)算法
(一)KNN依旧是一种监督学习算法 KNN(K Nearest Neighbors,K近邻 )算法是机器学习全部算法中理论最简单.最好理解的.KNN是一种基于实例的学习,通过计算新数据与训练数据特征值 ...
python 机器学习（二）分类算法-k近邻算法
一.什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 来源: KNN算法最早是由Cover和Hart提 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
机器学习实战笔记(Python实现)-01-K近邻算法(KNN)
--------------------------------------------------------------------------------------- 本系列文章为<机器 ...
机器学习之K近邻算法（KNN）
机器学习之K近邻算法(KNN) 标签: python 算法 KNN 机械学习苛求真理的欲望让我想要了解算法的本质,于是我开始了机械学习的算法之旅 from numpy import * import ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
机器学习——KNN算法（k近邻算法）
一 KNN算法 1. KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分 ...

随机推荐

3D Touch的简单使用
6s发布以后新增了一个3D touch功能,我个人觉得这个功能点在某些时候还是挺方便的,比如说微信的扫码功能. 直接长按图标就可以进入这个功能里面,不用再打开app.一层层查找了,比较方便. 其实这个 ...
posix thread内存可视性
线程间的内存可视性当线程调用怕thread——create时, 它所能看到的内存值也是它建立的线程能够看到的.任何在调用怕thread_create之后写入的数据,可能不会被建立的线程看到,即使写操 ...
详细讲解Android对自己的应用代码进行混淆加密防止反编译
1.查看项目中有没有proguard.cfg. 2.如果没有那就看看这个文件中写的什么吧,看完后将他复制到你的项目中. -optimizationpasses 5 -dontusemixedcasec ...
HashMap、HashSet源代码分析其 Hash 存储机制
集合和引用就像引用类型的数组一样,当我们把 Java 对象放入数组之时,并不是真正的把 Java 对象放入数组中,只是把对象的引用放入数组中,每个数组元素都是一个引用变量. 实际上,HashSet ...
跨站脚本攻击（XSS）
跨站脚本攻击(XSS) XSS发生在目标网站中目标用户的浏览器层面上,当用户浏览器渲染整个HTML文档的过程中就出现了不被预期的脚本执行. 跨站脚本的重点不是在“跨站”上,而应该在“脚本上” 简单例子 ...
【转】Myeclipse8.5 反编译插件 jad 安装
[转]Myeclipse8.5 反编译插件 jad 安装准备工作下载jad.exe文件下载window版本:http://varaneckas.com/jad/ 下载jadeclipse插件:ht ...
java.util.concurrent 多线程框架
http://daoger.iteye.com/blog/142485 JDK5中的一个亮点就是将Doug Lea的并发库引入到Java标准库中.Doug Lea确实是一个牛人,能教书,能出书,能编码 ...
JDOM方法实现对XML文件的解析
首先要下载JDOM.jar包,下载地址:http://download.csdn.net/detail/ww6055/8880371 下载到JDOM.jar包之后导入到工程中去. 实例程序: book ...
Mysql 中 like 查询存在反斜杠的解决办法
如要查询 %\ABC\% 应该这样写, 写成四个反斜杠 like '%\\\\ABC\\\\%'
UITableViewCell和UITableViewHeaderFooterView的重用
不管是系统自带的还是自定义的UITableViewCell,对于它们合理的使用都是决定一个UITableView的性能的关键因素.应该确保以下三条: UITableViewCell的重复利用:首先对象 ...

用python实现k近邻算法

用python实现k近邻算法的更多相关文章

随机推荐

热门专题