1.算法简介

kNN的思想很简单：计算待分类的数据点与训练集所有样本点，取距离最近的k个样本；统计这k个样本的类别数量；根据多数表决方案，取数量最多的那一类作为待测样本的类别。距离度量可采用Euclidean distance，Manhattan distance和cosine。

用Iris数据集作为测试，代码参考[1]

import numpy as np

import scipy.spatial.distance as ssd  

def read_data(fn):

    """ read dataset and separate into characteristics data

        and label data

    """  

    # read dataset file

    with open(fn) as f:

        raw_data = np.loadtxt(f, delimiter= ',', dtype="float",

            skiprows=1, usecols=None)  

    #initialize

    charac=[]; label=[]

    #obtain input characrisitics and label

    for row in raw_data:

        charac.append(row[:-1])

        label.append(int (row[-1]))

    return np.array(charac),np.array(label)  

def knn(k,dtrain,dtest,dtr_label):

    """k-nearest neighbors algorithm"""  

    pred_label=[]

    #for each instance in test dataset, calculate

    #distance in respect to train dataset

    for di in dtest:

        distances=[]

        for ij,dj in enumerate(dtrain):

            distances.append((ssd.euclidean(di,dj),ij))  

        #sort the distances to get k-neighbors

        k_nn=sorted(distances)[:k]  

        #classify accroding to the maxmium label

        dlabel=[]

        for dis,idtr in k_nn:

            dlabel.append(dtr_label[idtr])

        pred_label.append(np.argmax(np.bincount(dlabel)))  

    return pred_label  

def evaluate(result):

    """evaluate the predicited label"""  

    eval_result=np.zeros(2,int)

    for x in result:

        #pred_label==dte_label

        if x==0:

            eval_result[0]+=1

        #pred_label!=dte_label

        else:

            eval_result[1]+=1  

    return eval_result  

dtrain,dtr_label=read_data('iris-train.csv')

dtest,dte_label=read_data('iris-test.csv')  

K=[1,3,7,11]  

print "knn classification result for iris data set:\n"

print "k    | number of correct/wrong classified test records"  

for k in K:

    pred_label=knn(k,dtrain,dtest,dtr_label)

    eval_result=evaluate(pred_label-dte_label)  

    #print the evaluted result into screen

    print k,"   | ", eval_result[0], "/", eval_result[1]  

print

2. Referrence

[1] M. Saad Nurul Ishlah, Python: Simple K Nearest Neighbours Classifier.

【数据挖掘】分类之kNN（转载）的更多相关文章

【十大经典数据挖掘算法】kNN
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 引言顶级数据挖掘会议ICDM ...
分类算法-----KNN
摘要: 所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用她最接近的k个邻居来代表.kNN算法的核心思想是如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于 ...
数学建模：2.监督学习--分类分析- KNN最邻近分类算法
1.分类分析分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类的分析方法. 分类问题的应用场景:分 ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
数据挖掘之分类算法---knn算法(有matlab样例)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法. 注意,不是聚类算法.所以这样的分类算法必定包含了训练过程. 然而和一般性的分类算法不同,knn算法是一种 ...
数据挖掘之分类算法---knn算法(有matlab例子)
knn算法(k-Nearest Neighbor algorithm).是一种经典的分类算法.注意,不是聚类算法.所以这种分类算法必然包括了训练过程. 然而和一般性的分类算法不同,knn算法是一种懒 ...
机器学习第五篇：分类（kNN）
K最近邻(kNN,k-NearestNeighbor)算法是一种监督式的分类方法,但是,它并不存在单独的训练过程,在分类方法中属于惰性学习法,也就是说,当给定一个训练数据集时,惰性学习法简单地存储或稍 ...
数据挖掘分类算法之决策树（zz）
决策树(Decision tree) 决策树是以实例为基础的归纳学习算法. 它从一组无次序.无规则的元组中推理出决策树表示形式的分类规则.它采用自顶向下的递归方式,在决策树的内部结点进行属性值 ...
28.分类算法---KNN
1.工作原理: 存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类对应的关系.输入没有标签的数据后,将新数据中的每个特征与样本集中数据对应的特 ...

随机推荐

树链剖分【P3833】 [SHOI2012]魔法树
Description Harry Potter 新学了一种魔法:可以让改变树上的果子个数.满心欢喜的他找到了一个巨大的果树,来试验他的新法术. 这棵果树共有N个节点,其中节点0是根节点,每个节点u的 ...
Could not automatically select an Xcode project
当把CocoaPods生成的workspace移动到上层目录时,需要改下Pods.xcconfig和工程里的一些设置,就通常没什么难度. 当遇到这个问题时: Could not automatical ...
Android Developer -- Bluetooth篇开发实例之二连接设备
连接设备 In order to create a connection between your application on two devices, you must implement bot ...
u-boot-2010.3移植到Tiny6410问题总结
问题1: u-boot-2010.3中nand_spl文件夹的作用:实现从Nandflash启动在编译是会建立几个链接文件,用这几个链接文件生成u-boot-spl-16k.bin nand_spl/ ...
Ubuntu 16.04下用Wine运行的软件出现方块的解决思路（应该是兼容现在所有平台的Wine碰到这个的问题）
说明: 1.我使用的是深度的deepin-wine,版本为1.9.0,参考:http://www.cnblogs.com/EasonJim/p/8016674.html 2.这种问题没有一定的解决的方 ...
Ubuntu 16.04将ISO镜像写入U盘
sudo fdisk -l 查看U盘的路径,如/dev/sdc为U盘的位置,注意位置!注意这个不是挂载的位置. 然后准备好ISO文件,如放在/home/jim/abc.iso 然后输入 sudo dd ...
sql server 高可用故障转移(1)
原文:sql server 高可用故障转移(1) 群集准备工作个人电脑内存12G,处理器 AMD A6-3650CPU主频2.6GHz 虚拟机 VMware Workstation 12 数据库 ...
使用canvas制作的移动端color picker
使用canvas制作的移动端color picker 项目演示地址(用手机或者手机模式打开) 我在另一个中demo,需要用到color picker,但是找不到我需要的移动端color picker, ...
模拟Spring中的getBean方法
一直知道Spring是运用反射技术的,但具体怎么用呢?今天就模拟下getBean方法. 步骤: 1.用Dom4j解析xml配置文件,取出我们需要的信息 2.遍历Bean节点,根据每个Bean节点的cl ...
今天在CSDN看懂这个帖子，也是我的困惑，记录一下（过了三十的码农，你选择的是哪个，说出你的想法）
http://bbs.csdn.net/topics/390944177 1.继续开发生涯,做资深码农,从senior.team lead.tech lead到principal,如果你无欲无求,可以 ...

【数据挖掘】分类之kNN（转载）

1.算法简介

2. Referrence

【数据挖掘】分类之kNN（转载）的更多相关文章

随机推荐

热门专题