分类 kNN

#coding=utf-8

from numpy import *

import operator

from os import listdir

import matplotlib

import matplotlib.pyplot as plt

#从文件当中读取内容，保存到矩阵当中

#因为文件当中有两部分内容，一部分是三个原因，另一部分是结果

def file2matrix(filename):

    fr=open(filename)

    numberOfLines=len(fr.readlines())#计算文件的行数

    returnMat=zeros((numberOfLines,3))#生成一个零矩阵

    classLabelVector=[]#生成一个序列，主要操作是切片

    fr=open(filename)

    index=0

    for line in fr.readlines():

        line=line.strip()#读取一行的内容

        listFromLine=line.split('\t')#将line分割成3个列

        returnMat[index,:]=listFromLine[0:3]#取前三个到切片放到第index行

        classLabelVector.append(int(listFromLine[-1]))#取最后一个追加到classLabelVector

        index+=1#index自加

    return returnMat,classLabelVector

#归一化数据

def autoNorm(dataSet):

    #获取每一列的最小值,也就是说结果是一个3维的数组，数组的元素

    #是每一列到最小值

    #如果0改为1，那么获取到的是每一行的最小值，也就是一个数组

    minVals=dataSet.min(0)

    maxVals=dataSet.max(0)#获取每一列的最大值

    ranges=maxVals-minVals

    normDataSet=zeros(shape(dataSet))#生成一个零矩阵

    #shape,显示一个矩阵的行列，如果没有[0],那么输出

    #（1000，3）也就是1000行，3列，

    # [0]表示第一个元素（行），[1]表示第二个元素（列）

    m=dataSet.shape[0]#获取行的行的数然后复制给m

    #tile是一个复制函数，将minVals复制

    #行的方向上复制m次你，列的方向上复制1次

    normDataSet=dataSet-tile(minVals,(m,1))

    normDataSet=normDataSet/tile(ranges,(m,1))

    return normDataSet,ranges,minVals

#绘图

def draw():

    fig=plt.figure()

    ax=fig.add_subplot(111)

    datingDataMat,datingLabels= file2matrix('datingTestSet.txt')

    ax.scatter(datingDataMat[:,0],datingDataMat[:,1],

           15.0*array(datingLabels),15.0*array(datingLabels))

    plt.show()

#分类

def classify0(inX, dataSet, labels, k):

    #获取到dataSet的行数量

    dataSetSize = dataSet.shape[0]

    diffMat = tile(inX, (dataSetSize,1)) - dataSet

    sqDiffMat = diffMat**2

    sqDistances = sqDiffMat.sum(axis=1)

    distances = sqDistances**0.5

    #排序，但是矩阵并不修改，只是获取到修改后的下标

    sortedDistIndicies = distances.argsort()

    classCount={}

    for i in range(k):

        #获取到分类

        voteIlabel = labels[sortedDistIndicies[i]]

        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

    sortedClassCount = sorted(classCount.iteritems(), key=operator.itemgetter(1), reverse=True)

    return sortedClassCount[0][0]

#识别过程

def datingClassTest():

    hoRatio=0.10

    #从文件当中读取txt文件，转化为矩阵

    datingDataMat,datingLabels=file2matrix('datingTestSet.txt')

    normMat,ranges,minVals=autoNorm(datingDataMat)

    m=normMat.shape[0]

    numTestVecs=int(m*hoRatio)

    errorCount=0.0

    #从1到100

    for i in range(numTestVecs):

        #第一个参数是待分类到矩阵

        #normMat[i，:]代表一个行，也就是矩阵的第i行的一位矩阵

        #normMat[numTestVecs:m,:]使用从100到1000行的矩阵去分类

        #datingLabels[numTestVecs:m]使用从100到1000行的结果去分类

        #3代表kNN当中的k

        classfierResult=classify0(normMat[i,:],normMat[numTestVecs:m,:],

                                    datingLabels[numTestVecs:m],3)

        print "机器人认为的结果是%d,正确的答案是：%d"%(classfierResult,datingLabels[i])

        if(classfierResult!=datingLabels[i]):

            errorCount+=1.0

    print "错误律是：%f" %(errorCount/float(numTestVecs))

datingClassTest()

"""

最初错误原因

dataSet=file2matrix('datingTestSet.txt')

print dataSet#有两个返回值，会把后一个返回值追加到dataSet上面，构成元祖

print "*****************************"

datingDataMat,datingLabels=file2matrix('datingTestSet.txt')

print datingDataMat

print "*****************************"

print datingLabels

"""

分类 kNN的更多相关文章

机器学习算法 - 最近邻规则分类KNN
上节介绍了机器学习的决策树算法,它属于分类算法,本节我们介绍机器学习的另外一种分类算法:最近邻规则分类KNN,书名为k-近邻算法. 它的工作原理是:将预测的目标数据分别跟样本进行比较,得到一组距离的数 ...
最邻近规则分类KNN算法
例子: 求未知电影属于什么类型: 算法介绍: 步骤: 为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K 计算未知实例与所有已知实例的距离选择最近K个已 ...
机器学习--最邻近规则分类KNN算法
理论学习: 3. 算法详述 3.1 步骤: 为了判断未知实例的类别,以所有已知类别的实例作为参照选择参数K 计算未知实例与所有已知实例的距离选 ...
2019-08-01【机器学习】有监督学习之分类 KNN，决策树，Nbayes算法实例（人体运动状态信息评级）
样本: 使用的算法: 代码: import numpy as np import pandas as pd import datetime from sklearn.impute import Sim ...
python实现简单分类knn算法
原理:计算当前点(无label,一般为测试集)和其他每个点(有label,一般为训练集)的距离并升序排序,选取k个最小距离的点,根据这k个点对应的类别进行投票,票数最多的类别的即为该点所对应的类别.代 ...
JAVA实现KNN分类
转载请注明出处:http://blog.csdn.net/xiaojimanman/article/details/51064307 http://www.llwjy.com/blogdetail/f ...
室内定位系列（三）——位置指纹法的实现（KNN）
位置指纹法中最常用的算法是k最近邻(kNN):选取与当前RSS最邻近的k个指纹的位置估计当前位置,简单直观有效.本文介绍kNN用于定位的基本原理与具体实现(matlab.python). 基本原理位 ...
人体姿态的相似性评价基于OpenCV实现最近邻分类KNN K-Nearest Neighbors
最近学习了人体姿态的相似性评价.需要用到KNN来统计与当前姿态相似的k个姿态信息. 假设我们已经有了矩阵W和给定的测试样本姿态Xi,需要寻找与Xi相似的几个姿态,来估计当前Xi的姿态标签. //knn ...
视觉机器学习------KNN学习
KNN(K-Nearest Neighbor algorithm, K最近邻方法)是一种统计分类器,属于惰性学习. 基本思想:输入没有标签即未经分类的新数据,首先提取新数据的特征并与测试集中的每一个数 ...

随机推荐

Rotate bitmap by real angle
tl;dr; Use GDI+ SetWorldTransform With WinAPI's SetWorldTransform you can transform the space of dev ...
我常用的delphi 第三方控件
转载:http://www.cnblogs.com/xalion/archive/2012/01/09/2317246.html 有网友问我常用的控件及功能.我先大概整理一下,以后会在文章里面碰到时再 ...
Python 命令详解
1. 新建一个 django-project django-admin.py startproject project-name 一个 project 一般为一个项目 2. 新建 app python ...
Floyd算法及其运用
#include<stdio.h> ][]; ][]; void floyd(int n) { ;k<=n;k++) { ;i<=n;i++) { ;j<=n;j++) ...
linux使用技巧
<1>vim /etc/hosts.deny sshd : 192.168.0.25 :deny //ssh拒绝某ip或网段访问.(原理详见鸟哥基础版18章P56 ...
【架构】浅谈web网站架构演变过程
浅谈web网站架构演变过程前言我们以javaweb为例,来搭建一个简单的电商系统,看看这个系统可以如何一步步演变. 该系统具备的功能: 用户模块:用户注册和管理商品模块:商品展示和管 ...
查看Eclipse中的jar包的源代码：jd-gui.exe
前面搞了很久的使用JAD,各种下载插件,最后配置好了,还是不能用,不知道怎么回事, 想起一起用过的jd-gui.exe这个工具,是各种强大啊!!! 只需要把jar包直接扔进去就可以了,非常清晰,全部解 ...
ali2015校园招聘笔试大题
[本文链接] http://www.cnblogs.com/hellogiser/p/ali-2015-questions.html 1. 写一个函数,输入一个二叉树,树中每个节点存放了一个整数值,函 ...
windows2003批量添加和导出所有ip
批量添加IP 在cmd命令行下运行: FOR /L %i IN (130,1,190) DO netsh interface ip add address "本地连接" 192.1 ...
决策树之C4.5算法
决策树之C4.5算法一.C4.5算法概述 C4.5算法是最常用的决策树算法,因为它继承了ID3算法的所有优点并对ID3算法进行了改进和补充. 改进有如下几个要点: 用信息增益率来选择属性,克服了ID ...

分类 kNN

分类 kNN的更多相关文章

随机推荐

热门专题