k-近邻算法（kNN）完整代码

 from numpy import *#科学计算包

 from numpy import tile

 from numpy import zeros

 import operator     #运算符模块

 import importlib

 import sys

 importlib.reload(sys)

 def createDataSet():

     group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])

     labels = ['A','A','B','B']

     return group,labels

 def classify0(inX, dataSet, labels, k):

     dataSetSize = dataSet.shape[0]

     #距离计算

     diffMat = tile(inX, (dataSetSize,1)) - dataSet

     sqDiffMat = diffMat**2      #平方

     sqDistances = sqDiffMat.sum(axis=1)     #根号下平方相加

     distances = sqDistances**0.5    #根号

     sortedDistIndicies = distances.argsort()    #排序

     classCount={}

     #选择距离最小的k个点

     for i in range(k):

         voteIlabel = labels[sortedDistIndicies[i]]

         classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1

         #排序，将classCount字典分解为元祖列表，导入itemgeeter方法，按照第二个元素的次序对元祖进行排序

         #此处排序为逆序，即从大到小排序，最后返回发生频率最高的元素标签。

         sortedClassCount = sorted(classCount.items(),key=operator.itemgetter(1),reverse=True)

         return sortedClassCount[0][0]

     # 为预测数据所在分类：kNN.classify0([0,0], group, labels, 3)

 # mat()函数可以将数组(array)转化为矩阵（matrix）

 # randMat = mat(random.rand(4,4))

 # 求逆矩阵：randMat.I

 # 存储逆矩阵：invRandMat = randMat.I

 # 矩阵乘法：randMat*invRandMat

 # 求误差值：myEye = randMat*invRandMat

         #myEye - eye(4)

         #eye(4)创建4*4的单位矩阵

 # 使用createDataSet()函数，创建数据集和标签

 # 创建变量group和labels：group,labels = kNN.createDataSet()

 # labels包含的元素个数 = group矩阵的行数

 # 输入变量名字检验是否正确：group和labels

 #

 #

 # 准备数据：从文本文件中解析数据

 # 在kNN.py中创建名为file2matrix的函数，处理输入格式问题

 # 该函数的输入为文件名字符串，输出为训练样本矩阵和类标签向量

 # 将文本记录到转换Numpy的解析程序

 def file2matrix(filename):

     fr = open(filename)

     arrayOLines = fr.readlines()

     numberOfLines = len(arrayOLines)    #得到文件行数

     returnMat = zeros((numberOfLines,3))    #创建返回的Numpy矩阵

     classLabelVector = []

     index = 0

     for line in arrayOLines:    #解析文件数据列表

         line = line.strip()     #使用line.strip（）截取掉所有的回车字符

         listFromLine = line.split('\t')     #使用tab字符\t将上一步得到的整行数据分割成一个元素列表

         returnMat[index,:] = listFromLine[0:3]      #选取前三个元素，存储到特征矩阵中

         classLabelVector.append(int(listFromLine[-1]))      #-1表示列表中的最后一列元素，存储到向量classLabelVector中

         index += 1

         return returnMat,classLabelVector

 #准备数据：归一化数值

 def autoNorm(dataSet):      #autoNorm()函数可以自动将数字特征值转换为0到1的区间

     minVals = dataSet.min(0)

     maxVals = dataSet.max(0)    #ddataSet.max(0)中的参数0使得函数可以从列中选取最小值

     ranges = maxVals - minVals

     normDataSet = zeros(shape(dataSet))

     m = dataSet.shape[0]

     #newValue = (oldValue-min)/(max-min)，该公式可以将任意取值范围的特征值转换为0到1区间内的值

     #tile()函数将变量内容复制成输入矩阵同样大小的矩阵（具体特征值相除）

     #在numpy库中，矩阵除法需要使用函数linalg.solve(matA,matB)

     normDataSet = dataSet - tile(minVals, (m,1))

     normDataSet = normDataSet/tile(ranges, (m,1))

     return normDataSet, ranges, minVals

 #测试算法：作为完整程序验证分类器

 def datingClassTest():

     hoRatio = 0.10  #设置测试集比重，前10%作为测试集，后90%作为训练集

     datingDataMat,datingLabels = file2matrix('datingTestSet.txt')

     normMat, ranges, minVals = autoNorm(datingDataMat)

     m = normMat.shape[0]    #得到样本数量m

     numTestVecs = int(m*hoRatio)    #得到测试集最后一个样本的位置

     errorCount = 0.0    #初始化定义错误个数为0

     for i in range(numTestVecs):

         #测试集中元素逐一放进分类器测试，k = 3

         classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)

         #输出分类结果与实际label

         print("the classifier came back with: %d, the real answer is: %d"% (classifierResult, datingLabels[i]))

         #若预测结果与实际label不同，则errorCount+1

         if (classifierResult !=datingLabels[i]): errorCount += 1.0

         #输出错误率 = 错误的个数 / 总样本个数

         print("the total error rate is: %f" % (errorCount/float(numTestVecs)))

 #约会网站预测数据

 def classifyPersion():

     resultList = ['not at all','in small doses','in large doses']

     #input()函数允许用户输入文本行命令并返回用户所输入的命令

     percentTats = float(input("percentage of time spent playing video games?"))

     ffMiles = float(input("frequent year?"))

     iceCream = float(input("liters years?"))

     datingDataMat,datingLabels = file2matrix('datingTestSet2.txt')

     normMat, ranges, minVals = autoNorm(datingDataMat)

     inArr = array([ffMiles,percentTats, iceCream])

     classifierResult = classify0((inArr-minVals)/ranges,normMat,datingLabels,3)

     print("you like person:",resultList[classifierResult - 1])

 #准备数据：将图像转换为测试向量

 #img2vector函数，将图像转换为向量：该函数创建1*2014的numpy数组，

 #然后打开给定的文件，循环读出文件的前32行，并将每行的头32个字符值存储在numpy数组中，最后返回数组

 def img2vector(filename):

     returnVect = zeros((1,1024))

     fr = open(filename)

     for i in range(32):

         lineStr = fr.readline()

         for j in range(32):

             returnVect[0,32*i+j] = int(lineStr[j])

             return returnVect

 #测试算法：识别手写数字

 def handwritingClassTest():

     hwLabels = []

     trainingFileList = os.listdir('trainingDigits')

     m = len(trainingFileList)

     trainingMat = zeros((m,1024))

     #文件名下划线_左边的数字是标签

     for i in range(m):

         fileNameStr = trainingFileList[i]

         fileStr = fileNameStr.split(".")[0]

         classNumStr = int(fileStr.split('_')[0])

         hwLabels.append(classNumStr)

         trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr)

     testFileList = os.listdir('trainingDigits')

     errorCount = 0.0

     mTest = len(testFileList)

     for i in range(mTest):

         fileNameStr = testFileList[i]

         fileStr = fileNameStr.split('.')[0]  # take off .txt

         classNumStr = int(fileStr.split('_')[0])

         vectorUnderTest = img2vector('digits/testDigits/%s' % fileNameStr)

         classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 3)

         print("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))

         if (classifierResult != classNumStr): errorCount += 1.0

     print("the total number of errors is: %d" % errorCount)

     print("the total error rate is: %f" % (errorCount / float(mTest)))

k-近邻算法（kNN）完整代码的更多相关文章

k近邻算法(KNN)
k近邻算法(KNN) 定义:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. from sklearn.model_selection ...
机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
一看就懂的K近邻算法(KNN)，K-D树，并实现手写数字识别！
1. 什么是KNN 1.1 KNN的通俗解释何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...
k近邻算法(knn)的c语言实现
最近在看knn算法,顺便敲敲代码. knn属于数据挖掘的分类算法.基本思想是在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别.俗话叫,"随大流&q ...
《机器学习实战》---第二章 k近邻算法 kNN
下面的代码是在python3中运行, # -*- coding: utf-8 -*- """ Created on Tue Jul 3 17:29:27 2018 @au ...
最基础的分类算法-k近邻算法 kNN简介及Jupyter基础实现及Python实现
k-Nearest Neighbors简介对于该图来说,x轴对应的是肿瘤的大小,y轴对应的是时间,蓝色样本表示恶性肿瘤,红色样本表示良性肿瘤,我们先假设k=3,这个k先不考虑怎么得到,先假设这个k是 ...
07.k近邻算法kNN
1.将数据分为测试数据和预测数据 2.数据分为data和target,data是矩阵,target是向量 3.将每条data(向量)绘制在坐标系中,就得到了一系列的点 4.根据每条data的targe ...
机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...
机器学习（1）——K近邻算法
KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k ...

随机推荐

【CDN+】一些常用的Linux命令，crontab+VI+Hive（持续更新）
前言本文主要是记录下工作中可能用到的一些linux指令,当作字典查用 Crontab 基本命令 # 安装 yum -y install vixie-cron crontabs#查看状态 servic ...
Vue-数据绑定原理
VueJS 使用 ES5 提供的 Object.defineProperty() 方法实现数据绑定. 感觉实现时主要是在 defineProperty 的 set 和 get 上做了很多文章,在 ge ...
《图解设计模式》读书笔记4-1 Bridge模式
目录概念代码角色类图想法概念 Bridge模式即桥接模式.顾名思义,这个模式的作用是将类的功能层次结构和类的实现层次结构连接起来. 功能层次结构 Something -SomethingG ...
FTP 服务器搭建（基于 CentOS 7）
参考资料: 檔案伺服器之三: FTP 伺服器用 vsftpd 配置FTP服务器 vsftpd 的所有选项注意,如果要所有人同时编辑 FTP 上的所有文件,可以将 vsftpd.conf 配置文件中 ...
彻底理解 Linux 的搜索工具： grep 和 awk
grep 官方手册 awk 官方手册, awk 学习资料 1. grep grep 用于打印匹配指定模式的行. 1.1 介绍 grep 命令从输入文件中查找匹配到给定模式列表的行.发现匹配到的行后,默 ...
使用HEXO建站
使用Hexo模板按以下指导进行本地预览和上传到你的github. 环境安装安装node.js node.js官方下载地址https://nodejs.org/en/ 设置npm淘宝镜像站(npm默 ...
C#将字符串Split()成数组
string str="aaajbbbjccc";string[] sArray=str.Split('j');foreach(string i in sArray) Respon ...
Django first()和last() F查询以及Q查询
一.first()和last() 分别返回queryset的第一项与最后一项,具体用法如下: p = Blog.objects.order_by('title').first() 等同于: try: ...
#C语言l作业04
这个作业属于哪个课程** C语言程序设计ll 这个作业的要求 (https://edu.cnblogs.com/campus/zswxy/SE2019-4/homework/9776) 我在这个课程的 ...
pdo getLastInertID()无结果
该函数只返回具有自增约素的表, 不然返回0. 使用exec()得到的是受影响的行数.

k-近邻算法（kNN）完整代码

k-近邻算法（kNN）完整代码的更多相关文章

随机推荐

热门专题