[机器学习]-K近邻-最简单的入门实战例子
本篇文章分为两个部分,前一部分主要简单介绍K近邻,后一部分是一个例子
第一部分--K近邻简介
从字面意思就可以容易看出,所谓的K近邻,就是找到某个样本距离(这里的距离可以是欧式距离,曼哈顿距离,切比雪夫距离等)最近的K个数据,根据最近的K个邻居属于什么分类,来判断这个样本属于什么分类。
简单说一下优缺点:
优点:简单,适合于多分类问题(multi-modal,对象具有多个类别标签), kNN比SVM的表现要好。
缺点:I:计算量大 II.如果某个分类占绝对优势,分类的效果很差,比如,印度阿三主要是黑人,如果你随便找个人,
使用K近邻判断这个人是不是黑人,这个人周围可能都是黑人,所以不适合这种类型的数据集。
第二部分--实战例子
数据集:iris数据集,这是个什么样的数据集呢?
通过3种鸢尾属植物的花的四个属性(萼片长度(sepal length)、萼片宽度sepalwidth)、花瓣长度(petal length)和花瓣宽度(petal width)) 来判断属于哪一种鸢尾属植物,这三种鸢尾属植物分别是setosa、versic010r和virginica。
数据集地址:iris数据集 将数据复制到txt文件中。
代码:
import csv
import random
import math
import operator #装载数据集
def loadDataset(filename, split, trainingSet = [], testSet = []):
with open(filename, 'rt') as csvfile:
lines = csv.reader(csvfile)
dataset = list(lines)
for x in range(len(dataset)-1):
for y in range(4):
# print(type(dataset[x][y]))
dataset[x][y] = float(dataset[x][y])
if random.random() < split:
trainingSet.append(dataset[x])
else:
testSet.append(dataset[x]) #计算样本之间的欧式距离
def euclideanDistance(instance1, instance2, length):
distance = 0
for x in range(length):
distance += pow((instance1[x]-instance2[x]), 2)
return math.sqrt(distance) #找到相邻的k个样本
def getNeighbors(trainingSet, testInstance, k):
distances = []
length = len(testInstance)-1
for x in range(len(trainingSet)):
#testinstance
dist = euclideanDistance(testInstance, trainingSet[x], length)
distances.append((trainingSet[x], dist))
"""
operator模块提供的itemgetter函数用于获取对象的哪些维的数据,参数为一些序号
"""
#distances是一个list里面放的tuple,tuple第二个元素是距离,这里就是根据距离排序,默认升序
distances.sort(key=operator.itemgetter(1))
neighbors = []
for x in range(k):
neighbors.append(distances[x][0])
return neighbors #找到k个样本中出现最多的分类,并返回
def getResponse(neighbors):
classVotes = {}
for x in range(len(neighbors)):
response = neighbors[x][-1]
if response in classVotes:
classVotes[response] += 1
else:
classVotes[response] = 1
"""
注意,python3中字典的iteritems()方法已经取消,只有item()
"""
# sortedVotes = sorted(classVotes.iteritems(), key=operator.itemgetter(1), reverse=True)
"""
sort 与 sorted 区别:
sort 是应用在 list 上的方法,sorted 可以对所有可迭代的对象进行排序操作。
list 的 sort 方法返回的是对已经存在的列表进行操作,而内建函数 sorted 方法返回的是一个新的 list,而不是在原来的基础上进行的操作。
reverse -- 排序规则,reverse = True 降序 , reverse = False 升序(默认)
""" """
print(classVotes)
输出格式为:{'Iris-versicolor': 1, 'Iris-virginica': 2}
""" """
print(classVotes.items())
输出格式为:dict_items([('Iris-versicolor', 1), ('Iris-virginica', 2)])
"""
sortedVotes = sorted(classVotes.items(), key=operator.itemgetter(1), reverse=True) """
print(sortedVotes)
输出格式为:[('Iris-virginica', 3)]
"""
return sortedVotes[0][0] #得到最后全部测试样本的预测准确率
def getAccuracy(testSet, predictions):
correct = 0
for x in range(len(testSet)):
if testSet[x][-1] == predictions[x]:
correct += 1
return (correct/float(len(testSet)))*100.0 #主函数
def main():
#prepare data
trainingSet = []
testSet = []
split = 0.67 #0.67相当于2/3,就是说2/3是训练集,1/3是测试集,整个iris数据集中有150个数据
loadDataset(r'../data/DTree/irisdata.txt', split, trainingSet, testSet)
# print(trainingSet)
print ('训练集样本数: ' + repr(len(trainingSet)))
print ('测试集样本数: ' + repr(len(testSet)))
#generate predictions
predictions = []
k = 3
for x in range(len(testSet)):
# trainingsettrainingSet[x]
neighbors = getNeighbors(trainingSet, testSet[x], k)
result = getResponse(neighbors)
predictions.append(result)
if result == testSet[x][-1]:
correct = True
else:
correct = False
print ('预测结果:' + repr(result) + ', 实际值=' + repr(testSet[x][-1]) + ', 是否预测正确=' + repr(correct))
accuracy = getAccuracy(testSet, predictions)
#整个测试集预测准确率
print('准确率: ' + repr(accuracy) + '%') if __name__ == '__main__':
main()
输出结果为:
训练集样本数: 109
测试集样本数: 41
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-setosa', 实际值='Iris-setosa', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-versicolor', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-versicolor', 实际值='Iris-virginica', 是否预测正确=False
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
预测结果:'Iris-virginica', 实际值='Iris-virginica', 是否预测正确=True
准确率: 97.5609756097561%
[机器学习]-K近邻-最简单的入门实战例子的更多相关文章
- Python3入门机器学习 - k近邻算法
邻近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一.所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代 ...
- [机器学习] k近邻算法
算是机器学习中最简单的算法了,顾名思义是看k个近邻的类别,测试点的类别判断为k近邻里某一类点最多的,少数服从多数,要点摘录: 1. 关键参数:k值 && 距离计算方式 &&am ...
- 机器学习--K近邻 (KNN)算法的原理及优缺点
一.KNN算法原理 K近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法. 它的基本思想是: 在训练集中数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对 ...
- 机器学习-K近邻(KNN)算法详解
一.KNN算法描述 KNN(K Near Neighbor):找到k个最近的邻居,即每个样本都可以用它最接近的这k个邻居中所占数量最多的类别来代表.KNN算法属于有监督学习方式的分类算法,所谓K近 ...
- 机器学习—K近邻
一.算法原理 还是图片格式~ 二.sklearn实现 import pandas as pd import numpy as np import matplotlib.pyplot as plt im ...
- 机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
- 机器学习(1)——K近邻算法
KNN的函数写法 import numpy as np from math import sqrt from collections import Counter def KNN_classify(k ...
- 每日一个机器学习算法——k近邻分类
K近邻很简单. 简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别. 由于采用k投票机制,所以能够减小噪声的影响. 由 ...
- 1.K近邻算法
(一)K近邻算法基础 K近邻(KNN)算法优点 思想极度简单 应用数学知识少(近乎为0) 效果好 可以解释机器学习算法使用过程中的很多细节问题 更完整的刻画机器学习应用的流程 图解K近邻算法 上图是以 ...
随机推荐
- 让自己的项目支持 Carthage
据说 cocoaPods 升级到1.0之后变得使用起来不太方便了,好吧,这段时间公司事儿比较多而且是自己写的sdk就不怎么写demo了,cocoaPods也没用几次…… 前两天朋友说要转战 Carth ...
- <摘录>字节对齐与结构体大小
说明: 结 构体的sizeof值,并不是简单的将其中各元素所占字节相加,而是要考虑到存储空间的字节对齐问题.这些问题在平时编程的时候也确实不怎么用到,但在一 些笔试面试题目中出是常常出现,对sizeo ...
- [图解tensorflow源码] Session::Run()流程图 (单机版)
- 目前.NET Core创建Windows Service比较好的一个开源框架:DasMulli.Win32.ServiceUtils
新建一个.NET Core控制台程序,搜索并下载Nuget包:DasMulli.Win32.ServiceUtils GitHub 链接及使用指南 Write a windows service us ...
- iOS:WKWebView(19-01-31更)
以前用得不多,先开一篇,以后有遇到再补充. 1.返回 2.JS 调用 OC 3.获取.修改.添加网页信息 1.返回 if (self.mWebView.canGoBack == YES) { [sel ...
- 内存管理与正则(re)模块
内存管理 垃圾回收机制 不能被程序访问到的数据,就称之为垃圾 也就是失去了一个能够访问到值数据的名称空间,导致在内存中无作为 引用计数:是内存管理的原理 引用计数是用来记录值的内存地址被记录的次数 每 ...
- javaScript真值和假值以及相等操作符
真值和假值 相等操作符(==和===) 下面分析一下不同类型的值用相等操作符(==)比较后的结果 toNumber 对不同 类型返回的结果如下: toPrimitive 对不同类型返回的结果如下: = ...
- laravel5.5源码笔记(八、Eloquent ORM)
上一篇写到Eloquent ORM的基类Builder类,这次就来看一下这些方便的ORM方法是如何转换成sql语句运行的. 首先还是进入\vendor\laravel\framework\src\Il ...
- IOCP详解
http://blog.csdn.net/piggyxp/article/details/6922277 ps: 原作者很厉害了, 把一个iocp模型讲解的这么形象,不过在实践过程中发现一些细节说得有 ...
- 大数据入门第七天——MapReduce详解(一)入门与简单示例
一.概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which ...