【机器学习】K-邻近算法的python 实现

#!/usr/bin/python

# -*- coding: utf-8 -*-

from numpy import *

import operator

def createDataSet():

    '创建数据集'

    group=array([[1.0,1.1],[1.0,1.0],[0,0],[0,1.1]])

    labels=["A","A","B","B"]

    return group,labels

def classify(inX,dataSet,labels,k):

    # 获取维度

    dataSetSize=dataSet.shape[0]   # 训练数据集数量

    print dataSetSize

    print tile(inX,(dataSetSize,1))

    diffMat=tile(inX,(dataSetSize,1))-dataSet  # 测试样本的各维度的差值

    print diffMat

    sqDiffMat=diffMat**2  # 平方计算

    print sqDiffMat

    sqDistance=sqDiffMat.sum(axis=1)  # 输出每行的值

    print sqDistance

    distances=sqDistance**0.5   # 开方计算

    print distances

    sortedDistances=distances.argsort()   # 排序 按距离从小到大 输出索引

    print sortedDistances

    classCount={}

    for i in range(k):

        voteIlabel=labels[sortedDistances[i]]

        classCount[voteIlabel]=classCount.get(voteIlabel,0)+1.0

    sortedClassCount=sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)

    return sortedClassCount[0][0]

group,labels=createDataSet()

res=classify([1,1],group,labels,3)

print res

一：什么是看KNN算法？

kNN算法全称是k-最近邻算法（K-Nearest Neighbor）
kNN算法的核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。该方法在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。
下边举例说明：

即使不知道未知电影属于哪种类型，我们也可以通过某种方法计算出来，如下图

现在我们得到了样本集中与未知电影的距离，按照距离的递增顺序，可以找到k个距离最近的电影，假定k=3，则三个最靠近的电影是和he is not realy into Dudes,Beautiful women, California man kNN算法按照距离最近的三部电影类型决定未知电影类型，这三部都是爱情片，所以未知电影的类型也为爱情片
二：KNN算法的一般流程

step.1---初始化距离为最大值

step.2---计算未知样本和每个训练样本的距离dist

step.3---得到目前K个最临近样本中的最大距离maxdist

step.4---如果dist小于maxdist，则将该训练样本作为K-最近邻样本

step.5---重复步骤2、3、4，直到未知样本和所有训练样本的距离都算完

step.6---统计K-最近邻样本中每个类标号出现的次数

step.7---选择出现频率最大的类标号作为未知样本的类标号

三：距离公式

在KNN中，通过计算对象间距离来作为各个对象之间的非相似性指标，避免了对象之间的匹配问题，在这里距离一般使用欧氏距离或曼哈顿距离：

【机器学习】K-邻近算法的python 实现的更多相关文章

《机器学习实战》学习笔记一K邻近算法
一. K邻近算法思想:存在一个样本数据集合,称为训练样本集,并且每个数据都存在标签,即我们知道样本集中每一数据(这里的数据是一组数据,可以是n维向量)与所属分类的对应关系.输入没有标签的新数据后,将 ...
Python实现kNN（k邻近算法）
Python实现kNN(k邻近算法) 运行环境 Pyhton3 numpy科学计算模块计算过程 st=>start: 开始 op1=>operation: 读入数据 op2=>op ...
<机器学习实战>读书笔记--k邻近算法KNN
k邻近算法的伪代码: 对未知类别属性的数据集中的每个点一次执行以下操作: (1)计算已知类别数据集中的点与当前点之间的距离: (2)按照距离递增次序排列 (3)选取与当前点距离最小的k个点 (4)确定 ...
机器学习算法及代码实现–K邻近算法
机器学习算法及代码实现–K邻近算法 1.K邻近算法将标注好类别的训练样本映射到X(选取的特征数)维的坐标系之中,同样将测试样本映射到X维的坐标系之中,选取距离该测试样本欧氏距离(两点间距离公式)最近 ...
[机器学习实战] k邻近算法
1. k邻近算法原理: 存在一个样本数据集,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对 ...
监督学习——K邻近算法及数字识别实践
1. KNN 算法 K-近邻(k-Nearest Neighbor,KNN)是分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似( ...
秒懂机器学习---k临近算法（KNN）
秒懂机器学习---k临近算法(KNN) 一.总结一句话总结: 弄懂原理,然后要运行实例,然后多解决问题,然后想出优化,分析优缺点,才算真的懂 1.KNN(K-Nearest Neighbor)算法的 ...
k邻近算法(KNN)实例
一 k近邻算法原理 k近邻算法是一种基本分类和回归方法. 原理:K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该输入实 ...
kaggle赛题Digit Recognizer：利用TensorFlow搭建神经网络（附上K邻近算法模型预测）
一.前言 kaggle上有传统的手写数字识别mnist的赛题,通过分类算法,将图片数据进行识别.mnist数据集里面,包含了42000张手写数字0到9的图片,每张图片为28*28=784的像素,所以整 ...
分类算法——k最近邻算法（Python实现）（文末附工程源代码）
kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...

随机推荐

Beta版软件使用说明
1引言 1 .1编写目的编写本使用说明的目的是充分叙述本软件所能实现的功能及其运行环境,以便使用者了解本软件的使用范围和使用方法,并为软件的维护和更新提供必要的信息. 1 .2参考资料 1 .3术语 ...
t2
测评项目 : 福大助手组长博客链接:https://www.cnblogs.com/dawnduck/p/10093752.html 第一部分:调研,评测评测 1. 第一次上手体验安卓: 进入页 ...
Java中的断言assert
Java陷阱之assert关键字一.概述在C和C++语言中都有assert关键,表示断言. 在Java中,同样也有assert关键字,表示断言,用法和含义都差不多. 二.语法在J ...
团队作业4——第一次项目冲刺（Alpha版本)第三次
一.会议内容制定任务内容制作leangoo表格初步工作二.各人工作成员计划任务遇见难题贡献比塗家瑜(组长) api搭建无 1 张新磊数据库搭建完成无 1 姚燕彬功能测试无 ...
Swift-属性监听
监听属性的改变(开发中使用很多) oc中长是重写set方法 swift通过属性监听器 class Dog: NSObject { var name:String?{ // 属性监听器 // 属性即将改 ...
Communications link failure--分析之（JDBC的多种超时情况）
本文是针对特定的情景下的特定错误,不是所有Communications link failure错误都是这个引起的,重要的区分特点是:程序是不是在卡主后两个小时(服务器的设置)后程序才感知到,才抛出了 ...
cat命令和EOF标识输出shell到文件
在某些场合,可能我们需要在脚本中生成一个临时文件,然后把该文件作为最终文件放入目录中.(可参考ntop.spec文件)这样有几个好处,其中之一就是临时文件不是唯一的,可以通过变量赋值,也可根据不同的判 ...
scss在ide的命令参数
%FileName% ../css/%FileBaseName%.css --sourcemap=none –style expanded
android Eclipse there no select
点mainactivity类右键 run as 进行配置就可运行
Windows搭建Log4Net+FileBeat+ELK日志分析系统过程
参考博客:http://udn.yyuap.com/thread-54591-1-1.html ; https://www.cnblogs.com/yanbinliu/p/6208626.html ; ...

【机器学习】K-邻近算法的python 实现

【机器学习】K-邻近算法的python 实现的更多相关文章

随机推荐

热门专题