k-近邻算法标签分类

k-近邻算法根据特征比较，然后提取样本集中特征最相似数据(最邻近)的分类标签。那么，如何进行比较呢？

怎么判断红色圆点标记的电影所属的类别呢？如下图所示。

答：距离度量。这个电影分类的例子有2个特征，也就是在2维实数向量空间，可以使用两点距离公式计算距离，如图所示。

k-近邻算法步骤如下：

1.计算已知类别数据集中的点与当前点之间的距离；
2.按照距离递增次序排序；
3.选取与当前点距离最小的k个点；
4.确定前k个点所在类别的出现频率；
5.返回前k个点所出现频率最高的类别作为当前点的预测分类。

接下来就是使用Python3实现该算法，以电影分类为例。

(1)准备数据集

(2)k-近邻算法

根据两点距离公式，计算距离，选择距离最小的前k个点，并返回分类结果。

# -*- coding: utf-8 -*-

"""

k-近邻算法

标签分类

group：数据集

lables:标签分类

"""

import numpy as np

import operator

def createDataSet():

	#四组二维特征

	group = np.array([[1,101],[5,89],[108,5],[115,8]])

	#四组特征的标签

	labels = ['爱情片','爱情片','动作片','动作片']

	return group,labels

# =============================================================================

# if __name__ == '__main__':

# 	 #创建数据集

#     group, labels = createDataSet()

#     print(group)

#     print(labels)

# =============================================================================

"""

k-近邻算法

根据两点距离公式，计算距离，选择距离最小的前k个点，并返回分类结果。

"""

def classify0(inX,dataSet, labels,k):

    #numpy函数shape[0]返回dataSet的行数

    dataSetSize = dataSet.shape[0]

    #print("dataSetSize:",dataSetSize)

    #np.tile()表示：在行方向上重复inX数据共1次，在列方向重复inX共dataSetSize次

    diffMat = np.tile(inX,(dataSetSize,1)) - dataSet

    #二维特征相减后平方

    sqDiffMat = diffMat**2

    #print(sqDiffMat)

    #sum()表示所有元素相加，sum(0)列向量相加，sum(1)行向量分别相加

    sqDistances = sqDiffMat.sum(axis = 1)

    #print(sqDistances)

    #开方求距离

    distances = sqDistances**0.5

    print(distances)

    #argsort()返回的是distances中元素从小到大排序的索引值

    sortedDistIndicies =  distances.argsort()

    print("sortedDostIndicies=",sortedDistIndicies)

    #定义一个记录类别次数的字典

    classCount = {}

    for i in range(k):

        print("sortedDistIndicies[",i,"] = ",sortedDistIndicies[i])

        voteIlabel = labels[sortedDistIndicies[i]] #排名前k个贴标签

        print("voteIlabel=",voteIlabel)

        #dict.get(key,defualt = None),字典的get()方法，返回指定键的值，如果值不在字典中，返回默认值

        #计算类别次数

        #print ("类别 次数：",classCount.get(voteIlabel,0))

        classCount[voteIlabel] = classCount.get(voteIlabel,0)+1  #不断累加计数的过程，体现在字典的更新中

        print("classCount[",voteIlabel,"]为 ：",classCount[voteIlabel])

        #python3中用items()替换python2中的iteritems()

        #key = operator.itemgetter(1)根据字典的值进行排序

        #key = operator.itemgetter(0)根据字典的键进行排列

        #reverse降序排列字典

        sortedClassCount = sorted(classCount.items(),key = operator.itemgetter(1),reverse = True)

        print("sortedClassCount： ",sortedClassCount)

         #返回出现次数最多的value的key

        return sortedClassCount[0][0]

if __name__ == '__main__':

    #创建数据集

    group,labels = createDataSet()

    test = [101,20]

    #KNN分类

    test_class = classify0(test,group,labels,3)

    #打印分类结果

    print(test_class)

  ----------------------------------------------------------------------------------------------

                 # 实现 classify0() 方法的第二种方式

  ---------------------------------------------------------------------------------------------

    # """

    # 1. 计算距离

    # 欧氏距离： 点到点之间的距离

    #    第一行： 同一个点 到 dataSet的第一个点的距离。

    #    第二行： 同一个点 到 dataSet的第二个点的距离。

    #    ...

    #    第N行： 同一个点 到 dataSet的第N个点的距离。

    # [[1,2,3],[1,2,3]]-[[1,2,3],[1,2,0]]

    # (A1-A2)^2+(B1-B2)^2+(c1-c2)^2

    # inx - dataset 使用了numpy broadcasting，见 https://docs.scipy.org/doc/numpy-1.13.0/user/basics.broadcasting.html

    # np.sum() 函数的使用见 https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.sum.html

    # """

	#   dist = np.sum((inx - dataset)**2, axis=1)**0.5

    # """

    # 2. k个最近的标签

    # 对距离排序使用numpy中的argsort函数， 见 https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.sort.html#numpy.sort

    # 函数返回的是索引，因此取前k个索引使用[0 : k]

    # 将这k个标签存在列表k_labels中

    # """

    # k_labels = [labels[index] for index in dist.argsort()[0 : k]]

	# """

    # 3. 出现次数最多的标签即为最终类别

    # 使用collections.Counter可以统计各个标签的出现次数，most_common返回出现次数最多的标签tuple，例如[('lable1', 2)]，因此[0][0]可以取出标签值

	# """

    # label = Counter(k_labels).most_common(1)[0][0]

    # return label

输出结果：

参考来源：

k-近邻算法标签分类的更多相关文章

02-19 k近邻算法(鸢尾花分类)
[TOC] 更新.更全的<机器学习>的更新网站,更有python.go.数据结构与算法.爬虫.人工智能教学等着你:https://www.cnblogs.com/nickchen121/ ...
【机器学习】K近邻算法——多分类问题
给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例,这K个实例的多数属于某个类,就把该类输入实例分为这个类. KNN是通过测量不同特征值之间的距离进行分类.它的的思路是:如 ...
第4章最基础的分类算法-k近邻算法
思想极度简单应用数学知识少效果好(缺点?) 可以解释机器学习算法使用过程中的很多细节问题更完整的刻画机器学习应用的流程 distances = [] for x_train in X_train ...
02-16 k近邻算法
目录 k近邻算法一.k近邻算法学习目标二.k近邻算法引入三.k近邻算法详解 3.1 k近邻算法三要素 3.1.1 k值的选择 3.1.2 最近邻算法 3.1.3 距离度量的方式 3.1.4 分类 ...
基本分类方法——KNN(K近邻)算法
在这篇文章 http://www.cnblogs.com/charlesblc/p/6193867.html 讲SVM的过程中,提到了KNN算法.有点熟悉,上网一查,居然就是K近邻算法,机器学习的入门 ...
分类算法----k近邻算法
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一.该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的 ...
机器学习(四) 机器学习(四) 分类算法--K近邻算法 KNN (下)
六.网格搜索与 K 邻近算法中更多的超参数七.数据归一化 Feature Scaling 解决方案:将所有的数据映射到同一尺度八.scikit-learn 中的 Scaler preprocess ...
机器学习(四) 分类算法--K近邻算法 KNN (上)
一.K近邻算法基础 KNN------- K近邻算法--------K-Nearest Neighbors 思想极度简单应用数学知识少 (近乎为零) 效果好(缺点?) 可以解释机器学习算法使用过程中 ...
python 机器学习（二）分类算法-k近邻算法
一.什么是K近邻算法? 定义: 如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别. 来源: KNN算法最早是由Cover和Hart提 ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...

随机推荐

获得String形式日期的后一天
try { SimpleDateFormat sdf = new SimpleDateFormat( "yyyy-MM-dd"); Calendar c = Calendar.ge ...
libevent在windows下用visual studio编译时出现error C2894错误的原因与解决方法
libevent是一个使用很广泛的网络库,今天想了解下它.于是去git clone了一份源码,用vs2005的命令行:nmake -f makefile.nmake编译之,顺利编译通过,生成三个静态库 ...
OpenCV学习笔记二十：opencv_ts模块
一,简介: OpenCV测试库,用于单元测试.
Ubuntu下安装phpMyAdmin
首先添加必要的apt源 1 apt-get update 确保软件包列表是最新的 apt-get upgrade 更新软件包安装phpMyAdmin apt-get install phpmyadm ...
JavaScript严格模式为何要禁用With语句
看了很多遍JavaScript严格模式,其中有说“禁用With语句”,以前看到这都是骑马观花,一带而过,因为平时就很少用到这个语句,禁不禁用对自己关系都不是很大.今天禁不住想知道为何“严格模式”就容不 ...
Censor(KMP)
Censor frog is now a editor to censor so-called sensitive words (敏感词). She has a long text pp. Her j ...
C - Dungeon Master
C - Dungeon Master Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u ...
巨蟒django之权限10,内容梳理&&权限组件应用
1.CRM项目内容梳理: 2.权限分配 3.权限组件的应用
Python 编码（一）— Python3
Unicode 什么是 Unicode 标准 unicode 标准 Unicode 为每个字符提供了一个独特的数字,并且跨平台.设备.应用或者编程语言都是通用的. -- 来自 http://unico ...
Servlet 3.0 介绍
1. 概述注解代替 web.xml 配置文件异步处理对上传的支持 2. 注解代替 web.xml 配置文件使用方法在 Servlet 类上添加 @WebServlet(urlPatterns ...

k-近邻算法 标签分类

k-近邻算法 标签分类的更多相关文章

随机推荐

热门专题

k-近邻算法标签分类

k-近邻算法标签分类的更多相关文章