机器学习之KNN---k最近邻算法-机器学习

KNN算法是机器学习中入门级算法，属于监督性学习算法。SupervisedLearning.

通过Plinko游戏来介绍该算法。

就是随机在上面投球，然后球进下面的哪个地方就得多少分。

然后在规定得投次数得到最高得分数，应该怎么投？

然后预测每次投能得到多少分？

首先应该通过训练数据集，看看在每个位置投得点，能得到多少分，然后预测点距离每次点得距离，然后排序，那么预测点周围出现次数最多得就是大概率得到得分数。

1，通过训练得数据集，提取特征值和标签，特征值就是距离左侧得距离。标签就是投下去得到得分数。

2，选择预测点，和K个距离近得数。计算每个点得距离。

3.排序，前K个点得出现最多次标签得就是得分得大概率值。

#KNN算法是寻找K个距离最近的邻居，然后根据已知的邻居label，出现次数最多的，推断出测试点的类别。

# polinko 模拟

import numpy as np

import collections as c

def KNN(k,predictPoint,feature,label):

    # 先求出预测点与周围点的距离，然后排序，找出距离最近的k个点，出现最多的次数，就是预测结果。

    # map内置函数(func,iterable)

    distance = list(map(lambda x: abs(200 - x), feature))

    # np.sort()是直接排序，而我们需要feature和labell联系一起

    # print(np.sort(distance))

    # 所以应该使用np.argsort()可以得到排序的后的index，可以与label关联

    sort_index = np.argsort(distance)

    # 通过切片找出K个最邻近的点

    return c.Counter(label[sort_index][:k]).most_common(1)[0][0] # 返回的是（4，2）,表示在k的最邻近元素，4出现最多次数为2

if __name__ == '__main__':

    data = np.array([

        [120, 3],

        [140, 3],

        [160, 3],

        [40, 2],

        [70, 2],

        [200, 4],

        [250, 4],

        [100, 3]

    ])

    feature = data[:,0]

    label = data[:,-1]

    k = 5

    predictPoint = 170

    print(KNN(k,predictPoint,feature,label))

　预测结果：

代码中给出的数据集是随机写的，不一定准。

现在选择真实的数据集，通过numpy中loadtext()读取csv文本数据集。

np.loadtxt("data01.csv",delimiter=",")这个第一个参数文件名称,第二个delimiter是数据分割符.
然后就和后面一样，提取特征值和标签值，计算k个局里近的距离。
但是和真实的还有有差距，这个是怎么回事。
所以造成结果不正确的原因有这些：
还需要
1.调整参数，简称调参。
2.可能还有其他维度特征会影响结果，但是现在只给了一种特征值。

缺点：对于数据量很大得训练集合，耗费内存。对硬件要求较高。

机器学习之KNN---k最近邻算法-机器学习的更多相关文章

机器学习【一】K最近邻算法
K最近邻算法 KNN 基本原理离哪个类近,就属于该类 [例如:与下方新元素距离最近的三个点中,2个深色,所以新元素分类为深色] K的含义就是最近邻的个数.在sklearn中,KNN的K值是通过n ...
机器学习-K最近邻算法
一.介绍二.编程练习一(K最近邻算法在单分类任务的应用): import numpy as np #导入科学计算包import matplotlib.pyplot as plt #导入画图工具fr ...
【算法】K最近邻算法（K-NEAREST NEIGHBOURS，KNN）
K最近邻算法(k-nearest neighbours,KNN) 算法对一个元素进行分类查看它k个最近的邻居在这些邻居中,哪个种类多,这个元素有更大概率是这个种类使用使用KNN来做两项基本工 ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
PCB 加投率计算实现基本原理--K最近邻算法（KNN）
PCB行业中,客户订购5000pcs,在投料时不会直接投5000pcs,因为实际在生产过程不可避免的造成PCB报废, 所以在生产前需计划多投一定比例的板板, 例:订单量是5000pcs,加投3%,那 ...
12、K最近邻算法（KNN算法）
一.如何创建推荐系统? 找到与用户相似的其他用户,然后把其他用户喜欢的东西推荐给用户.这就是K最近邻算法的分类作用. 二.抽取特征推荐系统最重要的工作是:将用户的特征抽取出来并转化为度量的数字,然后 ...
《算法图解》——第十章 K最近邻算法
第十章 K最近邻算法 1 K最近邻(k-nearest neighbours,KNN)——水果分类 2 创建推荐系统利用相似的用户相距较近,但如何确定两位用户的相似程度呢? ①特征抽取对水果 ...
[笔记]《算法图解》第十章 K最近邻算法
K最近邻算法简称KNN,计算与周边邻居的距离的算法,用于创建分类系统.机器学习等. 算法思路:首先特征化(量化) 然后在象限中选取目标点,然后通过目标点与其n个邻居的比较,得出目标的特征. 余弦相似 ...
K最近邻算法项目实战
这里我们用酒的分类来进行实战练习下面来代码 1.把酒的数据集载入到项目中 from sklearn.datasets import load_wine #从sklearn的datasets模块载入数 ...
图说十大数据挖掘算法(一)K最近邻算法
如果你之前没有学习过K最近邻算法,那今天几张图,让你明白什么是K最近邻算法. 先来一张图,请分辨它是什么水果很多同学不假思索,直接回答:“菠萝”!!! 仔细看看同学们,这是菠萝么?那再看下边这这张图 ...

随机推荐

JS基础入门篇（六）— 数据类型
1.数据类型数据类型:我感觉就是对数据的种类进行分类.就好比把人分为儿童,青少年,中年,老年一样. 基础数据类型: Number(数字),String(字符串),Null(空),Undefined( ...
用 Flask 来写个轻博客 (28) — 使用 Flask-Assets 压缩 CSS/JS 提升网页加载速度
Blog 项目源码:https://github.com/JmilkFan/JmilkFan-s-Blog 目录目录前文列表扩展阅读 Flask-Assets 将 Flask-Assets 应用 ...
fat32转ntfs ，Win7系统提示对于目标文件系统文件过大解决教程
系统之家发布时间:18-05-3117:56 很多Win7用户在复制较大的文件时,系统会弹出窗口提示“对于目标文件系统,文件XXX过大”,出现这种情况的原因是FAT32的文件系统不支持复制大于4g的 ...
centos 7 安装 redis 及 php-redis 拓展
===============redis 安装========================== 直接yum 安装的redis 不是最新版本 yum install redis 如果要安装最新的re ...
嵌入式C语言3.2 关键字---自定义数据类型
1. struct 结构体基本语法 struct myabc{ unsigned int a; unsigned int b; unsigned int c; unsigned int d; } 调 ...
爬虫（二）—— 请求库（二）selenium请求库
目录 selenium请求库一.什么是selenium 二.环境搭建三.使用selenium模块 1.使用chrome并设置为无GUI模式 2.使用chrome有GUI模式 3.显示等待与隐式等待 ...
Scrapy框架: Request回调函数
Request回调函数 def parse_page1(self, response): return scrapy.Request("http://www.example.com/some ...
[Fw]初探linux中断系统（1）
1. 重要接口 LDD上说,“内核维护了一个中断信号线的注册表,该注册表类似于I/O端口的注册表.模块在使用中断前要先请求一个中断通道(或者中断请求IRQ),然后在使用后释放该通道.” 撇开系统如何遍 ...
60.Median of Two Sorted Arrays（两个排序数组的中位数）
Level: Hard 题目描述: There are two sorted arrays nums1 and nums2 of size m and n respectively. Find t ...
MySQLSyntaxErrorException: Row size too large 转摘自：https://confluence.atlassian.com/display/CONFKB/MySQLSyntaxErrorException%3A+Row+size+too+large
Symptoms The following appears in the atlassian-confluence.log: Caused by: com.mysql.jdbc.exceptions ...

机器学习之KNN---k最近邻算法-机器学习

机器学习之KNN---k最近邻算法-机器学习的更多相关文章

随机推荐

热门专题