机器学习实战（1）- KNN

KNN：k近邻算法-在训练样本中找到与待测样本距离相近的N个样本，并用这N个样本中所属概率最大的类别作为待测样本的类别。

算法步骤：

1、对训练中的样本数据的不同属性进行归一化处理。

2、计算待测样本到训练样本集中的距离。（欧拉距离或曼哈顿距离）；

3、找到N个距离最小的样本属于不同类别的概率。

4、取最大的概率作为待测样本的类别。

例子1：相亲

相亲考虑的条件：

1）每年飞行公里

2）每周打的游戏时长

3）每周消耗的ice cream

态度用1,2,3表示：1表示little like 2表示much like 3表示pass

数据集路径https://github.com/pbharrin/machinelearninginaction

matlab 代码：大神请给优化。。。。。

clc,clear;

%1)加载数据

TEST = load('datingTestSet2.txt');

r1 = find(TEST(:,4) == 1);

r2 = find(TEST(:,4) == 2);

r3 = find(TEST(:,4) == 3);

% 1)绘制原始数据

plot3(TEST(r1,1),TEST(r1,2),TEST(r1,3),'.b');

hold on

plot3(TEST(r2,1),TEST(r2,2),TEST(r2,3),'.g');

hold on

plot3(TEST(r3,1),TEST(r3,2),TEST(r3,3),'.r');

xlabel('plane');

ylabel('game');

zlabel('ice');

%对不同属性的数据归一化处理

maxr1 = max(TEST(:,1))

minr1 = min(TEST(:,1));

maxr2 = max(TEST(:,2))

minr2 = min(TEST(:,2));

maxr3 = max(TEST(:,3));

minr3 = min(TEST(:,3));

length = size(TEST(:,1))

TESTB = zeros(length,3);

TESTB(:,1) = (TEST(:,1) - minr1) ./ (maxr1 - minr1);

TESTB(:,2) = (TEST(:,2) - minr2) ./ (maxr2 - minr2);

TESTB(:,3) = (TEST(:,3) - minr3) ./ (maxr3 - minr3);

% 待测数据

DATA = [1000,10,0.5];

DATA(1,1) = (DATA(1,1)- minr1) / (maxr1- minr1);

DATA(1,2) = (DATA(1,2)- minr2) / (maxr2- minr2);

DATA(1,3) = (DATA(1,3)- minr3) / (maxr3- minr3);

% 计算距离 N =5

data = repmat(DATA,[length,1]);

dis = TESTB -data;

dis = dis .* dis;

dis = dis * [1;1;1];

sortData = sort(dis);

ndata = sortData(5,1);

list = find(dis <= ndata);

result = TEST(list,4);

a1 = find(result == 1)

a2 = find(result == 2)

a3 = find(result == 3)

if(size(a1,1) > size(a2,1))

    if(size(a1,1)>size(a3,1))

       disp(' little like');

    else

        disp('pass');

    end

else

    if(size(a2,1)>size(a3,1))

       disp(' much like');

    else

        disp('pass');

    end

end

python 3代码：函数都不怎么会用磨磨唧唧的写了一些实现。

import numpy as npy

import matplotlib

import matplotlib.pyplot as plt

import copy

# 读取文件

#手动转换文件，复制到excel让python能正确读取。

data = npy.loadtxt('data.txt',delimiter = ',');

likeindex = npy.where(data[:,3] == 1);

muchlikeindex = npy.where(data[:,3]==2);

passindex = npy.where(data[:,3] == 3);

# 绘制图形(不会绘制三维的)

fig = plt.figure()

ax = fig.add_subplot(111)

ax.scatter(data[likeindex,0],data[likeindex,1],data[likeindex,3],c ='b');

ax.hold('on')

ax.scatter(data[muchlikeindex,0],data[muchlikeindex,1],data[muchlikeindex,3],c ='g',marker ='*');

ax.plot()

plt.show()

# 数据归一化

length = len(data[:,0]);

maxr = npy.zeros((3,1));

minr = npy.zeros((3,1));

for i in range(0,3) :

    maxr[i,0] =  npy.max(data[:,i]);

    minr[i,0] =  npy.min(data[:,i]);

normalData = npy.zeros((length,3));

# 待测数据                

test = npy.matrix([1056560,60,12]);

for i in range(0,3):

    normalData[:,i] = (data[:,i] - minr[i,0]) / (maxr[i,0] - minr[i,0]);

test[0,0] =(test[0,0] - minr[0,0]) / (maxr[0,0] - minr[0,0]);

test[0,1]=(test[0,1] - minr[0,0]) / (maxr[0,0] - minr[0,0]);

test[0,2] =(test[0,2] - minr[0,0]) / (maxr[0,0] - minr[0,0]);

# 测试数据与训练数据的距离

testarry = npy.tile(test,(length,1));

dis2 = (normalData - testarry);

dis = npy.multiply(dis2,dis2);

one = npy.mat([[1],[1],[1]]);

dis = dis*one;

# 深度copy 原数据

org = copy.copy(dis);

datat = dis.T;

datat.sort()

door = datat[0,5]; # k =5

nearindex =  npy.where(org[:,0] < door);

print (nearindex)  # 这个nearindex 不知道为啥会有两行                      

#用索引计算 所属类别的频率

机器学习实战（1）- KNN的更多相关文章

算法代码[置顶] 机器学习实战之KNN算法详解
改章节笔者在深圳喝咖啡的时候突然想到的...之前就有想写几篇关于算法代码的文章,所以回家到以后就奋笔疾书的写出来发表了前一段时间介绍了Kmeans聚类,而KNN这个算法刚好是聚类以后经常使用的匹配技 ...
机器学习实战之 KNN算法
现在机器学习这么火,小编也忍不住想学习一把.注意,小编是零基础哦. 所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的<机器学习实战>.这本书是基于pyt ...
机器学习实战1-1 KNN电影分类遇到的问题
为什么电脑排版效果和手机排版效果不一样~ 目前只学习了python的基础语法,有些东西理解的不透彻,希望能一边看<机器学习实战>,一边加深对python的理解,所以写的内容很浅显,也许还会 ...
《机器学习实战》KNN算法实现
本系列都是参考<机器学习实战>这本书,只对学习过程一个记录,不做详细的描述! 注释:看了一段时间Ng的机器学习视频,感觉不能光看不练,现在一边练习再一边去学习理论! KNN很早就之前就看过 ...
机器学习实战之kNN算法
机器学习实战这本书是基于python的,如果我们想要完成python开发,那么python的开发环境必不可少: (1)python3.52,64位,这是我用的python版本 (2)numpy 1.1 ...
机器学习实战笔记——KNN约会网站
''' 机器学习实战——KNN约会网站优化 ''' import operator import numpy as np from numpy import * from matplotlib.fon ...
机器学习实战笔记——KNN
机器学习实战——读书笔记书籍奉上
基于Python的机器学习实战：KNN
1.KNN原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系.输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应 ...
吴裕雄--天生自然python机器学习实战：K-NN算法约会网站好友喜好预测以及手写数字预测分类实验
实验设备与软件环境硬件环境:内存ddr3 4G及以上的x86架构主机一部系统环境:windows 软件环境:Anaconda2(64位),python3.5,jupyter 内核版本:window ...
机器学习实战之KNN
KNN也称K-近邻算法,简单来说,KNN采用测量不同特征值之间的距离的方法进行分类. 优点:精度高,对异常值不敏感,无数据输入假定. 确定:时间复杂度.空间复杂度较高适用数据范围:数值型和标称型工 ...

随机推荐

Maven 的依赖范围
Maven 在编译项目主代码的时候需要使用一套 classpath,在编译和执行测试的时候会使用另外一套 classpath.最后,实际运行 Maven 项目的时候,又会使用一套 classpath. ...
如何在 WPF 中获取所有已经显式赋过值的依赖项属性
原文:如何在 WPF 中获取所有已经显式赋过值的依赖项属性获取 WPF 的依赖项属性的值时,会依照优先级去各个级别获取.这样,无论你什么时候去获取依赖项属性,都至少是有一个有效值的.有什么方法可以获 ...
python之（TensorFlow）深度学习
一.深度学习(DL, Deep Learning)是机器学习(ML, Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI, Artifi ...
Java中使用Log4j记录错误、输出日志
简介: Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控制台.文件.GUI组件.甚至是套接口服务器.NT的事件记录器.UNIX Syslog守护进 ...
SVN的branches、trunk、tags使用
本文针对实际开发过程中,svn使用到的trunk.branches.tags情况进行操作模拟, 一.创建trunk.branches.tags文件夹我们在上文的svn仓库下创建trunk.branc ...
【CF1095F】 Make It Connected（最小生成树）
题目链接如果没有特殊边的话显然答案就是权值最小的点向其他所有点连边. 所以把特殊边和权值最小的点向其他点连的边丢一起跑最小生成树就行了. #include <cstdio> #inclu ...
MySql 严格模式相关配置
目录 MySql 严格模式 MySQL的sql_mode合理设置 sql model 常用来解决下面几类问题 sql_mode常用值注意改为严格模式后可能会存在的问题模式设置和修改(以解决上述问 ...
Ldr和bl指令
Ldr和bl在启动程序中,都是可以负责pc跳转的指令. 1)bl是地址无关指令,和什么地址无关呢?和当前的运行地址无关,链接器脚本中标明了一个运行地址,但是arm中的代码实际是从地址0开始运行的.这个 ...
excel合并日期和时间（转载）
https://jingyan.baidu.com/article/d3b74d641669361f77e60914.html =TEXT(A2,"YYYY/M/D")&& ...
TypeScript_泛型
typescript 中很多地方都和 java 和 C# 相似,如果有 java 和 C# 的同学入手typeScript 会简单很多, 下面这里使用代码来表示和展现泛型的定义和使用 //泛型:在类 ...

机器学习实战（1）- KNN

机器学习实战（1）- KNN的更多相关文章

随机推荐

热门专题