机器学习之KNN算法思想及其实现
从一个例子来直观感受KNN思想
如下图 , 绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。

从这个例子中,我们再来看KNN思想:
, 计算已知类别数据集合中的点与当前点之间的距离(使用欧式距离公司: d =sqrt(pow(x-x1),)+pow(y-y1),) , 按照距离递增次序排序(由近到远) , 选取与当前点距离最小的的K个点(如上题中的 k=,k=) , 确定前K个点所在类别的出现频率 , 将频率最高的那组,作为该点的预测分类
实现代码:
package com.data.knn; /**
* *********************************************************
* <p/>
* Author: XiJun.Gong
* Date: 2016-09-06 12:02
* Version: default 1.0.0
* Class description:
* <p/>
* *********************************************************
*/
public class Point { private double x; //x坐标
private double y; //y坐标
private double dist; //距离另一个点的距离 private String label; //所属类别 public Point() {
this(0d, 0d, "");
} public Point(double x, double y, String label) {
this.x = x;
this.y = y;
this.label = label;
} /*计算两点之间的距离*/
public double distance(final Point a) {
return Math.sqrt((a.x - x) * (a.x - x) + (a.y - y) * (a.y - y));
} public double getX() {
return x;
} public void setX(double x) {
this.x = x;
} public double getY() {
return y;
} public void setY(double y) {
this.y = y;
} public String getLabel() {
return label;
} public void setLabel(String label) {
this.label = label;
} public double getDist() {
return dist;
} public void setDist(double dist) {
this.dist = dist;
}
}
KNN实现
package com.data.knn; import com.google.common.base.Preconditions;
import com.google.common.collect.Maps; import java.util.Collections;
import java.util.Comparator;
import java.util.List;
import java.util.Map; /**
* *********************************************************
* <p/>
* Author: XiJun.Gong
* Date: 2016-09-06 11:59
* Version: default 1.0.0
* Class description:
* <p/>
* *********************************************************
*/
public class knn { private List<Point> dataSet; //统计频率
private Point newPoint; //当前点 //进行KNN分类
public String classify(List<Point> dataSet, final Point newPoint, Integer K) { Preconditions.checkArgument(K < dataSet.size(), "K的值超过了dataSet的元素");
//求解每一个点到新的点的距离
for (Point point : dataSet) {
point.setDist(newPoint.distance(point));
}
//进行排序
Collections.sort(dataSet, new Comparator<Point>() {
@Override
public int compare(Point o1, Point o2) {
//return o1.distance(newPoint) < o2.distance(newPoint) ? 1 : -1;
return o1.getDist() < o2.getDist() ? 1 : -1;
}
}); //统计前K个标签的频率
Map<String, Integer> map = Maps.newHashMap();
Integer maxCnt = -9999; //最高频率
String label = ""; //最高频率标签
Integer currentCnt = 0; //当前标签的频率
Integer times = 0;
for (Point point : dataSet) {
currentCnt = 1;
if (map.containsKey(point.getLabel())) {
currentCnt += map.get(point);
}
if (maxCnt < currentCnt) {
maxCnt = currentCnt;
label = point.getLabel();
}
map.put(point.getLabel(), currentCnt);
times++;
if (times > K) break;
}
return label;
} }
package com.data.knn; import com.google.common.collect.Lists; import java.util.List; /**
* *********************************************************
* <p/>
* Author: XiJun.Gong
* Date: 2016-09-06 14:45
* Version: default 1.0.0
* Class description:
* <p/>
* *********************************************************
*/
public class Main { public static void main(String args[]) {
List<Point> list = Lists.newArrayList();
list.add(new Point(1., 1.1, "A"));
list.add(new Point(1., 1., "A"));
list.add(new Point(0., 0., "B"));
list.add(new Point(0., 0.1, "B"));
Point point = new Point(0.5, 0.5, null);
KNN knn = new KNN();
System.out.println(knn.classify(list, point, 3));
}
}
结果:
A
机器学习之KNN算法思想及其实现的更多相关文章
- 机器学习:k-NN算法(也叫k近邻算法)
一.kNN算法基础 # kNN:k-Nearest Neighboors # 多用于解决分裂问题 1)特点: 是机器学习中唯一一个不需要训练过程的算法,可以别认为是没有模型的算法,也可以认为训练数据集 ...
- JavaScript机器学习之KNN算法
译者按: 机器学习原来很简单啊,不妨动手试试! 原文: Machine Learning with JavaScript : Part 2 译者: Fundebug 为了保证可读性,本文采用意译而非直 ...
- 机器学习之KNN算法
1 KNN算法 1.1 KNN算法简介 KNN(K-Nearest Neighbor)工作原理:存在一个样本数据集合,也称为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属 ...
- 菜鸟之路——机器学习之KNN算法个人理解及Python实现
KNN(K Nearest Neighbor) 还是先记几个关键公式 距离:一般用Euclidean distance E(x,y)√∑(xi-yi)2 .名字这么高大上,就是初中学的两点间的距离 ...
- 机器学习笔记--KNN算法2-实战部分
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
- 机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
- KNN算法思想与实现
第二章 k近邻 2.1 算法描述 (1)采用测量不同特征值之间的距离进行分类 优点:对异常点不敏感,精度高,无数据输入设定 缺点:空间,计算复杂度高 适合数据:标称与数值 (2)算法的工作原理: 基于 ...
- 机器学习入门-Knn算法
knn算法不需要进行训练, 耗时,适用于多标签分类情况 1. 将输入的单个测试数据与每一个训练数据依据特征做一个欧式距离. 2. 将求得的欧式距离进行降序排序,取前n_个 3. 计算这前n_个的y值的 ...
- 初识机器学习之kNN算法
k近邻(k-Nearest Neighbor,简称kNN)学习是一种常用的监督学习方法,其工作机制非常简单:给定测试样本,基于某种距离度量找出训练集中与其最靠近的k个训练样本.然后基于这k个“邻居”的 ...
随机推荐
- sql逻辑执行顺序
要知道SQL语句,我想我们有必要知道SQL Server查询分析器怎么执行我们的SQL语句的,我们很多人会看执行计划,或者用Profiler来监视和调优查询语句或者存储过程慢的原因,但是如果我们知道查 ...
- Css、javascript、dom(一)
一:Css 1.1:position定义和用法 position 属性规定元素的定位类型. 可能的值 值 描述 absolute 生成绝对定位的元素,相对于 static 定位以外的第一个父元素进行定 ...
- Nim Game
简单规律: 如果你面前的石子数为1,2,3必赢 4必输: 所以4+1(5),4+2(6),4+3(7)你必赢,因为你总是有办法让对方面对4,而前面分析过了4是必输的: 所以当你面对n的时候,如果n-1 ...
- web项目 log4j2的路径问题
项目中用到log4j2记录日志,结果运行的时候总也不见log文件的产生. 查看官方文档得知,在web项目中使用log4j2需要加入log4j-web包 log4j2.xml <?xml vers ...
- javascript高级程序设计第四章 变量、作用域和内存问题
变量包含两种,,基本类型和引用类型 基本类型是指一些简单的字段: 引用类型是☞由多个值构成的对象 引用类型的值是保存在内存中的对象,在javascript中是不允许直接访问内存中的位置; 函数的参数 ...
- Python写一个Windows下的android设备截图工具
界面版 利用python的wx库写个ui界面,用来把android设备的截图输出到电脑屏幕,前提需要安装adb,涉及到的python库也要安装.代码如下: import wx,subprocess,o ...
- tcpdump高级过滤技巧
基本语法 ========过滤主机--------- 抓取所有经过 eth1,目的或源地址是 192.168.1.1 的网络数据# tcpdump -i eth1 host 192.168.1.1- ...
- FastReport使用DataSet作数据源
1.打开FastReport的设计器, 2.选择[File]->[New] 新建FastReport模板. 3.选择[View]->[Data],显示如下,导出Dictionary,保存. ...
- Redis单机版本的安装
我的是centos-6.5的环境,安装redis的单机版本 1.下载redis源文件redis-3.0.0.tar.gz到一个目录,我的下载目录是/software 2.编译安装源文件的先觉条件是安装 ...
- 30.Nginx集群搭建笔记
源码安装Nginx: tar -zxvf nginx-1.8.0.tar.gz -C /nginx/ #解压Nginx rpm -ivh keepalived-1.2.13-5.el6_ ...