spark 之knn算法

好长时间忙的没写博客了。看到有人问spark的knn，想着做推荐入门总用的knn算法，顺便写篇博客。

作者：R星月 http://www.cnblogs.com/rxingyue/p/6182526.html

knn算法的大致如下：
    1）算距离：给定测试对象，计算它与训练集中的每个对象的距离
    2）找邻居：圈定距离最近的k个训练对象，作为测试对象的近邻
    3）做分类：根据这k个近邻归属的主要类别，来对测试对象分类

这次用spark实现knn算法。

首先要加载数据：

实验就简单点直接模拟：

List<Node<Integer>> data = new ArrayList<Node<Integer>>();

        for (int i = ; i < ; i++) {

            data.add(new Node(String.valueOf(i), i));

        }

JavaRDD<Node<Integer>> nodes = sc.parallelize(data);

再设计距离的度量，做一个简单的实验如下：

new SimilarityInterface<Integer>() {

            public double similarity(Integer value1, Integer value2) {

                return 1.0 / (1.0 + Math.abs((Integer) value1 - (Integer) value2));

            }

        };

距离度量为一个接口可以实现你自己想要的距离计算方法，如cos，欧几里德等等。

再这要设置你要构建的关联图和设置搜索的近邻k值：

 NNDescent nndes = new NNDescent<Integer>();

        nndes.setK();

        nndes.setMaxIterations();

        nndes.setSimilarity(similarity);

        // 构建图

        JavaPairRDD<Node, NeighborList> graph = nndes.computeGraph(nodes);

// 保存文件中

graph.saveAsTextFile("out/out.txt");

结果如下：编号最近的30个值。

以上就算把knn算法在spark下完成了，剩下要做的就是根据一个数据点进行搜索最相近的k个值。

搜索：

final Node<Integer> query = new Node(String.valueOf(), );
final NeighborList neighborlist_exhaustive

                = exhaustive_search.search(query, );

这段代码是搜索结点id为111，数值为50最近的5个值。

结果如下：

代码很简单：

/**

 * Created by lsy 983068303@qq.com

 * on 2016/12/15.

 */

public class TestKnn {

    public static void main(String[] args) throws Exception {

        SparkConf conf = new SparkConf();

        conf.setMaster("local[4]");

        conf.setAppName("knn");

//        conf.set("spark.executor.memory","1G");

//        conf.set("spark.storage.memoryFraction","1G");

        JavaSparkContext sc = new JavaSparkContext(conf);

        List<Node<Integer>> data = new ArrayList<Node<Integer>>();

        for (int i = ; i < ; i++) {

            data.add(new Node(String.valueOf(i), i));

        }

        final SimilarityInterface<Integer> similarity =new SimilarityInterface<Integer>() {

            public double similarity(Integer value1, Integer value2) {

                return 1.0 / (1.0 + Math.abs((Integer) value1 - (Integer) value2));

            }

        };

        JavaRDD<Node<Integer>> nodes = sc.parallelize(data);

        NNDescent nndes = new NNDescent<Integer>();

        nndes.setK();

        nndes.setMaxIterations();

        nndes.setSimilarity(similarity);

        JavaPairRDD<Node, NeighborList> graph = nndes.computeGraph(nodes);

        graph.saveAsTextFile("out");

        ExhaustiveSearch exhaustive_search

                = new ExhaustiveSearch(graph, similarity);

        graph.cache();

        final Node<Integer> query = new Node(String.valueOf(), );

        final NeighborList neighborlist_exhaustive

                = exhaustive_search.search(query, );

         for(Neighbor n:neighborlist_exhaustive){

            System.out.print("id编号："+n.node.id+"==============") ;

            System.out.println("对应的数值："+n.node.id) ;

         }

        sc.stop();

    }

spark 之knn算法的更多相关文章

spark 机器学习 knn 代码实现(二)
通过knn 算法规则,计算出s2表中的员工所属的类别原始数据:某公司工资表 s1(训练数据)格式:员工ID,员工类别,工作年限,月薪(K为单位) 101 a类 8年 ...
【Machine Learning】KNN算法虹膜图片识别
K-近邻算法虹膜图片识别实战作者:白宁超 2017年1月3日18:26:33 摘要:随着机器学习和深度学习的热潮,各种图书层出不穷.然而多数是基础理论知识介绍,缺乏实现的深入理解.本系列文章是作者结 ...
KNN算法
1.算法讲解 KNN算法是一个最基本.最简单的有监督算法,基本思路就是给定一个样本,先通过距离计算,得到这个样本最近的topK个样本,然后根据这topK个样本的标签,投票决定给定样本的标签: 训练过程 ...
kNN算法python实现和简单数字识别
kNN算法算法优缺点: 优点:精度高.对异常值不敏感.无输入数据假定缺点:时间复杂度和空间复杂度都很高适用数据范围:数值型和标称型算法的思路: KNN算法(全称K最近邻算法),算法的思想很简单 ...
什么是 kNN 算法？
学习 machine learning 的最低要求是什么? 我发觉要求可以很低,甚至初中程度已经可以. 首先要学习一点 Python 编程,譬如这两本小孩子用的书:[1][2]便可. 数学方面 ...
数据挖掘之KNN算法（C#实现）
在十大经典数据挖掘算法中,KNN算法算得上是最为简单的一种.该算法是一种惰性学习法(lazy learner),与决策树.朴素贝叶斯这些急切学习法(eager learner)有所区别.惰性学习法仅仅 ...
机器学习笔记--KNN算法2-实战部分
本文申明:本系列的所有实验数据都是来自[美]Peter Harrington 写的<Machine Learning in Action>这本书,侵删. 一案例导入:玛利亚小姐最近寂寞了, ...
机器学习笔记--KNN算法1
前言 Hello ,everyone. 我是小花.大四毕业,留在学校有点事情,就在这里和大家吹吹我们的狐朋狗友算法---KNN算法,为什么叫狐朋狗友算法呢,在这里我先卖个关子,且听我慢慢道来. 一 K ...
学习OpenCV——KNN算法
转自:http://blog.csdn.net/lyflower/article/details/1728642 文本分类中KNN算法,该方法的思路非常简单直观:如果一个样本在特征空间中的k个最相似( ...

随机推荐

php soap连接https的wsdl报错SOAP-ERROR: Parsing WSDL:Couldn't load from
转发:https://blog.csdn.net/keyunq/article/details/51804728 SOAP-ERROR: Parsing WSDL:Couldn’t load from ...
JAVA包学习笔记
包什么是包为了使类易于查找和使用,为了避免命名冲突和限定类的访问权限,可以将一组相关类与接口"包裹"在一起形成包. 有可能同名类的存在而导致命名冲突,而位于不同包中的类及时同名 ...
HDU1729 Stone Game
题目:http://acm.hdu.edu.cn/showproblem.php?pid=1729 思路:理解错题目了,以为SG模板直接套就行了.后来队友说了那个ci是不断变化的.那么每次可以放的石头 ...
php静态方法和属性
静态方法和属性由static关键字定义静态方法和属性不用实例化也可以直接访问,如 self::test(),self::tt 类实例化后可以访问静态方法,但是不可以访问静态属性声明类属性或方法为静 ...
docker compose容器互联
使用docker-compose编排容器时,如容器之间需要互相通信,使用本地连接,需要使用容器名来代替localhost "connection": "postgresq ...
5、kvm快照相关操作
kvm虚拟机默认使用raw格式的镜像格式,性能最好,速度最快,不支持支持镜像,zlib磁盘压缩,AES加密等.要使用镜像功能,但是磁盘格式为qcow2就是支持. 关闭虚拟机 virsh shutdow ...
Vue 4 -- 获取原生的DOM的方式、DIY脚手架、vue-cli的使用
一.获取原生的DOM的方式在js中,我们可以通过id.class或者标签获取DOM元素,vue中也为我们提供了获取原生DOM的方法,就是给标签或者组件添加ref属性,通过this.$refs获取,如 ...
Linux--6 redis订阅发布、持久化、集群cluster、nginx入门
一.redis发布订阅 Redis 通过 PUBLISH .SUBSCRIBE 等命令实现了订阅与发布模式. 其实从Pub/Sub的机制来看,它更像是一个广播系统,多个Subscriber可以订阅多个 ...
hive_hiveserver2 hive-site.xml config and start
hive-site.xml # vi hive-site.xml <configuration> <property> <name>javax.jdo.option ...
java资料
HTML5+CSS3视频教程:http://pan.baidu.com/s/1hsyOjze 密码:c3uw JavaScript视频教程:链接:http://pan.baidu.com/s/1 ...

spark 之knn算法

spark 之knn算法的更多相关文章

随机推荐

热门专题