Spark-Mllib中各分类算法的java实现(简易教程)

一.简述

　　Spark是当下非常流行的数据分析框架，而其中的机器学习包Ｍllib也是其诸多亮点之一，相信很多人也像我那样想要快些上手spark。下面我将列出实现mllib分类的简明代码，代码中将简述训练集和样本集的结构，以及各分类算法的参数含义。分类模型包括朴素贝叶斯，ＳＶＭ，决策树以及随机森林。

二.实现代码

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import java.util.LinkedList;

import java.util.List;

import org.apache.spark.mllib.linalg.Vector;

import org.apache.spark.mllib.linalg.Vectors;

import org.apache.spark.mllib.regression.LabeledPoint;

import org.apache.spark.mllib.classification.NaiveBayes;

import org.apache.spark.mllib.classification.NaiveBayesModel;

import org.apache.spark.mllib.classification.SVMModel;

import org.apache.spark.mllib.classification.SVMWithSGD;

import java.util.HashMap;

import java.util.Map;

import org.apache.spark.mllib.tree.DecisionTree;

import org.apache.spark.mllib.tree.model.DecisionTreeModel;

import org.apache.spark.mllib.tree.RandomForest;

import org.apache.spark.mllib.tree.model.RandomForestModel;

public class test {

    public static void main(String[] arg){

       //生成spark对象

        SparkConf conf = new SparkConf();

        conf.set("spark.testing.memory","2147480000");  // spark的运行配置，意指占用内存2G

        JavaSparkContext sc = new JavaSparkContext("local[*]", "Spark", conf);      //第一个参数为本地模式，[*]尽可能地获取多的cpu；第二个是spark应用程序名，可以任意取;第三个为配置文件

        //训练集生成

        LabeledPoint pos = new LabeledPoint(1.0, Vectors.dense(2.0, 3.0, 3.0));//规定数据结构为LabeledPoint，1.0为类别标号，Vectors.dense(2.0, 3.0, 3.0)为特征向量

        LabeledPoint neg = new LabeledPoint(0.0, Vectors.sparse(3, new int[] {2, 1,1}, new double[] {1.0, 1.0,1.0}));//特征值稀疏时，利用sparse构建

       List l = new LinkedList();//利用List存放训练样本

        l.add(neg);

        l.add(pos);

        JavaRDD<LabeledPoint>training = sc.parallelize(l); //ＲＤＤ化，泛化类型为LabeledPoint 而不是List

        final NaiveBayesModel nb_model = NaiveBayes.train(training.rdd());        

        //测试集生成

        double []  d = {1,1,2};

        Vector v =  Vectors.dense(d);//测试对象为单个vector，或者是ＲＤＤ化后的vector

        //朴素贝叶斯

      System.out.println(nb_model.predict(v));// 分类结果

      System.out.println(nb_model.predictProbabilities(v)); // 计算概率值

      //支持向量机

      int numIterations = 100;//迭代次数

      final SVMModel svm_model = SVMWithSGD.train(training.rdd(), numIterations);//构建模型

      System.out.println(svm_model.predict(v));

      //决策树

      Integer numClasses = 2;//类别数量

      Map<Integer, Integer> categoricalFeaturesInfo = new HashMap();

      String impurity = "gini";//对于分类问题，我们可以用熵entropy或Gini来表示信息的无序程度 ,对于回归问题，我们用方差(Variance)来表示无序程度，方差越大，说明数据间差异越大

      Integer maxDepth = 5;//最大树深

      Integer maxBins = 32;//最大划分数

      final DecisionTreeModel tree_model = DecisionTree.trainClassifier(training, numClasses,categoricalFeaturesInfo, impurity, maxDepth, maxBins);//构建模型

      System.out.println("决策树分类结果：");

      System.out.println(tree_model.predict(v));

      //随机森林

      Integer numTrees = 3; // Use more in practice.

      String featureSubsetStrategy = "auto"; // Let the algorithm choose.

      Integer seed = 12345;

      // Train a RandomForest model.

      final RandomForestModel forest_model = RandomForest.trainRegressor(training,

        categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins, seed);//参数与决策数基本一致，除了seed

      System.out.println("随机森林结果：");

      System.out.println(forest_model.predict(v));

    }

  }

三.注意

１.利用spark进行数据分析时，数据一般要转化为ＲＤＤ（利用spark所提供接口读取外部文件,一般会自动转化为ＲＤＤ，通过ＭａｐＲｅｄｕｃｅ处理同样可以产生与接口匹配的训练集）

2.训练样本统一为标签向量(LabelPoint)。样本集为List,但是转化为ＲＤＤ时，数据类型却为JavaRDD<LabeledPoint>（模型训练时，接口只接收数据类型为JavaRDD<LabeledPoint>）

3.分类predict返回结果为类别标签,贝叶斯模型可返回属于不同类的概率（ｐｙｔｈｏｎ没用该接口）

Spark-Mllib中各分类算法的java实现(简易教程)的更多相关文章

Spark MLlib中KMeans聚类算法的解析和应用
聚类算法是机器学习中的一种无监督学习算法,它在数据科学领域应用场景很广泛,比如基于用户购买行为.兴趣等来构建推荐系统. 核心思想可以理解为,在给定的数据集中(数据集中的每个元素有可被观察的n个属性), ...
基于Spark Mllib的文本分类
基于Spark Mllib的文本分类文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测.这在很多领域都有现实的应用场景,如新闻网站 ...
转载：Databricks孟祥瑞：ALS 在 Spark MLlib 中的实现
Databricks孟祥瑞:ALS 在 Spark MLlib 中的实现发表于2015-05-07 21:58| 10255次阅读| 来源<程序员>电子刊| 9 条评论| 作者孟祥瑞大 ...
Apache Spark源码走读之23 -- Spark MLLib中拟牛顿法L-BFGS的源码实现
欢迎转载,转载请注明出处,徽沪一郎. 概要本文就拟牛顿法L-BFGS的由来做一个简要的回顾,然后就其在spark mllib中的实现进行源码走读. 拟牛顿法数学原理代码实现 L-BFGS算法中使 ...
Spark MLlib中的OneHot哑变量实践
在机器学习中,线性回归和逻辑回归算是最基础入门的算法,很多书籍都把他们作为第一个入门算法进行介绍.除了本身的公式之外,逻辑回归和线性回归还有一些必须要了解的内容.一个很常用的知识点就是虚拟变量(也叫做 ...
Spark MLlib之水塘抽样算法（Reservoir Sampling）
1.理解问题定义可以简化如下:在不知道文件总行数的情况下,如何从文件中随机的抽取一行? 首先想到的是我们做过类似的题目吗?当然,在知道文件行数的情况下,我们可以很容易的用C运行库的rand函数随机的 ...
spark.mllib源代码阅读-优化算法1-Gradient
Spark中定义的损失函数及梯度,在看源代码之前,先回想一下机器学习中定义了哪些损失函数,毕竟梯度求解是为优化求解损失函数服务的. 监督学习问题是在如果空间F中选取模型f作为决策函数.对于给定的输入X ...
面试中常见的算法之Java中的递归
1.方法定义中调用方法本身的现象2.递归注意实现 1) 要有出口,否则就是死递归 2) 次数不能太多,否则就内存溢出 3) 构造方法不能递归使用3.递归解决问题的思想和图解: 分解和合并[先分解后合并 ...
Java Logback简易教程
本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可. 一.前言本文以一个简单的项目为例,一步步展示logback的同步和异步配置方法,并且配置的日志要求满足阿里巴巴Java开发手册- ...

随机推荐

web安全知识
参考文章 : https://www.mudoom.com/php%E5%AE%89%E5%85%A8%E7%BC%96%E7%A0%81/ SQL注入造成sql注入的原因是因为程序没有过滤用户输 ...
《DSP using MATLAB》示例Example 6.26
代码: % r = 0.9; theta = (pi/180)*[-55:5:-35, 35:5:55]'; p = r*exp(j*theta); a = poly(p); b = 1; % Dir ...
HTMLTestRunner显示用例打印内容
我们知道默认的HTMLTestRunner运行时成功只会显示...,失败也只是显示E suite = unittest.TestLoader().loadTestsFromTestCase(MyTes ...
电源lc滤波及单点接地（转载）
1.在一个高速数字电路设计里面,看到在电源部分进行了如下的处理.不过怎么都不能理解,如果说1uF和0.1uF电容并联,这块处理是一个经验值.那么前面的LC滤波参数,参数又是如何确定的?DVDD-in输 ...
bzoj 4815 [Cqoi2017]小Q的表格——反演+分块
题目:https://www.lydsy.com/JudgeOnline/problem.php?id=4815 大概就是推式子的时候注意有两个边界都是 n ,考虑变成 2*... 之类的. 分块维护 ...
RK3288 查看ddr频率
转载请注明出处:https://www.cnblogs.com/lialong1st/p/8515135.html RK3288 查看 ddr 当前频率的方式有两种,第一种是通过 adb 查看,第二种 ...
STL容器——对map排序
STL容器(三)——对map排序对于map的排序问题,主要分为两部分:根据key排序:根据value排序.下面我们就分别说一下~ 1. 根据key进行排序 map默认按照key进行升序排序 ,和输入 ...
linux 定时任务 Crond Crontab
定时任务http://www.cnblogs.com/chensiqiqi/p/6367890.html http://www.cnblogs.com/chensiqiqi/p/6389611.htm ...
(转)Inno Setup入门（二十二）——Inno Setup类参考（8）
本文转载自:http://blog.csdn.net/yushanddddfenghailin/article/details/17268473 列表框列表框(ListBox)是Windows应用程 ...
bc显示小数点前的0
bc是强大而常用的计算工具.不过在除法运算时,如果得到的结果值小于1,得到的小数前面的0不存.本篇提供几个常用小数点前缺0的解决方法. [root@maqing ~]# bc bc Copyright ...

Spark-Mllib中各分类算法的java实现(简易教程)

Spark-Mllib中各分类算法的java实现(简易教程)的更多相关文章

随机推荐

热门专题