SparkMLlib分类算法之支持向量机

SparkMLlib分类算法之支持向量机

（一），概念

　　支持向量机(support vector machine)是一种分类算法，通过寻求结构化风险最小来提高学习机泛化能力，实现经验风险和置信范围的最小化，从而达到在统计样本量较少的情况下，亦能获得良好统计规律的目的。通俗来讲，它是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，即支持向量机的学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解。参考网址：http://www.cnblogs.com/end/p/3848740.html

（二），SparkMLlib中SVM回归应用

1，数据集：参考这篇SparkMLlib学习分类算法之逻辑回归算法

2，处理数据及获取训练集和测试集

val orig_file=sc.textFile("train_nohead.tsv")

    //println(orig_file.first())

    val data_file=orig_file.map(_.split("\t")).map{

      r =>

        val trimmed =r.map(_.replace("\"",""))

        val lable=trimmed(r.length-1).toDouble

        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0

        else d.toDouble)

        LabeledPoint(lable,Vectors.dense(feature))

    }

   /*特征标准化优化*/

    val vectors=data_file.map(x =>x.features)

    val rows=new RowMatrix(vectors)

    println(rows.computeColumnSummaryStatistics().variance)//每列的方差

    val scaler=new StandardScaler(withMean=true,withStd=true).fit(vectors)//标准化

    val scaled_data=data_file.map(point => LabeledPoint(point.label,scaler.transform(point.features)))

        .randomSplit(Array(0.7,0.3),11L)

    val data_train=scaled_data(0)

    val data_test=scaled_data(1)

2，建立支持向量机模型及模型评估

 /*训练 SVM 模型**/

    val model_Svm=SVMWithSGD.train(data_train,numIteration)

val correct_svm=data_test.map{

      point => if(model_Svm.predict(point.features)==point.label)

        1 else 0

    }.sum()/data_test.count()//精确度：0.6060885608856088

val metrics=Seq(model_Svm).map{

      model =>

        val socreAndLabels=data_test.map {

          point => (model.predict(point.features), point.label)

        }

        val metrics=new BinaryClassificationMetrics(socreAndLabels)

        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())

    }

val allMetrics = metrics

    allMetrics.foreach{ case (m, pr, roc) =>

      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")

    }

/*

SVMModel, Area under PR: 72.5527%, Area under ROC: 60.4180%*/

3,模型参数调优

　　　逻辑回归（SGD）和 SVM 模型有相同的参数，原因是它们都使用随机梯度下降（ SGD ）作为基础优化技术。不同点在于二者采用的损失函数不同

3.1 定义调参函数及模型评估函数

/*调参函数*/

    def trainWithParams(input: RDD[LabeledPoint], regParam: Double,

                        numIterations: Int, updater: Updater, stepSize: Double) = {

      val svm = new SVMWithSGD

      svm.optimizer.setNumIterations(numIterations).

        setUpdater(updater).setRegParam(regParam).setStepSize(stepSize)

      svm.run(input)

    }

    /*评估函数*/

    def createMetrics(label: String, data: RDD[LabeledPoint], model:

    ClassificationModel) = {

      val scoreAndLabels = data.map { point =>

        (model.predict(point.features), point.label)

      }

      val metrics = new BinaryClassificationMetrics(scoreAndLabels)

      (label, metrics.areaUnderROC)

    }

3.2 改变迭代次数（发现一旦完成特定次数的迭代，再增大迭代次数对结果的影响较小）

val iterResults = Seq(1, 5, 10, 50).map { param =>

      val model = trainWithParams(data_train, 0.0, param, new

          SimpleUpdater, 1.0)

      createMetrics(s"$param iterations", data_test, model)

    }

    iterResults.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.2f%%") }

/*

1 iterations, AUC = 59.02%

5 iterations, AUC = 60.04%

10 iterations, AUC = 60.42%

50 iterations, AUC = 60.42%

*/

3.3 ,改变步长(以看出步长增长过大对性能有负面影响)

　　　　在 SGD 中，在训练每个样本并更新模型的权重向量时，步长用来控制算法在最陡的梯度方向上应该前进多远。较大的步长收敛较快，但是步长太大可能导致收敛到局部最优解。

val stepResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0).map { param =>

      val model = trainWithParams(data_train, 0.0, numIteration, new

          SimpleUpdater, param)

      createMetrics(s"$param step size", data_test, model)

    }

    stepResults.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.2f%%") }

/*

0.001 step size, AUC = 59.02%

0.01 step size, AUC = 59.02%

0.1 step size, AUC = 59.01%

1.0 step size, AUC = 60.42%

10.0 step size, AUC = 56.09%

*/

3.4 正则化

val regResults = Seq(0.001, 0.01, 0.1, 1.0, 10.0).map { param =>

      val model = trainWithParams(data_train, param, numIteration,

        new SquaredL2Updater, 1.0)

      createMetrics(s"$param L2 regularization parameter",

        data_test, model)

    }

    regResults.foreach { case (param, auc) => println(f"$param, AUC = ${auc * 100}%2.2f%%") }

/*

0.001 L2 regularization parameter, AUC = 60.42%

0.01 L2 regularization parameter, AUC = 60.42%

0.1 L2 regularization parameter, AUC = 60.37%

1.0 L2 regularization parameter, AUC = 60.56%

10.0 L2 regularization parameter, AUC = 41.54%

*/

　　　　可以看出，低等级的正则化对模型的性能影响不大。然而，增大正则化可以看到欠拟合会导致较低模型性能。
（三），总结
　　　　1，提高精确度感觉蛮难的，前提还是要先分析数据，对不同特征加以处理吧。。。。。
　　　　2，以后多学习。。。。

SparkMLlib分类算法之支持向量机的更多相关文章

SparkMLlib分类算法之决策树学习
SparkMLlib分类算法之决策树学习 (一) 决策树的基本概念决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风 ...
SparkMLlib分类算法之逻辑回归算法
SparkMLlib分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/5169383 ...
SparkMLlib学习分类算法之逻辑回归算法
SparkMLlib学习分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/51693 ...
[分类算法] ：SVM支持向量机
Support vector machines 支持向量机,简称SVM 分类算法的目的是学会一个分类函数或者分类模型(分类器),能够把数据库中的数据项映射给定类别中的某一个,从而可以预测未知类别. S ...
Spark-Mllib中各分类算法的java实现(简易教程)
一.简述 Spark是当下非常流行的数据分析框架,而其中的机器学习包Mllib也是其诸多亮点之一,相信很多人也像我那样想要快些上手spark.下面我将列出实现mllib分类的简明代码,代码中将简述训练 ...
分类算法SVM（支持向量机)
支持向量机(Support Vector Machine ,SVM)的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力.对于 ...
Netflix工程总监眼中的分类算法：深度学习优先级最低
Netflix工程总监眼中的分类算法:深度学习优先级最低摘要:不同分类算法的优势是什么?Netflix公司工程总监Xavier Amatriain根据奥卡姆剃刀原理依次推荐了逻辑回归.SVM.决策树 ...
SparkMLib分类算法之朴素贝叶斯分类
SparkMLib分类算法之朴素贝叶斯分类 (一)朴素贝叶斯分类理解朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法.简单来说,朴素贝叶斯分类器假设样本每个特征与其他特征都不相关.举个例子, ...
R语言与分类算法的绩效评估（转）
关于分类算法我们之前也讨论过了KNN.决策树.naivebayes.SVM.ANN.logistic回归.关于这么多的分类算法,我们自然需要考虑谁的表现更加的优秀. 既然要对分类算法进行评价,那么我们 ...

随机推荐

centos下编译phantomjs2.0
phantomjs是一个无头浏览器,可以用来做测试和爬虫,但是因为有一些问题没有解决,所以官网不提供2.0版本的binary包,所以要自己编译. 1.安装需要的依赖: sudo yum -y inst ...
String 类的实现（5）String常用函数
2 #include<iostream> 3 #include<stdio.h> 4 #include<assert.h> 5 #include <iom ...
js数组的几个练习题
第一次在博客园写文章,之前一直自己做记录.现在前端工作两年了,对前端整体技术有较清晰的了解.项目用了vue,react之类的写,如今打算从基础开始,慢慢深入了解原生的JS.这几天清明节,玩的嗨皮,最后 ...
使用SevenZipSharp出现“Can not load 7-zip library or internal COM error! Message: DLL file does not exist.”的解决方案
如果你是从nuget上下载安装的SevenZipSharp库,当你写好相应代码,兴冲冲的启动程序进行测试时,以下画面会让你受到当头一棒: 究其原因,是因为SevenZipSharp只是native 7 ...
word-wrap: break-word;与word-break: break-all;文本自动换行
word-break:break-all和word-wrap:break-word都是能使其容器如DIV的内容自动换行它们的区别就在于:1,word-break:break-all 例如div宽200 ...
webdriver介绍&与Selenium RC的比较
什么是webdriver? webdriver是一个web自动化测试框架,不同于selenium IDE只能运行在firefox上,webdriver能够在不同的浏览器上执行你的web测试用例.其支持 ...
Hybris license过期的解决办法
license过期编译是可以通过的,但是启动服务会报错: LICENSE VERIFICATION HAS FAILED! Your demo/develop license has expired, ...
JavaScript 简易版自动轮播手动轮播菜鸟交流
本人刚刚接触前端,许多知识还不了解,以前经常到博客园查询自己需要的东西,现在也终于反客为主了.作为新手,所展示的东西也是浅显易懂,希望同是新手的伙伴们共同交流.共同进步,若是成功捕获一位大大,也请您赐 ...
读书笔记 effective c++ Item 46 如果想进行类型转换，在模板内部定义非成员函数
1. 问题的引入——将operator*模板化 Item 24中解释了为什么对于所有参数的隐式类型转换,只有非成员函数是合格的,并且使用了一个为Rational 类创建的operator*函数作为实例 ...

SparkMLlib分类算法之支持向量机

SparkMLlib分类算法之支持向量机的更多相关文章

随机推荐

热门专题