SparkMLlib学习分类算法之逻辑回归算法

SparkMLlib分类算法之逻辑回归算法

（一），逻辑回归算法的概念（参考网址：http://blog.csdn.net/sinat_33761963/article/details/51693836）

　　　　逻辑回归与线性回归类似，但它不属于回归分析家族（主要为二分类），而属于分类家族，差异主要在于变量不同，因此其解法与生成曲线也不尽相同。逻辑回归是无监督学习的一个重要算法，对某些数据与事物的归属（分到哪个类别）及可能性（分到某一类别的概率）进行评估。

（二），SparkMLlib逻辑回归应用

1，数据集的选择：http://www.kaggle.com/c/stumbleupon/data 中的（train.txt和test.txt）

2，数据集描述：关于涉及网页中推荐的页面是短暂（短暂存在，很快就不流行了）还是长久（长时间流行）的分类

3，数据预处理及获取训练集和测试集

val orig_file=sc.textFile("train_nohead.tsv")

    //println(orig_file.first())

    val data_file=orig_file.map(_.split("\t")).map{

      r =>

        val trimmed =r.map(_.replace("\"",""))

        val lable=trimmed(r.length-1).toDouble

        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0

        else d.toDouble)

        LabeledPoint(lable,Vectors.dense(feature))

    }.randomSplit(Array(0.7,0.3),11L)

    val data_train=data_file(0)//训练集

    val data_test=data_file(1)//测试集

4，逻辑回归模型训练及模型评价

val model_log=new LogisticRegressionWithLBFGS().setNumClasses(2).run(data_train)

/*

有两种最优化算法可以求解逻辑回归问题并求出最优参数：mini-batch gradient descent(梯度下降法），L-BFGS法。我们更推荐使用L-BFGS，因为它能更快聚合,而且现在spark2.1.0已经放弃LogisticRegressionWithLSGD()模式了*/

/*性能评估：使用精确度，PR曲线，AOC曲线*/

 val predictionAndLabels=data_test.map(point =>

      (model_log.predict(point.features),point.label)

    )

    val metricsLG=new MulticlassMetrics(predictionAndLabels)//0.6079335793357934

val metrics=Seq(model_log).map{

      model =>

        val socreAndLabels=data_test.map {

          point => (model.predict(point.features), point.label)

        }

        val metrics=new BinaryClassificationMetrics(socreAndLabels)

        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())

    }

val allMetrics = metrics

    allMetrics.foreach{ case (m, pr, roc) =>

      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")

    }

/*LogisticRegressionModel, Area under PR: 73.1104%, Area under ROC: 60.4200%*/

5，模型优化

　　特征标准化处理

val orig_file=sc.textFile("train_nohead.tsv")

    //println(orig_file.first())

    val data_file=orig_file.map(_.split("\t")).map{

      r =>

        val trimmed =r.map(_.replace("\"",""))

        val lable=trimmed(r.length-1).toDouble

        val feature=trimmed.slice(4,r.length-1).map(d => if(d=="?")0.0

        else d.toDouble)

        LabeledPoint(lable,Vectors.dense(feature))

    }

   /*特征标准化优化*/

    val vectors=data_file.map(x =>x.features)

    val rows=new RowMatrix(vectors)

    println(rows.computeColumnSummaryStatistics().variance)//每列的方差

    val scaler=new StandardScaler(withMean=true,withStd=true).fit(vectors)//标准化

    val scaled_data=data_file.map(point => LabeledPoint(point.label,scaler.transform(point.features)))

        .randomSplit(Array(0.7,0.3),11L)

    val data_train=scaled_data(0)

    val data_test=scaled_data(1)

/*训练逻辑回归模型*/

    val model_log=new LogisticRegressionWithLBFGS().setNumClasses(2).run(data_train)

/*在使用模型做预测时，如何知道预测到底好不好呢？换句话说，应该知道怎么评估模型性能。

    通常在二分类中使用的评估方法包括：预测正确率和错误率、准确率和召回率、准确率  召回率

    曲线下方的面积、 ROC 曲线、 ROC 曲线下的面积和 F-Measure*/

    val predictionAndLabels=data_test.map(point =>

      (model_log.predict(point.features),point.label)

    )

    val metricsLG=new MulticlassMetrics(predictionAndLabels)//精确度：0.6236162361623616

val metrics=Seq(model_log).map{

      model =>

        val socreAndLabels=data_test.map {

          point => (model.predict(point.features), point.label)

        }

        val metrics=new BinaryClassificationMetrics(socreAndLabels)

        (model.getClass.getSimpleName,metrics.areaUnderPR(),metrics.areaUnderROC())

    }

val allMetrics = metrics

    allMetrics.foreach{ case (m, pr, roc) =>

      println(f"$m, Area under PR: ${pr * 100.0}%2.4f%%, Area under ROC: ${roc * 100.0}%2.4f%%")

    }

/*LogisticRegressionModel, Area under PR: 74.1103%, Area under ROC: 62.0064%*/

6，总结

　　1，如何能提高更明显的精度。。。。。

　　2，对逻辑回归的认识还不够。。。。

SparkMLlib学习分类算法之逻辑回归算法的更多相关文章

SparkMLlib分类算法之逻辑回归算法
SparkMLlib分类算法之逻辑回归算法 (一),逻辑回归算法的概念(参考网址:http://blog.csdn.net/sinat_33761963/article/details/5169383 ...
分类算法之逻辑回归（Logistic Regression
分类算法之逻辑回归(Logistic Regression) 1.二分类问题现在有一家医院,想要对病人的病情进行分析,其中有一项就是关于良性\恶性肿瘤的判断,现在有一批数据集是关于肿瘤大小的,任务就 ...
sklearn调用逻辑回归算法
1.逻辑回归算法即可以看做是回归算法,也可以看作是分类算法,通常用来解决分类问题,主要是二分类问题,对于多分类问题并不适合,也可以通过一定的技巧变形来间接解决. 2.决策边界是指不同分类结果之间的边界 ...
一小部分机器学习算法小结: 优化算法、逻辑回归、支持向量机、决策树、集成算法、Word2Vec等
优化算法先导知识:泰勒公式 \[ f(x)=\sum_{n=0}^{\infty}\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n \] 一阶泰勒展开: \[ f(x)\approx ...
逻辑回归算法的原理及实现(LR)
Logistic回归虽然名字叫"回归" ,但却是一种分类学习方法.使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素.逻辑回归(Logistic Regression, L ...
Spark机器学习(2)：逻辑回归算法
逻辑回归本质上也是一种线性回归,和普通线性回归不同的是,普通线性回归特征到结果输出的是连续值,而逻辑回归增加了一个函数g(z),能够把连续值映射到0或者1. MLLib的逻辑回归类有两个:Logist ...
（数据科学学习手札24）逻辑回归分类器原理详解&Python与R实现
一.简介逻辑回归(Logistic Regression),与它的名字恰恰相反,它是一个分类器而非回归方法,在一些文献里它也被称为logit回归.最大熵分类器(MaxEnt).对数线性分类器等:我们 ...
吴恩达深度学习：2.9逻辑回归梯度下降法(Logistic Regression Gradient descent)
1.回顾logistic回归,下式中a是逻辑回归的输出,y是样本的真值标签值 . (1)现在写出该样本的偏导数流程图.假设这个样本只有两个特征x1和x2, 为了计算z,我们需要输入参数w1.w2和b还 ...
《BI那点儿事》Microsoft 逻辑回归算法——预测股票的涨跌
数据准备:一组股票历史成交数据(股票代码:601106 中国一重),起止日期:2011-01-04至今,其中变量有“开盘”.“最高”.“最低”.“收盘”.“总手”.“金额”.“涨跌”等 UPDATE ...

随机推荐

WPF之路五：wpf 隐藏与显示 Visibility
WPF里枚举变量Visibility 有三个值:Visible, Collapsed和Hidden.其中Collapsed是WPF新引进的,其作用是不仅隐去Control,同时也会移除Control所 ...
This Handler class should be static or leaks might occur(null) 解决办法 (转)
原文链接:http://blog.csdn.net/wuleihenbang/article/details/17126371 首先解释下这句话This Handler class should be ...
Angular4.0.0发布总览文章
翻译自angular.io上的关于4.0.0版本发布的文章,内容主要是介绍了4.0.0版本下的改进以及接下来还会有的其他更新,4.0.0其实已经出来好多天了,截止目前都已经到了4.0.1版本了,这也是 ...
Java与面向对象之随感(2)
我们知道Java语言的一大特性就是相比于c语言和c++语言,其更加安全.那么Java安全性的一个重要保证就是它取消了指针,并且坚决反对数组的出界(c++对当数组超出上限但是还进行读写操作时允许的!), ...
【Scala】Scala之Traits
一.前言前面学习了Scala中包和导入的相关知识点,接着学习Traits(特质) 二.Traits Scala的特质与Java的接口基本相同,当遇到可以使用Java接口的情形,就可以考虑使用特质,S ...
我从现象中学到的CSS
文字溢出隐藏如果你观察过浮动元素,你会发现这样一个事实,当前一个元素将宽度占满以后,后一个元素就会往下掉,如下所示代码如下 <style> div,p{ margin:0; } #bo ...
MapReduce中一次reduce方法的调用中key的值不断变化分析及源码解析
摘要:mapreduce中执行reduce(KEYIN key, Iterable<VALUEIN> values, Context context),调用一次reduce方法,迭代val ...
Android -- 带你从源码角度领悟Dagger2入门到放弃
1,以前的博客也写了两篇关于Dagger2,但是感觉自己使用的时候还是云里雾里的,更不谈各位来看博客的同学了,所以今天打算和大家再一次的入坑试试,最后一次了,保证最后一次了. 2,接入项目在项目的G ...
dispatch_group_t 日常使用注意事项
一.背景简介平时在进行多线程处理任务时,有时候希望多个任务之间存在着一种联系,希望在所有的任务执行完后做一些总结性处理.那么就可以将多个任务放在一个任务组中进行统一管理.dispatch提供了相应的A ...
使用vue-cli构建多页面应用+vux（三）
上节中,我们成功的将vue-cli改造成了多入口,既然用了上简单的脚手架,那就希望用个合适的UI组件,去搜索了几个以后,最后选择了使用vux 贴上其vux的github地址 https://gith ...

SparkMLlib学习分类算法之逻辑回归算法

SparkMLlib学习分类算法之逻辑回归算法的更多相关文章

随机推荐

热门专题