lkl风控.随机森林模型测试代码spark1.6

/**

  * Created by lkl on 2017/10/9.

  */

import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.SparkConf

import scala.collection.mutable.ArrayBuffer

import org.apache.spark.SparkContext

import org.apache.spark.mllib.tree.RandomForest

import org.apache.spark.mllib.tree.model.RandomForestModel

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.sql.SQLContext

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.ml.evaluation.MulticlassClassificationEvaluator

object uvcy {

  def main(args: Array[String]) {

    val conf = new SparkConf().setAppName("test") //setMaster("spark://192.168.0.37:7077")

    val sc = new SparkContext(conf)

    val sqlContext = new SQLContext(sc)

    val hc = new HiveContext(sc)

    val data2 = hc.sql("select * from  fin_tec.uvcy2")

//第一个字段为身份证号，第二个字段为是否逾期，字符存在在hive中全部为double型

    val data = data2.map{ row => val arr = new ArrayBuffer[Double]()

        for(i <- 2 until row.size){

          if(row.isNullAt(i)){

            arr += 0.0}

          else if(row.get(i).isInstanceOf[Double])

            arr += row.getDouble(i)

          else if(row.get(i).isInstanceOf[Long])

            arr += row.getLong(i).toDouble

          else if(row.get(i).isInstanceOf[String])

            arr += row.getString(i).toDouble}

        LabeledPoint(row.getDouble(1), Vectors.dense(arr.toArray))}

    val splits = data.randomSplit(Array(0.7, 0.3))

    val (trainingData, testData) = (splits(0), splits(1))

    val numClasses = 2

    val categoricalFeaturesInfo = Map[Int, Int]()

    val numTrees = 3

    val featureSubsetStrategy = "auto"

    val impurity = "gini"

    val maxDepth = 4

    val maxBins = 32

    val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo, numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)

    val labelAndPreds = testData.map { point =>

      val prediction = model.predict(point.features)

      (point.label, prediction)

    }

    val evaluator = new MulticlassClassificationEvaluator().setLabelCol("indexedLabel").setPredictionCol("prediction").setMetricName("precision")

    val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDouble / testData.count()

    println("Test Error = " + testErr)

    println("Learned classification forest model:\n" + model.toDebugString)

    model.save(sc, "uvcymodel/forest")

    val sameModel = RandomForestModel.load(sc, "uvcymodel/forest")

    val data3 = hc.sql("select * from test.uvcy where i_l3_hk_amt=2150")

    val id="110101000000000000"

    val datas = data3.map{ row => val arr = new ArrayBuffer[Double]()

      for(i <- 2 until row.size){

        if(row.isNullAt(i)){

          arr += 0.0}

        else if(row.get(i).isInstanceOf[Double])

          arr += row.getDouble(i)

        else if(row.get(i).isInstanceOf[Long])

          arr += row.getLong(i).toDouble

        else if(row.get(i).isInstanceOf[String])

          arr += row.getString(i).toDouble}

      (Vectors.dense(arr.toArray))}

    val labelAndPreds2 = testData.map { point =>

      val prediction =sameModel.predict(point.features)

      (id,point.label, prediction,point.features)

    }

    labelAndPreds2.take(2)

  }

}

lkl风控.随机森林模型测试代码spark1.6的更多相关文章

在spark上构造随机森林模型过程的一点理解
这篇文章仅仅是为了帮助自己理解在分布式环境下是如何进行随机森林模型构建的,文章中记录的内容可能不太准确,仅仅是大致上的一个理解. 1.特征切分点统计不管是连续取值型特征还是离散取值型特征,分裂树结点 ...
python的随机森林模型调参
一.一般的模型调参原则 1.调参前提:模型调参其实是没有定论,需要根据不同的数据集和不同的模型去调.但是有一些调参的思想是有规律可循的,首先我们可以知道,模型不准确只有两种情况:一是过拟合,而是欠拟合 ...
daal4py 随机森林模型训练mnist并保存模型给C++ daal predict使用
# daal4py Decision Forest Classification Training example Serialization import daal4py as d4p import ...
笔记+R︱风控模型中变量粗筛（随机森林party包）+细筛（woe包）
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 本内容来源于CDA-DSC课程内容,原内容为& ...
R语言︱机器学习模型评估方案（以随机森林算法为例）
笔者寄语:本文中大多内容来自<数据挖掘之道>,本文为读书笔记.在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率.需要完整的评 ...
随机森林入门攻略（内含R、Python代码）
随机森林入门攻略(内含R.Python代码) 简介近年来,随机森林模型在界内的关注度与受欢迎程度有着显著的提升,这多半归功于它可以快速地被应用到几乎任何的数据科学问题中去,从而使人们能够高效快捷地获 ...
R语言︱决策树族——随机森林算法
每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 笔者寄语:有一篇<有监督学习选择深度学习 ...
Spark2 Random Forests 随机森林
随机森林是决策树的集合. 随机森林结合许多决策树,以减少过度拟合的风险. spark.ml实现支持随机森林,使用连续和分类特征,做二分类和多分类以及回归. 导入包 import org.apache. ...
随机森林（Random Forest），决策树，bagging， boosting（Adaptive Boosting，GBDT）
http://www.cnblogs.com/maybe2030/p/4585705.html 阅读目录 1 什么是随机森林? 2 随机森林的特点 3 随机森林的相关基础知识 4 随机森林的生成 5 ...

随机推荐

php 找出异常发生的地方
多层嵌套发生异常,找到异常最早发生的地方. final public int Exception::getLine ( void ) final public string Exception::ge ...
Eigen教程(9)
整理下Eigen库的教程,参考:http://eigen.tuxfamily.org/dox/index.html Eigen并没有为matrix提供直接的Reshape和Slicing的API,但是 ...
C++类默认函数
问题,which is true??? 每个类都有一个无参构造函数每个类都有一个拷贝构造函数每个类可以有多个构造函数每个类可以多个析构函数默认构造函数析构函数拷贝构造函数赋值 ...
java基础篇---内存分析
Java的并发采用的是共享内存模型(而非消息传递模型),线程之间共享程序的公共状态,线程之间通过写-读内存中的公共状态来隐式进行通信.多个线程之间是不能直接传递数据交互的,它们之间的交互只能通过共享变 ...
Redis集群方案<转>
为什么集群? 通常,为了提高网站响应速度,总是把热点数据保存在内存中而不是直接从后端数据库中读取.Redis是一个很好的Cache工具.大型网站应用,热点数据量往往巨大,几十G上百G是很正常的事儿,在 ...
tomcat出现的PermGen Space问题<转>
最近做项目碰到了让我纠结的问题,tomcat服务器运行一段时间,总是会自动报异常:java.lang.OutOfmemoryError: PermGen Space 的错误,导致项目无法正常运行. 出 ...
if语句和switch语句
1.基本写法 if if(逻辑表达式){语句:}else if{语句:else{语句:} switch switch(变量){case 常量值:语句:break:default:语句:} 2.举例 i ...
mac上怎么安装dmg
双击dmg文件,就会打开了,里面一般就是应用程序,拖到Finder-应用程序(如果里面是pkg格式,就是安装包,双击安装),然后还要注意一个安装完了以后,要把刚才载入的dmg推出,方法是把桌面上那个图 ...
阻止SPY++类似的程序捕捉软件窗口
我以前用Spy++能轻易捕捉360软件界面,除了一些应用DHTML制作的窗体.昨天我再用Spy++捕捉的时候捕捉不到了,甚至连最外围的对话框都捕捉不到,显然是做了类似拦截API的处理.下面我也模拟一下 ...
Ext.ux.grid.feature.Searching 解析查询参数，动态产生linq lambda表达式
上篇文章中http://www.cnblogs.com/qidian10/p/3209439.html我们介绍了如何使用Grid的查询组建,而且将查询的参数传递到了后台. 那么我们后台如何介绍参数,并 ...

lkl风控.随机森林模型测试代码spark1.6

lkl风控.随机森林模型测试代码spark1.6的更多相关文章

随机推荐

热门专题