lakala GradientBoostedTrees
/**
* Created by lkl on 2017/12/6.
*/
import org.apache.spark.mllib.evaluation.BinaryClassificationMetrics
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}
import scala.collection.mutable.ArrayBuffer
object GradientBoostingClassificationForLK {
//http://blog.csdn.net/xubo245/article/details/51499643
def main(args: Array[String]): Unit = {
val conf = new SparkConf().setAppName("GradientBoostingClassificationForLK")
val sc = new SparkContext(conf) // sc is an existing SparkContext.
val hc = new HiveContext(sc) if(args.length!=){
println("请输入参数:trainingData对应的库名、表名、模型运行时间")
System.exit()
} //分别传入库名、表名、对比效果路径
// val database = args(0)
// val table = args(1)
// val date = args(2)
//lkl_card_score.overdue_result_all_new_woe
val format = new java.text.SimpleDateFormat("yyyyMMdd")
val database ="lkl_card_score"
val table = "overdue_result_all_new_woe"
val date =format.format(new java.util.Date())
//提取数据集 RDD[LabeledPoint]
//val data = hc.sql(s"select * from $database.$table").map{ val data = hc.sql(s"select * from lkl_card_score.overdue_result_all_new_woe").map{
row =>
var arr = new ArrayBuffer[Double]()
//剔除label、contact字段
for(i <- until row.size){
if(row.isNullAt(i)){
arr += 0.0
}
else if(row.get(i).isInstanceOf[Int])
arr += row.getInt(i).toDouble
else if(row.get(i).isInstanceOf[Double])
arr += row.getDouble(i)
else if(row.get(i).isInstanceOf[Long])
arr += row.getLong(i).toDouble
else if(row.get(i).isInstanceOf[String])
arr += 0.0
}
LabeledPoint(row.getInt(), Vectors.dense(arr.toArray))
}
// Split the data into training and test sets (30% held out for testing)
val splits = data.randomSplit(Array(0.7, 0.3))
val (trainingData, testData) = (splits(), splits()) // Train a GradientBoostedTrees model.
// The defaultParams for Classification use LogLoss by default.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.setNumIterations() // Note: Use more iterations in practice.
boostingStrategy.treeStrategy.setNumClasses()
boostingStrategy.treeStrategy.setMaxDepth()
// Empty categoricalFeaturesInfo indicates all features are continuous.
//boostingStrategy.treeStrategy.setCategoricalFeaturesInfo(Map[Int, Int]()) val model = GradientBoostedTrees.train(trainingData, boostingStrategy) // Evaluate model on test instances and compute test error
val predictionAndLabels = testData.map { point =>
val prediction = model.predict(point.features)
(point.label, prediction)
} predictionAndLabels.map(x => {"predicts: "+x._1+"--> labels:"+x._2}).saveAsTextFile(s"hdfs://ns1/tmp/$date/predictionAndLabels")
//===================================================================
//使用BinaryClassificationMetrics评估模型
val metrics = new BinaryClassificationMetrics(predictionAndLabels) // Precision by threshold
val precision = metrics.precisionByThreshold
precision.map({case (t, p) =>
"Threshold: "+t+"Precision:"+p
}).saveAsTextFile(s"hdfs://ns1/tmp/$date/precision") // Recall by threshold
val recall = metrics.recallByThreshold
recall.map({case (t, r) =>
"Threshold: "+t+"Recall:"+r
}).saveAsTextFile(s"hdfs://ns1/tmp/$date/recall") //the beta factor in F-Measure computation.
val f1Score = metrics.fMeasureByThreshold
f1Score.map(x => {"Threshold: "+x._1+"--> F-score:"+x._2+"--> Beta = 1"})
.saveAsTextFile(s"hdfs://ns1/tmp/$date/f1Score") /**
* 如果要选择Threshold, 这三个指标中, 自然F1最为合适
* 求出最大的F1, 对应的threshold就是最佳的threshold
*/
/*val maxFMeasure = f1Score.select(max("F-Measure")).head().getDouble(0)
val bestThreshold = f1Score.where($"F-Measure" === maxFMeasure)
.select("threshold").head().getDouble(0)*/ // Precision-Recall Curve
val prc = metrics.pr
prc.map(x => {"Recall: " + x._1 + "--> Precision: "+x._2 }).saveAsTextFile(s"hdfs://ns1/tmp/$date/prc") // AUPRC,精度,召回曲线下的面积
val auPRC = metrics.areaUnderPR
sc.makeRDD(Seq("Area under precision-recall curve = " +auPRC)).saveAsTextFile(s"hdfs://ns1/tmp/$date/auPRC") //roc
val roc = metrics.roc
roc.map(x => {"FalsePositiveRate:" + x._1 + "--> Recall: " +x._2}).saveAsTextFile(s"hdfs://ns1/tmp/$date/roc") // AUC
val auROC = metrics.areaUnderROC
sc.makeRDD(Seq("Area under ROC = " + +auROC)).saveAsTextFile(s"hdfs://ns1/tmp/$date/auROC")
println("Area under ROC = " + auROC) val testErr = predictionAndLabels.filter(r => r._1 != r._2).count.toDouble / testData.count()
sc.makeRDD(Seq("Test Mean Squared Error = " + testErr)).saveAsTextFile(s"hdfs://ns1/tmp/$date/testErr")
sc.makeRDD(Seq("Learned regression tree model: " + model.toDebugString)).saveAsTextFile(s"hdfs://ns1/tmp/$date/GBDTclassification")
} }
lakala GradientBoostedTrees的更多相关文章
- lakala反欺诈建模实际应用代码GBDT监督学习
/** * Created by lkl on 2018/1/16. */ import org.apache.spark.mllib.evaluation.BinaryClassificationM ...
- lakala proportion轨迹分析代码
/** * Created by lkl on 2017/12/7. */ import breeze.numerics.abs import org.apache.spark.sql.SQLCont ...
- 决策树和基于决策树的集成方法(DT,RF,GBDT,XGBT)复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-the ...
- 《Spark 官方文档》机器学习库(MLlib)指南
spark-2.0.2 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...
- ORACLE11G常用函数
1 单值函数 1.1 日期函数 1.1.1 Round [舍入到最接近的日期](day:舍入到最接近的星期日) select sysdate S1, round(sysdate) S2 , round ...
- 决策树和基于决策树的集成方法(DT,RF,GBDT,XGB)复习总结
摘要: 1.算法概述 2.算法推导 3.算法特性及优缺点 4.注意事项 5.实现和具体例子 内容: 1.算法概述 1.1 决策树(DT)是一种基本的分类和回归方法.在分类问题中它可以认为是if-the ...
- MLlib--GBDT算法
转载请标明出处http://www.cnblogs.com/haozhengfei/p/8b9cb1875288d9f6cfc2f5a9b2f10eac.html GBDT算法 江湖传言:GBDT算法 ...
- spark MLlib Classification and regression 学习
二分类:SVMs,logistic regression,decision trees,random forests,gradient-boosted trees,naive Bayes 多分类: ...
- Oracle分析函数及常用函数: over(),rank()over()作用及用法--分区(分组)求和& 不连续/连续排名
(1) 函数: over()的作用及用法: -- 分区(分组)求和. sum() over( partition by column1 order by column2 )主要用来对某个字 ...
随机推荐
- docker之创建MariaDB镜像的方法
一.基于commit命令方式创建 docker的安装 ? 1 2 3 [root@test01 ~]# yum install docker [root@test01 ~]# systemctl en ...
- spacemacs怎样配置编辑器显示行号?
spacemacs配置文件.spacemacs文件中查找dotspacemacs-line-numbers. 默认配置为: dotspacemacs-line-numbers nil 修改为(`rel ...
- Sql server在另一台服务器,在Visual Studio 中没问题,IIS中 提示“在与 SQL Server 建立连接时出现与网络相关的或特定于实例的错误。。。。”
可能问题一: 确切的说是在IIS 7.5中有这问题 就是在visual studio中都用的好好的,但是加载到IIS上的时候竟然报错“ 在与 SQL Server 建立连接时出现与网络相关的或特定于实 ...
- 关于python最大递归深度 - 998
今天LeetCode的时候暴力求解233 问题: 给定一个整数 n,计算所有小于等于 n 的非负数中数字1出现的个数. 例如: 给定 n = 13, 返回 6,因为数字1出现在下数中出现:1,10,1 ...
- 记录 am335x 因为 pinmux 配置不对导致 不断的原因
其实很简单,是因为 中断不仅仅需要 gpio 的 input 属性, 还需要 pull_up 的数据 {"gpmc_ad11.gpio0_27", OMAP_MUX_MODE7 | ...
- [Timer]应用层实现sleep
转自:https://www.cnblogs.com/longbiao831/p/4556246.html Select只能做延时,可以做回调吗? 本文讲述如何使用select实现超级时钟.使用sel ...
- OPC UA
OPC UA将来自不同厂商不同设备的数据进行统一格式.统一显示. OPC: originally knowns as “OLE for Process Control”, now “Open Plat ...
- 怎么让win7右下角只显示时间不显示日期 ?(可行)
测试环境:win7(win10没发现以下选项) 任务栏空白处右键 → 属性 勾选 使用小图标 确定即可,图标太小的话,右键任务栏,把锁定任务栏前的勾去掉,然后把任务栏拉宽点你就看到了.
- shell+钉钉机器人完成java程序中断后自启动和实时监控
java实时程序在运行过程中偶尔出现异常信息中断的情况,通过shell脚本即可完成自启动. 以下为监控一个实时的java程序的shell脚本. 通过每10秒检查一次java程序的进程,来判断程序是否处 ...
- Java中各种集合(字符串类)的线程安全性!!!
Java中各种集合(字符串类)的线程安全性!!! 一.概念: 线程安全:就是当多线程访问时,采用了加锁的机制:即当一个线程访问该类的某个数据时,会对这个数据进行保护,其他线程不能对其访问,直到该线程读 ...