Spark快速获得CrossValidator的最佳模型参数

Spark提供了便利的Pipeline模型，可以轻松的创建自己的学习模型。

但是大部分模型都是需要提供参数的，如果不提供就是默认参数，那么怎么选择参数就是一个比较常见的问题。Spark提供在org.apache.spark.ml.tuning包下提供了模型选择器，可以替换参数然后比较模型输出。

目前有CrossValidator和TrainValidationSplit两种，比如一个文本情感预测模型。

Pipeline只有三步，第一步切词，第二步HashingTF，第三步NB分类

Pipeline pipeline = new Pipeline()

                .setStages(new PipelineStage[]{tokenizer, hashingTF, naiveBayes});

ParamMap[] paramMaps = new ParamGridBuilder()

                .addGrid(hashingTF.numFeatures(), new int[]{, , , })

                .build();

CrossValidator cv = new CrossValidator()

                .setEstimator(pipeline)

                .setEvaluator(new BinaryClassificationEvaluator())

                .setEstimatorParamMaps(paramMaps);

其中HashingTF的参数选择非常重要，我们这里就随便尝试几种，然后放在CrossValidator中去。

最后我们会获得一个CrossValidatorModel类，这里有两种选择。

第一种是自己手动获取其中的参数，因为bestModel的参数就是我们最后选择的参数

Pipeline bestPipeline = (Pipeline) model.bestModel().parent();

PipelineStage stage = bestPipeline.getStages()[];

stage.extractParamMap().get(stage.getParam("numFeatures"));

这种方法可以获得值，但是需要根据你模型情况修改获取的位置。

如果你只是想知道最佳参数是多少，并不是需要在上下文中使用，那还有一个更简单的方法。

修改log4j的配置，添加

log4j.logger.org.apache.spark.ml.tuning.TrainValidationSplit=INFO

log4j.logger.org.apache.spark.ml.tuning.CrossValidator=INFO

效果如下：

Spark快速获得CrossValidator的最佳模型参数的更多相关文章

Spark快速入门 - Spark 1.6.0
Spark快速入门 - Spark 1.6.0 转载请注明出处:http://www.cnblogs.com/BYRans/ 快速入门(Quick Start) 本文简单介绍了Spark的使用方式.首 ...
Spark快速入门
Spark 快速入门本教程快速介绍了Spark的使用. 首先我们介绍了通过Spark 交互式shell调用API( Python或者scala代码),然后演示如何使用Java, Scala或者P ...
利用 TFLearn 快速搭建经典深度学习模型
利用 TFLearn 快速搭建经典深度学习模型使用 TensorFlow 一个最大的好处是可以用各种运算符(Ops)灵活构建计算图,同时可以支持自定义运算符(见本公众号早期文章<Tenso ...
深度学习方法（七）：最新SqueezeNet 模型详解，CNN模型参数降低50倍，压缩461倍！
欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入. 继续前面关于深度学习CNN经典模型的 ...
[转] Spark快速入门指南 – Spark安装与基础使用
[From] https://blog.csdn.net/w405722907/article/details/77943331 Spark快速入门指南 – Spark安装与基础使用 2017年09月 ...
Spark流式编程介绍 - 编程模型
来源Spark官方文档 http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#programm ...
fluent批量处理——模型参数的设置
对于常见的工程应用来说,计算的工况很多,尤其优化工作,少则几百,多则上千,面对如此之多的case文件要写,假如按照一个一个的读写的话,相信你一定会为这么机械的工作烦躁,甚至影响今后好几天的心情,那么有 ...
spark快速大数据分析学习笔记*初始化sparkcontext(一)
初始化SparkContext 1// 在java中初始化spark import org.apache.spark.SparkConf; import org.apache.spark.api.ja ...
LTE Module User Documentation（翻译1）——背景、使用概述、基本的仿真程序和配置LTE模型参数
LTE用户文档 (如有不当的地方,欢迎指正!) 1.背景假定读者已经熟悉 ns-3 simulator ,能运行一般的仿真程序.如果不是的话,强烈推荐读者参考 [ns3tutorial]. 2. ...

随机推荐

6.18_web服务器内容
#coding:utf-8 ''' 2018-6-18 14:47:23 创建一个静态服务器访问指定页面 http://127.0.0.1:8000/ ''' import socket from m ...
org.apache.jasper.JasperException:Unable to read TLD "META-INF/c-1_0-rt.tld" from JAR file jstl-1.2.jar
前两天把项目从eclipse EE版搬到MyEclipse中了.配置好jdk,确定build path中没有报错后,在tomcat中运行.结果,报错: org.apache.jasper.Jasper ...
Echarts 的Formatter的回调函数
option = { tooltip: { trigger: 'axis', formatter: function (params,ticket,callback) { let res = para ...
泡泡一分钟：Exploiting Points and Lines in Regression Forests for RGB-D Camera Relocalization
Exploiting Points and Lines in Regression Forests for RGB-D Camera Relocalization 利用回归森林中的点和线进行RGB-D ...
ubuntu系统中java -version所显示的版本与/etc/profile中配置的$JAVA_HOME的关系
问题产生 ubuntu 18.04环境下,执行 java -version 发现与/etc/profile中的$JAVA_HOME所设置的java版本不同. 推测原因最近用apt install 安 ...
使用double无法得到数学上的精确结果的原因及为何不能用double来初始化BigDecimal
使用double无法得到数学上的精确结果的原因: double类型的数值占用64bit,即64个二进制数,除去最高位表示正负符号的位,在最低位上一定会与实际数据存在误差(除非实际数据恰好是2的n次方) ...
iOS-原生纯代码约束总结（一）之 AutoresizingMask
一,概述 iOS有两大自动布局利器:autoresizing 和 autolayout(autolayout是IOS6以后新增).autoresizing是UIView的属性,一直存在,使用也比较简单 ...
xcode工程编译错误:一般错误总结
1.Apple LLVM 8.0 Error Group /’all-product-headers.yaml’ not found 最近升级了xcode打包后出现了个BUG,记录解决的方法. 现象: ...
sparking water
1 2 It provides a way to initialize H2O services on each node in the Spark cluster and to access dat ...
LeetCode 852 Peak Index in a Mountain Array 解题报告
题目要求 Let's call an array A a mountain if the following properties hold: A.length >= 3 There exist ...

Spark快速获得CrossValidator的最佳模型参数

Spark快速获得CrossValidator的最佳模型参数的更多相关文章

随机推荐

热门专题