spark 模型选择与超参调优

机器学习可以简单的归纳为通过数据训练y = f(x) 的过程，因此定义完训练模型之后，就需要考虑如何选择最终我们认为最优的模型。

如何选择最优的模型，就是本篇的主要内容：

模型验证的方法
超参数的选择
评估函数的选择

模型验证的方法

在《统计学习方法》这本书中，曾经讲过模型验证的方法有三种，分别是简单的交叉验证，S折交叉验证，留一交叉验证

简单的交叉验证

即把全部数据按照比例分割成两部分，分别是训练集和测试集。在训练集训练模型，在测试集测试效果，最终选择一个代价比较小的结果。一般是0.75。

S折交叉验证

设置S为一个数，一般是3或者10居多。如果是3，那么前2份作为训练集，最后一份作为测试集。

留一交叉验证

如果S的个数正好是样本的容量，就是留一交叉验证。

PS:

训练集是用于训练模型，测试集适用于判断此次训练效果。

在Spark MLLib中，为我们提供了两种验证方法，分别是

Cross-Validation ： S折交叉验证
Train-ValidationSplit：简单交叉验证

超参数的选择

在Spark MLLib中，超参数可以通过上面的验证方法，作为参数传进去：

// 定义超参数集合

val paramGrid = new ParamGridBuilder()

  .addGrid(hashingTF.numFeatures, Array(10, 100, 1000))

  .addGrid(lr.regParam, Array(0.1, 0.01))

  .build()

// 定义验证器

val cv = new CrossValidator()

  .setEstimator(pipeline)

  .setEvaluator(new BinaryClassificationEvaluator)

  .setEstimatorParamMaps(paramGrid)

  .setNumFolds(2)  // Use 3+ in practice

其中hashingTF给设置了3个参数、lr给了2个参数，如果正常我们想要验证这6个参数的组合，应该需要验证6次。但是在Spark中，基于Validator可以一次性验证出来，并自动选择最后代价最小的那个。

PS

上面S折交叉验证中S的参数为2，因此内部只有一个训练集；如果是3，那么最终运行的训练次数将会是 （3*2）*2 = 12次。

评估函数的确定

Spark提供了三种评估函数：

RegressionEvaluator用于回归预测的问题
BinaryClassificationEvaluator用于二分类问题
MulticlassClassificationEvaluator用于多分类问题

详细的代码，可以参考：

http://spark.apache.org/docs/latest/ml-tuning.html

Spark机器学习——模型选择与参数调优之交叉验证的更多相关文章

XGBoost参数中文翻译以及参数调优
XGBoost:参数解释:https://blog.csdn.net/zc02051126/article/details/46711047 机器学习系列(11)_Python中Gradient Bo ...
从信用卡欺诈模型看不平衡数据分类（1）数据层面：使用过采样是主流，过采样通常使用smote，或者少数使用数据复制。过采样后模型选择RF、xgboost、神经网络能够取得非常不错的效果。（2）模型层面：使用模型集成，样本不做处理，将各个模型进行特征选择、参数调优后进行集成，通常也能够取得不错的结果。（3）其他方法：偶尔可以使用异常检测技术，IF为主
总结:不平衡数据的分类,(1)数据层面:使用过采样是主流,过采样通常使用smote,或者少数使用数据复制.过采样后模型选择RF.xgboost.神经网络能够取得非常不错的效果.(2)模型层面:使用模型 ...
评价指标的局限性、ROC曲线、余弦距离、A/B测试、模型评估的方法、超参数调优、过拟合与欠拟合
1.评价指标的局限性问题1 准确性的局限性准确率是分类问题中最简单也是最直观的评价指标,但存在明显的缺陷.比如,当负样本占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率.所以,当 ...
spark参数调优
摘要 1.num-executors 2.executor-memory 3.executor-cores 4.driver-memory 5.spark.default.parallelism 6. ...
【Spark调优】提交job资源参数调优
[场景] Spark提交作业job的时候要指定该job可以使用的CPU.内存等资源参数,生产环境中,任务资源分配不足会导致该job执行中断.失败等问题,所以对Spark的job资源参数分配调优非常重要 ...
spark submit参数调优
在开发完Spark作业之后,就该为作业配置合适的资源了.Spark的资源参数,基本都可以在spark-submit命令中作为参数设置.很多Spark初学者,通常不知道该设置哪些必要的参数,以及如何设置 ...
【Spark调优】Shuffle原理理解与参数调优
[生产实践经验] 生产实践中的切身体会是:影响Spark性能的大BOSS就是shuffle,抓住并解决shuffle这个主要原因,事半功倍. [Shuffle原理学习笔记] 1.未经优化的HashSh ...
spark 资源参数调优
资源参数调优了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了.所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使 ...
1，Spark参数调优
Spark调优目录 Spark调优一.代码规范 1.1 避免创建重复RDD 1.2 尽量复用同一个RDD 1.3 多次使用的RDD要持久化 1.4 使用高性能算子 1.5 好习惯二.参数调优资 ...

随机推荐

LabVIEW（十三）：同一个控件的输入和输出转换
1.实现功能:读取某些文件的数据并将这些数据显示在一个界面上,对界面上的数据进行修改后,将修改后的数据保存到源文件中. 2.显示功能: 程序框图右键>文件I/O>读取分隔符电子表格> ...
DispatcherServlet 的创建过程
[参考文章]:SpringMvc 启动原理源码分析 [参考文章]:[Spring]DispatcherServlet的启动和初始化 [参考文章]:servlet 百度百科 1. servlet 生命周 ...
Linux学习笔记《六》
Win10 Hyper-v下虚拟机使用无线网络
首先要承认一点的是写这个随笔更大的初衷是想吐槽,搜了半天,全是一种方法,就是创建一个新的网络适配器,配置为外部网络啥啥啥,用倒是能用,就是网速那叫一个感人,我的是电信百兆光纤网页打开都如蜗牛爬,无法忍 ...
Ubuntu16.04 + gtx1060 + cuda8.0 + cudnn5.1 + caffe + Theano + Tensorflow
参考 ubuntu16.04+gtx1060+cuda8.0+caffe安装.测试经历 ,细节处有差异. 首先说明,这是在台式机上的安装测试经历,首先安装的win10,然后安装ubuntu16.04双 ...
Go 新起点
因项目需求又得开始啃Go了,虽然比计划早了点,撸起袖子开始干吧~
Java内部类持有外部类的引用详细分析与解决方案
在Java中内部类的定义与使用一般为成员内部类与匿名内部类,他们的对象都会隐式持有外部类对象的引用,影响外部类对象的回收. GC只会回收没有被引用或者根集不可到达的对象(取决于GC算法),内部类在生命 ...
odoo开发笔记 -- 日常开发注意点总结（持续补充）
(1) odoo视图字段,如果是readonly,默认该数据是不会往后台传递的,因此,保存数据的时候,该字段的数据是不会存到数据库中的.(待确认,字段中增加默认值,保存) (2)视图界面,注释的时候, ...
SQLi Lab的视频教程和文字教程
SQLi Lab 系列的文字和视频(需要FQ),讲解的很好 SQLi Lab Series - Introduction SQLi Lab Series - Error Based SQLi Lab ...
常见注入手法第四讲,SetWindowsHookEx全局钩子注入.以及注入QQ32位实战.
常见注入手法第四讲,SetWindowsHookEx全局钩子注入.以及注入QQ32位实战. PS:上面是操作.最后是原理一丶需要了解的API 使用全局钩子注入.我们需要了解几个WindowsAPI. ...

Spark机器学习——模型选择与参数调优之交叉验证