训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）

对于训练集，验证集，测试集的概念，很多人都搞不清楚。网上的文章也是鱼龙混杂，因此，现在来把这方面的知识梳理一遍。让我们先来看一下模型验证（评估）的几种方式。

在机器学习中，当我们把模型训练出来以后，该怎么对模型进行验证呢？（也就是说怎样知道训练出来的模型好不好？）有以下几种验证方式：

第一种方式：把数据集全部作为训练集，然后用训练集训练模型，用训练集验证模型（如果有多个模型需要进行选择，那么最后选出训练误差最小的那个模型作为最好的模型）

这种方式显然不可行，因此训练集数据已经在模型拟合时使用过了，再使用相同的数据对模型进行验证，其结果必然是过于乐观的。如果我们对多个模型进行评估和选择，那么我们可以发现，模型越复杂，其训练误差也就越小，当某个模型的训练误差看似很完美时，其实这个模型可能已经严重地过拟合了。这在《过拟合和欠拟合（Over fitting & Under fitting）》一文中已经提过。（我们把这种由训练误差选出来模型称为g_m-hat）

第二种方式：把数据集随机分为训练集和测试集，然后用训练集训练模型，用测试集验证模型（如果有多个模型需要进行选择，那么最后选出测试误差最小的那个模型作为最好的模型）

什么样的模型是好的？显然泛化误差最小的模型最好，但是我们没有这样的测试集能够测出模型的泛化误差。因此，我们把一部分数据作为测试集，用它的误差来模拟泛化误差。

把数据分出一部分作为测试集意味着训练集比原来小了。由学习曲线可知，使用较少的数据训练出来的模型，其测试误差会比较大。因此，对于多个模型的评估和选择，合理的做法是：用训练集训练出各个模型后，用测试集选出其中最好的模型（我们把此模型称为g_m*-），记录最好模型的各项设置（比如说使用哪个算法，迭代次数是几次，学习速率是多少，特征转换的方式是什么，正则化方式是哪种，正则化系数是多少等等），然后用整个数据集再训练出一个新模型，作为最终的模型（我们把此模型称为g_m*），这样得出的模型效果会更好，其测试误差会更接近于泛化误差。

下图展示了随着测试集的增大，各个模型 -- gm*-（红线），g_m*（蓝线），g_m-hat（黑实线）的期望泛化误差和理想泛化误差（黑虚线）的变化趋势：

可以看到，g_m*（蓝线）的表现最好，最接近于理想的泛化误差（黑虚线）。而随着测试集越来越大， gm*-（红线）的表现先是和g_m*（蓝线）比较接近，然后越来越不如g_m*（蓝线），最后甚至都不如g_m-hat（黑实线）。这是因为测试集越大，用于训练的数据就越少，此时训练出的模型的效果肯定也就不好了。因此，在选择测试集的大小时，其实有个两难境地：如果要使g_m*（蓝线）的期望泛化误差接近于理想泛化误差，就需要让测试集比较大才好，因为这样有足够多的数据模拟未知情况，但是这样一来，g_m*（蓝线）和gm*-（红线）的期望泛化误差之间的差距就比较大；而要想让g_m*（蓝线）和gm*-（红线）的期望泛化误差接近，就需要测试集比较小才好，因为这样有足够多的数据训练模型，但是此时g_m*（蓝线）的期望泛化误差和理想泛化误差之间的差距较大。一般来说，人们通常将测试集的大小设置为所有数据的20%~30%。

很多资料都是这样把数据分为训练集（70%-80%）和测试集（20%-30%）。这样做的前提是：把模型各个可能的设置分别列出来，训练出各个不同的模型，然后用测试集选出最好的模型，接下来用全部数据按照最好模型的各项设置重新训练出一个最终的模型。这样做有两个问题。第一，模型的超参数通常很多，我们不太有可能把所有可能的设置全部罗列出来，超参数通常需要根据实际情况进行调整。如果模型的测试成绩不理想，那么我们需要返回，重新训练模型。虽然测试集不用于模型的训练，但是我们如果基于测试误差来不断调整模型，这样会把测试集的信息带入到模型中去。显然，这样是不可行的，因为测试集必须是我们从未见过的数据，否则得出的结果就会过于乐观，也就会导致过拟合的发生。第二，得出的最终的模型，其泛化误差是多少？我们还是无法评估。因为我们又把全部数据重新训练出了这个最终的模型，因此也就没有从未见过的数据来测试这个最终的模型了。

第三种方式：把数据集随机分为训练集，验证集和测试集，然后用训练集训练模型，用验证集验证模型，根据情况不断调整模型，选择出其中最好的模型，再用训练集和验证集数据训练出一个最终的模型，最后用测试集评估最终的模型

这其实已经是模型评估和模型选择的整套流程了。在第二种方式中，我们已经把数据集分为了训练集和测试集，现在我们需要再分出一个测试集，用于最终模型的评估。因为已经有一个测试集了，因此我们把其中一个用于模型选择的测试集改名叫验证集，以防止混淆。（有些资料上是先把数据集分为训练集和测试集，然后再把训练集分为训练集和验证集）

前几个步骤和第二种方式类似：首先用训练集训练出模型，然后用验证集验证模型（注意：这是一个中间过程，此时最好的模型还未选定），根据情况不断调整模型，选出其中最好的模型（验证误差用于指导我们选择哪个模型），记录最好的模型的各项设置，然后据此再用（训练集+验证集）数据训练出一个新模型，作为最终的模型，最后用测试集评估最终的模型。

由于验证集数据的信息会被带入到模型中去，因此，验证误差通常比测试误差要小。同时需要记住的是：测试误差是我们得到的最终结果，即便我们对测试得分不满意，也不应该再返回重新调整模型，因为这样会把测试集的信息带入到模型中去。

第四种方式：交叉验证 --- 具体请见《验证和交叉验证（Validation & Cross Validation）》

第五种方式：自助法 --- 具体请见《自助法（Bootstraping）》

总结一下：

训练集（Training Set）：用于训练模型。

验证集（Validation Set）：用于调整和选择模型。

测试集（Test Set）：用于评估最终的模型。

当我们拿到数据之后，一般来说，我们把数据分成这样的三份：训练集（60%），验证集（20%），测试集（20%）。用训练集训练出模型，然后用验证集验证模型，根据情况不断调整模型，选出其中最好的模型，记录最好的模型的各项选择，然后据此再用（训练集+验证集）数据训练出一个新模型，作为最终的模型，最后用测试集评估最终的模型。

训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）的更多相关文章

斯坦福大学公开课机器学习：advice for applying machine learning | model selection and training/validation/test sets（模型选择以及训练集、交叉验证集和测试集的概念）
怎样选用正确的特征构造学习算法或者如何选择学习算法中的正则化参数lambda?这些问题我们称之为模型选择问题. 在对于这一问题的讨论中,我们不仅将数据分为:训练集和测试集,而是将数据分为三个数据组:也 ...
ML基础 : 训练集，验证集，测试集关系及划分 Relation and Devision among training set, validation set and testing set
首先三个概念存在于有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...
【深度学习的实用层面】（一）训练，验证，测试集（Train/Dev/Test sets）
在配置训练.验证.和测试数据集的过程中做出正确的决策会更好地创建高效的神经网络,所以需要对这三个名词有一个清晰的认识. 训练集:用来训练模型验证集:用于调整模型的超参数,验证不同算法,检验哪种算法更 ...
Windows和Linux的Jmeter分布式集群压力测试
Windows的Jmeter分布式集群压力测试原文:https://blog.csdn.net/cyjs1988/article/details/80267475 在使用Jmeter进行性能测试时, ...
Dubbo入门到精通学习笔记（十五）：Redis集群的安装（Redis3+CentOS）、Redis集群的高可用测试（含Jedis客户端的使用）、Redis集群的扩展测试
文章目录 Redis集群的安装(Redis3+CentOS) 参考文档 Redis 集群介绍.特性.规范等(可看提供的参考文档+视频解说) Redis 集群的安装(Redis3.0.3 + CentO ...
Kubeadm部署K8S（kubernetes)集群（测试、学习环境）-单主双从
1. kubernetes介绍 1.1 kubernetes简介 kubernetes的本质是一组服务器集群,它可以在集群的每个节点上运行特定的程序,来对节点中的容器进行管理.目的是实现资源管理的自动 ...
测试LVS+Keepalived高可用负载均衡集群
测试LVS+Keepalived高可用负载均衡集群 1. 启动LVS高可用集群服务此时查看Keepalived服务的系统日志信息如下: [root@localhost ~]# tail -f /va ...
Erlang 集群互连测试
Erlang 集群互连测试Erlang节点相同cookie全互联成为一个集群(cluster).如果2个集群不同cookie, 然后其中有节点连接到对方集群的节点,这2个集群会合并成一个集群吗?连接到 ...
微服务平台（Micro Service Platform : MSP）旨在提供一个集开发、测试、运维于一体的开发者专属平台，让开发者能快速构建或使用微服务，让开发更简单，让运维更高效。
微服务平台(Micro Service Platform : MSP)旨在提供一个集开发.测试.运维于一体的开发者专属平台,让开发者能快速构建或使用微服务,让开发更简单,让运维更高效. MSP采用业界 ...

随机推荐

小米9安装charles证书
一.打开你 mac 中对应的 charles 二.点击右上角的help按钮,打开帮助弹窗三.点击帮助弹窗中的SSL Proxying,选择save charles root certificatio ...
.net Dapper 实践系列(4) ---数据查询(Layui+Ajax+Dapper+MySQL)
写在前面上一小节,总结了数据显示时,会出现的日期问题.以及如何处理格式化日期.这个小节,主要总结的是使用Dapper 中的QueryMultiple方法依次显示查询多表的数据. 实践步骤 1.在Bo ...
MongoDB和Java（1）：Linux下的MongoDB安装
最近花了一些时间学习了下MongoDB数据库,感觉还是比较全面系统的,涉及了软件安装.客户端操作.安全认证.副本集和分布式集群搭建,以及使用Spring Data连接MongoDB进行数据操作,收获很 ...
2019三六零 java面试笔试题（含面试题解析）
本人3年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.360等公司offer,岗位是Java后端开发,最终选择去了三六零. 面试了很多家公司,感觉大部分公司考察的点都差 ...
Sonatype安装
https://www.cnblogs.com/wotoufahaiduo/p/11223834.html Sonatype Nexus Repository Manage admin ccf0cab ...
vue mixins是什么及应用
mixins是什么? 官网对此的解释比较文绉绉,通俗的理解很简单,就是提供功能抽象如A,B,C ...Z等很多个页面用到同一个功能,此时的做法就应该把该功能抽象出来,mixins就是干这个的当然, ...
dede自定义内容模型下，列表只显示10条的问题及解决方法
<div class="zjtd-content-ld s-content"> {dede:arclist tagid='ld' row='100' pagesize= ...
Eclipse不支持tomcat8_compiler编译级别选不到1.8
-------------------------------------------------------------- Eclipse不支持tomcat8 如果你要使用tomcat8.0+版本的 ...
使用虹软ArcFac，java 离线SDK 进行人脸识别
公司项目需要人脸识别登录,需要支持离线识别,所以无法使用在线的人脸识别的API,于是使用到了离线SDK来对比识别人脸相识度. 获取人脸抓拍的图片需要对接设备,这里不做记录,假设我们已经获取到了人脸图片 ...
mysql修改字符集问题
mysql字符集问题: 本文主要解决mysql7以下问题:mysql7在默认安装后,关于数据库,表默认保存字符格式为latin1: 可以通过命令:查询当前mysql的编码设置: show variab ...

训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）

训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）的更多相关文章

随机推荐

热门专题