training set, validation set, test set的区别

training set：用来训练模型
validation set : 用来做model selection
test set : 用来评估所选出来的model的实际性能

我们知道，在做模型训练之前，我们必须选择所训练的模型的形式：线性模型(y = wx+b)或者非线性模型(SVM,decision tree,neural network….)。选择好模型之后，我们才会开始训练，训练的目标是确定模型的参数，训练一般是通过设计损失函数，然后对损失函数进行优化来完成训练。

而很多时候我们并不知道哪种模型适合，所以往往我们需要对多种模型进行训练，训练完之后就会得到多个模型的结果，我们希望从这些训练好的模型中选择最适合的模型。我们通过用validation set对所有模型进行测试，然后选出error rate最小的那个模型。

所以说valaidation set主要是用来选择模型的。

The main trick here is to 'hold out' a portion of our data from training and use the models performance on that sub-set of the data as a proxy for the true risk.

This data is known as 'validation' data. It contrasts with test data, because it's values are known at the model design time. However, in contrast to test data we don't use it to fit our model.

This means that it doesn't exhibit the same bias that the empirical risk does when estimating the true risk.

training set, validation set, test set的区别的更多相关文章

ML基础 : 训练集，验证集，测试集关系及划分 Relation and Devision among training set, validation set and testing set
首先三个概念存在于有监督学习的范畴 Training set: A set of examples used for learning, which is to fit the parameters ...
训练集，验证集，测试集（以及为什么要使用验证集？）（Training Set, Validation Set, Test Set）
对于训练集,验证集,测试集的概念,很多人都搞不清楚.网上的文章也是鱼龙混杂,因此,现在来把这方面的知识梳理一遍.让我们先来看一下模型验证(评估)的几种方式. 在机器学习中,当我们把模型训练出来以后,该 ...
训练集(train set) 验证集(validation set) 测试集(test set)。
训练集(train set) 验证集(validation set) 测试集(test set). http://blog.sina.com.cn/s/blog_4d2f6cf201000cjx.ht ...
验证和交叉验证（Validation & Cross Validation）
之前在<训练集,验证集,测试集(以及为什么要使用验证集?)(Training Set, Validation Set, Test Set)>一文中已经提过对模型进行验证(评估)的几种方式. ...
Neural Network Toolbox使用笔记1：数据拟合
http://blog.csdn.net/ljp1919/article/details/42556261 Neural Network Toolbox为各种复杂的非线性系统的建模提供多种函数和应用程 ...
【转载】协同过滤 & Spark机器学习实战
因为协同过滤内容比较多,就新开一篇文章啦~~ 聚类和线性回归的实战,可以看:http://www.cnblogs.com/charlesblc/p/6159187.html 协同过滤实战,仍然参考:h ...
TensorFlow从1到2（九）迁移学习
迁移学习基本概念迁移学习是这两年比较火的一个话题,主要原因是在当前的机器学习中,样本数据的获取是成本最高的一块.而迁移学习可以有效的把原有的学习经验(对于模型就是模型本身及其训练好的权重值)带入到新 ...
深度学习之卷积神经网络(CNN)详解与代码实现（一）
卷积神经网络(CNN)详解与代码实现本文系作者原创,转载请注明出处:https://www.cnblogs.com/further-further-further/p/10430073.html 目 ...
pytorch实现性别检测
卷积神经网络的训练是耗时的,很多场合不可能每次都从随机初始化参数开始训练网络. 1.训练 pytorch中自带几种常用的深度学习网络预训练模型,如VGG.ResNet等.往往为了加快学习的进度,在 ...

随机推荐

ID3\C4.5\CART
目录树模型原理 ID3 C4.5 CART 分类树回归树树创建 ID3.C4.5 多叉树 CART分类树(二叉) CART回归树 ID3 C4.5 CART 特征选择信息增益信息增益比基尼 ...
Python面向对象中的self到底是什么？
初次接触类的概念,在学习的网页上,对self的解释是self是方法的一个参数,在方法调用的时候,这个参数是默认传参数的我们看一个例子很多人学习python,不知道从何学起.很多人学习python,掌 ...
Macbook Pro HDMI 无信号解决办法
因为CS:GO无法启动的问题,使用过了下面的命令 sudo pmset -a GPUSwitch 0 导致HDMI显示器无信号输入下面的代码 sudo pmset -a GPUSwitch 1 可以 ...
Unity报与System.IO相关的错误
比如这个: Type `System.IO.FileInfo' does not contain a definition for `OpenText' and no extension method ...
如何把一个一般的git库变成“裸库”？
语法: git clone --bare 「src」「dest」 e.g. cd ~/Workspace/SourceRepo/ git clone --bare ./ ../Git/bareRep ...
关于`ClawHub的技术分享`公众号
生命不息,折腾不止! 该公众号的内容大部分为平时学习积累所整理的笔记,包括但不限于源码.原理.经验等. 如果感兴趣,也可以访问clawhub的博客主站https://clawhub.club
【原创】经验分享：一个Content-Length引发的血案(almost....)
前言上周在工作中遇到一个问题,挺有意思,这里记录一下.上周在工作中遇到一个问题,挺有意思,这里记录一下.标题起的很唬人,这个问题差点引发血案,花哥还是很严谨的一个人,后面备注了almost.... ...
npm 进阶命令知多少(一)
npm命令知多少(一) 前言作为前端模块化扎展现形式的npm包,已经在前端开发中不可或缺,熟练掌握npm相关内容,也是前端开发者的一门必修课,那么除了npm publish这类常见内容之外,还有哪些 ...
C++11中一个使用for+auto时容易发生的bug
C++11中一个使用for+auto时容易发生的bug 一个小坑,那就是忘记在for循环中使用auto时加引用. 例如: for(auto num : nums){ // do some thing ...
Kubernetes中资源清单与Pod的生命周期（二）
一.资源清单 1,定义: 在k8s中一般使用yaml格式的文件来创建符合我们预期的资源,这样的yaml被称为资源清单. 使用资源清单创建Pod: kubectl apply -f nginx.yaml ...

training set, validation set, test set的区别

training set, validation set, test set的区别的更多相关文章

随机推荐

热门专题