机器学习中学习曲线的 bias vs variance 以及数据量m

关于偏差、方差以及学习曲线为代表的诊断法：
在评估假设函数时，我们习惯将整个样本按照6:2:2的比例分割：60%训练集training set、20%交叉验证集cross validation set、20%测试集test set，分别用于拟合假设函数、模型选择和预测。

模型选择的方法为：
1. 使用训练集训练出 10 个模型
2. 用 10 个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）
3. 选取代价函数值最小的模型
4. 用步骤 3 中选出的模型对测试集计算得出推广误差（代价函数的值）

当你运行一个学习算法时，如果这个算法的表现不理想，那么多半是出现两种情况：要
么是偏差比较大，要么是方差比较大。换句话说，出现的情况要么是欠拟合，要么是过拟合
问题。那么这两种情况，哪个和偏差有关，哪个和方差有关，或者是不是和两个都有关？搞
清楚这一点非常重要，因为能判断出现的情况是这两种情况中的哪一种。其实是一个很有效
的指示器，指引着可以改进算法的最有效的方法和途径。

(二)偏差、方差、学习曲线Bias、Variance、Learning curve
1.特征量的度d
还是之前的例子，用二次曲线拟合，训练集和交叉验证集的误差可能都很小；但是你用一条直线去拟合，不管使用多高级的算法去减小代价函数，偏差仍然是很大的，这时候我们就说：多项式次数d过小，导致高偏差、欠拟合；类似的当用10次曲线去拟合，样本点都能经过，对应的代价函数(误差)为0，但是带入交叉验证集你会发现拟合很差，这时候我们说：多项式次数d过大，导致高方差、过拟合。所以，多项式次数d与训练集、交叉验证集误差的关系如下图。
我们通常会通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析：

以下图为例，你的模型选取其实直接关系到最终的拟合结果：

欠拟合Underfit || 高偏差High bias
正常拟合Just right || 偏差和方差均较小
过拟合Overfit || 高方差High variance

2.正则化参数λ
正则化参数λ越大，对θ惩罚的越厉害,θ->0，假设函数是一条水平线，欠拟合、高偏差；正则化参数越小，相当于正则化的作用越弱，过拟合、高方差。在我们在训练模型的过程中，一般会使用一些归一化方法来防止过拟合。但是我们可能会归一化的程度太高或太小了，即我们在选择 λ 的值时也需要思考与刚才选择多项式模型次数类似的问题。
我们选择一系列的想要测试的 λ 值，通常是 0-10 之间的呈现 2 倍关系的值（如：
0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10 共 12 个）。我们同样把数据分为训练集、交叉验证集和测试集。

选择 λ 的方法为：
1. 使用训练集训练出 12 个不同程度归一化的模型
2. 用 12 模型分别对交叉验证集计算的出交叉验证误差
3. 选择得出交叉验证误差最小的模型
4. 运用步骤 3 中选出模型对测试集计算得出推广误差，我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上：

3.样本量m与学习曲线Learning curve
学习曲线是样本量与训练集、交叉验证集误差之间的关系，分为高偏差和高方差两种情况(欠拟合和过拟合)。
①高偏差(欠拟合)：
根据下图右部分分析有，通过增加样本量两者误差都很大，即m的增加对于算法的改进无益。

也就是说在高偏差/欠拟合的情况下，增加数据到训练集不一定能有帮助。

如何利用学习曲线识别高方差/过拟合：假设我们使用一个非常高次的多项式模型，并且归一化非常小，可以看出，当交叉验证集误差远大于训练集误差时，往训练集增加更多数据可以提高模型的效果。

也就是说在高方差/过拟合的情况下，增加更多数据到训练集可能可以提高算法效果。

最后，总结下：

提出的六种可选的下一步，让我们来看一看我们在什么情况下应该怎样选择：
1. 获得更多的训练实例——解决高方差
2. 尝试减少特征的数量——解决高方差
3. 尝试获得更多的特征——解决高偏差
4. 尝试增加多项式特征——解决高偏差
5. 尝试减少归一化程度 λ——解决高偏差
6. 尝试增加归一化程度 λ——解决高方差

出处：https://blog.csdn.net/zww275250/article/details/78628288

机器学习中学习曲线的 bias vs variance 以及数据量m的更多相关文章

机器学习中的偏差(bias)和方差(variance)
转发:http://blog.csdn.net/mingtian715/article/details/53789487请移步原文内容参见stanford课程<机器学习> 对于已建立 ...
Mysql中使用JDBC流式查询避免数据量过大导致OOM
一.前言 java 中MySQL JDBC 封装了流式查询操作,通过设置几个参数,就可以避免一次返回数据过大导致 OOM. 二.如何使用 2.1 之前查询 public void selectData ...
asp.net中绘制大数据量的可交互的图表
在一个asp.net项目中要用到能绘制大数据量信息的图表,并且是可交互的(放大.缩小.导出.打印.实时数据),能够绘制多种图形. 为此进行了多方调查预研工作,预研过微软的MsChart图表组件.基于j ...
偏差(Bias)和方差(Variance)——机器学习中的模型选择zz
模型性能的度量在监督学习中,已知样本 ,要求拟合出一个模型(函数),其预测值与样本实际值的误差最小. 考虑到样本数据其实是采样,并不是真实值本身,假设真实模型(函数)是,则采样值,其中代表噪音,其均 ...
机器学习模型 bias 和 variance 的直观判断
假设我们已经训练得到一个模型,那么我们怎么直观判断这个模型的 bias 和 variance? 直观方法: 如果模型的训练错误比较大,并且验证错误和训练错误差不多一样,都比较大,我们就 ...
Bias and Variance
以下内容参考 cousera 吴恩达机器学习课程 1. Bias 和 Variance 的定义 Bias and Variance 对于改进算法具有很大的帮助作用,在bias和Variance的指引 ...
理解 Bias 与 Variance 之间的权衡
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助 ...
Bias and Variance 偏置和方差
偏置和方差参考资料:http://scott.fortmann-roe.com/docs/BiasVariance.html http://www.cnblogs.com/kemaswill/ Bi ...
机器学习中模型泛化能力和过拟合现象(overfitting)的矛盾、以及其主要缓解方法正则化技术原理初探
1. 偏差与方差 - 机器学习算法泛化性能分析在一个项目中,我们通过设计和训练得到了一个model,该model的泛化可能很好,也可能不尽如人意,其背后的决定因素是什么呢?或者说我们可以从哪些方面去 ...

随机推荐

关于vue-router，路由重定向的使用分析
看之前的项目,突然发现一个不算bug的bug,之前也是一直没有想到,现在发现之后越来越觉得有必要改掉, 项目用的是vue做的,自然切换用的就是路由,一级路由包括:首页.记录和个人中心,二级路由是在记录 ...
MySQL 设计规范
一.数据库命令规范所有数据库对象名称必须使用小写字母并用下划线分割所有数据库对象名称禁止使用mysql保留关键字(如果表名中包含关键字查询时,需要将其用单引号括起来) 数据库对象的命名要能做到见名 ...
Oracle的数据并发与一致性详解（上）
今天想了解下oracle中事务与锁的原理,但百度了半天,发现网上介绍的内容要么太短,要么版本太旧,而且抄袭现象严重,所以干脆查官方帮助文档(oracle 11.2),并将其精华整理成中文,供大家一起学 ...
Netty心跳机制
一.概念介绍网络中的接收和发送数据都是使用操作系统中的SOCKET进行实现.但是如果此套接字已经断开,那发送数据和接收数据的时候就一定会有问题.可是如何判断这个套接字是否还可以使用呢?这个就需要在系统 ...
Lombok(1.14.8)的简单示例
分享自: http://blog.csdn.net/huey2672/article/details/42240985 Lombok是一种Java™实用工具,可用来帮助开发人员消除Java的冗长,尤其 ...
Docker入门记1
Docker是一个部署容器技术,它出现的目的主要解决开发人员在本机开发的时候安装的各类类库等一系列运行程序的包啊库啊,然后把这些引用的第三方类库和操作系统需要的配置打包起来,形成一个原子环境,然后部署 ...
Mongodb 命令清单
一.数据库常用命令 # 切换/创建数据库 PRIMARY> use yourDB; #当创建一个集合(table)的时候会自动创建当前数据库# 查询所有数据库 PRIMARY> show ...
微信分享JSSDK-invalid signature签名错误的解决方案
核对官方步骤,确认签名算法. 确认签名算法正确,可用 http://mp.weixin.qq.com/debug/cgi-bin/sandbox?t=jsapisign 页面工具进行校验. 确认con ...
C# DataGrid 用法---极速入门测试
目标: 新手编程,只求DataGrid能运行起来,更多功能留在后面探讨. 步骤: 1.新建WPF文档插入DataGrid控件. <Window x:Class="OASevl.Mai ...
数据分析之numpy模块
numpy(numerical python)是python语言的一个扩展程序库,支持大量的维度数组和矩阵运算,此外也针对数组提供大量的数学函数库. 一.创建数组 1 使用array()创建 impo ...

机器学习中学习曲线的 bias vs variance 以及 数据量m

机器学习中学习曲线的 bias vs variance 以及 数据量m的更多相关文章

随机推荐

热门专题

机器学习中学习曲线的 bias vs variance 以及数据量m

机器学习中学习曲线的 bias vs variance 以及数据量m的更多相关文章