机器学习总结-bias–variance tradeoff

bias–variance tradeoff

通过机器学习，我们可以从历史数据学到一个$f$，使得对新的数据$x$，可以利用学到的$f$得到输出值$f(x)$。设我们不知道的真实的$f$为$\overline{f}$，我们从数据中学到的$f$为$f^{*}$，实际上$f^{*}$是$\overline{f}$的一个估计。在统计中，变量$x$的均值$mean$表示为$\mu$，方差$variance$表示为$\sigma$，假设我们抽取出$x$的$N$个样本，可以用$m=\frac{1}{N}\sum_{i=1}^{N}x_{i}$来估计$\mu$，但实际上$m \neq \mu$，如果我们抽取很多次得到不同的m，那么期望$E(m)=E(\frac{1}{N}\sum_{i=1}^{N}x_{i})=\frac{1}{N}\sum_{i=1}^{N}E(x_{i})=E(x)=\mu$。$var(m)=\frac{\sigma^2}{N}$，即抽取的样本$N$大，$m$的$variance$越小。$s^2=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-m)^2$，$E(s^2)=\frac{N-1}{N}\sigma^2\neq\sigma^2$，因此$s^2$是有偏估计量。
实际上，如果用平方误差表示，误差分为3个部分（来自wikipedia）:

偏差度量了学习算法的期望预测与真实结果的偏离程度，即刻画了学习算法本身的拟合能力；
方差度量了同样大小的训练集的变动所导致的学习性能的变化，即刻画了数据扰动所造成的影响；
噪声则表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。
通常，简单的模型variance小（不同数据上的结果差异较小），bias大，容易表现为欠拟合，需要增加模型复杂度，加入新的特征；复杂的模型variance大（表达能力强，对不同数据较敏感，结果差异较大），bias小（平均来说与真实结果较为接近），容易表现为过拟合，需要增加更多数据（非常有效，但不太现实）或者用正则化来控制模型的复杂程度。

常见错误：
在机器学习任务中，如果使用测试集正确率为依据来调整模型，容易出现过拟合的现象，使得泛化误差很大。通常做法是交叉验证（Cross Validation），根据划分验证集上的平均结果来调整模型，不要过分关心测试集上的结果，如果验证集上的误差小，那么测试集上的期望误差也会小。

机器学习总结-bias–variance tradeoff的更多相关文章

2.9 Model Selection and the Bias–Variance Tradeoff
结论模型复杂度↑Bias↓Variance↓ 例子 $y_i=f(x_i)+\epsilon_i,E(\epsilon_i)=0,Var(\epsilon_i)=\sigma^2$ 使用knn做预测 ...
[转]理解 Bias 与 Variance 之间的权衡----------bias variance tradeoff
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于 ...
On the Bias/Variance tradeoff in Machine Learning
参考:https://codesachin.wordpress.com/2015/08/05/on-the-biasvariance-tradeoff-in-machine-learning/ 之前一 ...
Bias/variance tradeoff
线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合. 尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能很好的预测,也就是说有较大的泛化误差,上面的右 ...
Error=Bias+Variance
首先 Error = Bias + Variance Error反映的是整个模型的准确度,Bias反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,Variance反映的是模型每一次输 ...
【笔记】偏差方差权衡 Bias Variance Trade off
偏差方差权衡 Bias Variance Trade off 什么叫偏差,什么叫方差根据下图来说偏差可以看作为左下角的图片,意思就是目标为红点,但是没有一个命中,所有的点都偏离了方差可以看作为右 ...
机器学习：偏差方差权衡（Bias Variance Trade off）
一.什么是偏差和方差偏差(Bias):结果偏离目标位置: 方差(Variance):数据的分布状态,数据分布越集中方差越低,越分散方差越高: 在机器学习中,实际要训练模型用来解决一个问题,问题本身可 ...
机器学习模型 bias 和 variance 的直观判断
假设我们已经训练得到一个模型,那么我们怎么直观判断这个模型的 bias 和 variance? 直观方法: 如果模型的训练错误比较大,并且验证错误和训练错误差不多一样,都比较大,我们就 ...
【笔记】机器学习 - 李宏毅 - 3 - Bias & Variance
A more complex model does not always lead to better performance on testing data. Because error due t ...

随机推荐

1043 输出PATest (20 分)C语言
给定一个长度不超过 10^4的.仅由英文字母构成的字符串.请将字符重新调整顺序,按 PATestPATest- 这样的顺序输出,并忽略其它字符.当然,六种字符的个数不一定是一样多的,若某种字符已经输 ...
JavaScript数据类型 - Symbol
ES5:对象的属性名只能是字符串,当给对象添加新属性时,很容易造成属性名冲突,从而覆盖了原有的属性. ES6:所以ES6中引入了symbol数据类型,他表示独一无二的值,避免了属性名的冲突,此时对象的 ...
docker-tmpfs挂载
使用tmpfs挂载卷和绑定装置允许在主机和容器之间共享文件,以便即使在容器停止后也可以保留数据. 如果你在Linux上运行Docker,你有第三个选择:tmpfs mounts.使用tmpfs装载创 ...
代码注释规范-IDEA 配置 Java 类方法注释模板
1. 引言团队开发时,业务模块分配的越清晰,代码注释管理越完善,越有利于后面维护,后面再管理也方便不少.另外也起着"文字砖"的作用,你懂的.注释不需要很详细,把代码块方法 ...
从数组中取出n个不同的数组成子集 y 使 x = Σy
/** * 尝试获取arr子集 y 使 x=Σy * @param {Array} arr * @param {number} x * @param {Array} res */ f ...
Spring Boot2 系列教程 (十三) | 整合 MyBatis (XML 版)
前言如题,今天介绍 SpringBoot 与 Mybatis 的整合以及 Mybatis 的使用,之前介绍过了 SpringBoot 整合MyBatis 注解版的使用,上一篇介绍过 MyBatis ...
暑假提高组集训Day1 T1
说实话,今天的题真的有点难! ~备受打击~ 我们先来看一看第一题吧看起来好像不太简单,其实并不难下面来提供两种方法吧 1.做法一 //签到题 /* 那么这一题就是告诉你n个点的坐标,把它们分别放到 ...
安装numpy、matplotlib
一.安装numpy 1.下载 https://pypi.org/project/numpy/#files 2.安装 pip3 install numpy-1.17.3-cp37-cp37m-win_a ...
CentOS7 搭建Fabric 1.0
1.环境搭建 1.1 go的按装及配置 1.1.1下载go压缩包 wget https://dl.google.com/go/go1.9.2.linux-amd64.tar.gz 1.1.2 解压 ...
开始使用Manjaro
Manjaro是什么? 一个基于Arch系列,开源的linux发行版 Mnajrao官网了解更多,这里不做更多阐述内容为什么使用Manjaro 第一点,为了方便自己隔离腾讯网游第二点,更方便的学习 ...

机器学习总结-bias–variance tradeoff

bias–variance tradeoff

机器学习总结-bias–variance tradeoff的更多相关文章

随机推荐

热门专题