机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）

摘要：

　　1.常见问题

　　　　1.1 什么是偏差与方差？

　　　　1.2 为什么会产生过拟合，有哪些方法可以预防或克服过拟合？

　　2.模型选择例子

　　3.特征选择例子

　　4.特征工程与数据预处理例子

内容：

1.常见问题

　　1.1 什么是偏差与方差？

　　泛化误差(general error)可以分解成偏差(bias)的平方加上方差(variance)加上噪声(noise)。

　　偏差度量了学习算法的期望预测和真实结果的偏离程度，刻画了学习算法本身的拟合能力，方差度量了同样大小的训练集的变动所导致的学习性能的变化，刻画了数据扰动所造成的影响

　　噪声表达了当前任务上任何学习算法所能达到的期望泛化误差下界，刻画了问题本身的难度。一般训练程度越强，偏差越小，方差越大，泛化误差一般在中间有一个最小值，如果偏差较大，方差较小，此时一般称为欠拟合，而偏差较小，方差较大称为过拟合。（吴恩达的讲义）

　　1.2 为什么会产生过拟合，有哪些方法可以预防或克服过拟合？

一般在机器学习中，将学习器在训练集上的误差称为训练误差或者经验误差，在新样本上的误差称为泛化误差。显然我们希望得到泛化误差小的学习器，但是我们事先并不知道新样本，因此实际上往往努力使经验误差最小化。然而，当学习器将训练样本学的太好的时候，往往可能把训练样本自身的特点当做了潜在样本具有的一般性质。这样就会导致泛化性能下降，称之为过拟合，相反，欠拟合一般指对训练样本的一般性质尚未学习好，在训练集上仍然有较大的误差。

欠拟合：一般来说欠拟合更容易解决一些，例如增加模型的复杂度（增加决策树中的分支，增加神经网络中的训练次数等等），增加特征（“组合”、“泛化”、“相关性”），减少正则化系数（参考）（参考2）。

过拟合：过拟合的解决方案一般有重新清洗数据（导致过拟合的一个原因也有可能是数据不纯导致的），增加样本数量，对样本进行降维，特征选择，降低模型复杂度，利用先验知识(L1,L2正则化)，利用cross-validation，early stopping等等。

2.模型选择例子

3.特征选择例子

4.特征工程与数据预处理例子

机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）的更多相关文章

【笔记】偏差方差权衡 Bias Variance Trade off
偏差方差权衡 Bias Variance Trade off 什么叫偏差,什么叫方差根据下图来说偏差可以看作为左下角的图片,意思就是目标为红点,但是没有一个命中,所有的点都偏离了方差可以看作为右 ...
训练/验证/测试集设置;偏差/方差;high bias/variance;正则化;为什么正则化可以减小过拟合
1. 训练.验证.测试集对于一个需要解决的问题的样本数据,在建立模型的过程中,我们会将问题的data划分为以下几个部分: 训练集(train set):用训练集对算法或模型进行训练过程: 验证集(d ...
偏差和方差以及偏差方差权衡(Bias Variance Trade off)
当我们在机器学习领域进行模型训练时,出现的误差是如何分类的? 我们首先来看一下,什么叫偏差(Bias),什么叫方差(Variance): 这是一张常见的靶心图可以看左下角的这一张图,如果我们的目标是 ...
偏差-方差均衡（Bias-Variance Tradeoff）
众所周知,对于线性回归,我们把目标方程式写成:. (其中,f(x)是自变量x和因变量y之间的关系方程式,表示由噪音造成的误差项,这个误差是无法消除的) 对y的估计写成:. 就是对自变量和因变量之间的关 ...
机器学习总结-bias–variance tradeoff
bias–variance tradeoff 通过机器学习,我们可以从历史数据学到一个$f$,使得对新的数据$x$,可以利用学到的$f$得到输出值$f(x)$.设我们不知道的真实的\( ...
Bias/variance tradeoff
线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合. 尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能很好的预测,也就是说有较大的泛化误差,上面的右 ...
2.9 Model Selection and the Bias–Variance Tradeoff
结论模型复杂度↑Bias↓Variance↓ 例子 $y_i=f(x_i)+\epsilon_i,E(\epsilon_i)=0,Var(\epsilon_i)=\sigma^2$ 使用knn做预测 ...
[转]理解 Bias 与 Variance 之间的权衡----------bias variance tradeoff
有监督学习中,预测误差的来源主要有两部分,分别为 bias 与 variance,模型的性能取决于 bias 与 variance 的 tradeoff ,理解 bias 与 variance 有助于 ...
On the Bias/Variance tradeoff in Machine Learning
参考:https://codesachin.wordpress.com/2015/08/05/on-the-biasvariance-tradeoff-in-machine-learning/ 之前一 ...

随机推荐

Daily Scrum Meeting ——ThirdDay(Beta)12.11
一.Daily Scrum Meeting照片二.Burndown Chart 三.项目进展(check-in) 1.欢迎界面的优化,从模糊到清楚 2.新增主界面背景 3.新增注册背景 4.参与者侧 ...
现场打印智能无线PDA安卓POS 条码识别、打印、数据采集销售开单收银管理软件
现场打印安卓POS 条码识别.打印.数据采集管理软件案例: 经营日化品牌,从事小型超市和日用品商店的批发配送业务. 公司以前的销售模式:三个业务员负责跑市场,每个人负责一个区域,平均每天每个人要去到 ...
Apple、Google、Microsoft的用户体验设计原则
轻巧的Apple 注重设计过程: 在设计过程中引入用户交互的5个目标: 了解您的目标客户分析用户的工作流构造原型系统观察用户测试制定观察用户准则做出设计决定避免功能泛滥 80% 方案优秀 ...
第四章 springboot + swagger
http://www.cnblogs.com/java-zhao/p/5348113.html
http错误代码含义中英文对照
Http错误代码含义中文概要当用户试图通过 HTTP 或文件传输协议 (FTP) 访问一台正在运行 Internet 信息服务 (IIS) 的服务器上的内容时,IIS 返回一个表示该请求的状态的数字 ...
从零开始山寨Caffe·捌：IO系统(二)
生产者双缓冲组与信号量机制在第陆章中提到了,如何模拟,以及取代根本不存的Q.full()函数. 其本质是:除了为生产者提供一个成品缓冲队列,还提供一个零件缓冲队列. 当我们从外部给定了固定容量的零 ...
margin-top使用需要注意的地方
偶然的机会发现一个有趣的现象:一个div(背景色为绿色)里面包含一个div,里面的div给一个margin-top:100px; 代码: <div style="background: ...
[RxJava^Android]项目经验分享 --- RxLifecycle功能实现分析（一）
最近在研究RxJava自定义操作符的实现原理,发现成型的项目案例较少.突然想起在项目中应用的RxLifecycle是使用自定义操作符,便拿来研究了一下.分析之前,跟大家了解一些相关操作符和RxLi ...
快速理解-Ajax
AJAX即“Asynchronous JavaScript and XML”,意思是异步JavaScript和XML,是指一种创建交互式网页的网页开发技术. 虽然现在很少有人去自己手动写AJAX,大多 ...
安装cocoaPods的详细步骤
先大概说下安装的步骤: Xcode 这个是开发必须的, HomeBrew RVM Ruby CocoaPods 一.HomeBrew: 打开官网链接:http://brew.sh/index_zh-c ...

机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）

机器学习理论知识部分--偏差方差平衡（bias-variance tradeoff）的更多相关文章

随机推荐

热门专题