# ML学习小笔记—Where does the error come from?
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html
错误来自哪里?
error due to "bias" and error due to "variance"
当我们要求无穷多个数的平均值或者方差时,我们选取了N个样本出现计算。很显然我们得到的结果是存在一定误差的。当我们选区的样本的值越多的时候,我们得到的结果也就越准确。类比于训练模型,我们所选择的训练数据是有限的,很多时候我们希望他们效果可靠,数量可观。但是往往并非如此。例如下图:
我们所期望的模型为靶心的f。但是在我们定义的某个模型下,训练数据所推出的效果集中于f非。这两者的距离成为Bias,即偏差。训练集的离散程度为Variance,即方差,这样就导致了错误的出现。

在上图中,左上角的模型为最好的模型。
当我们的模型越简单,所得到的Variance越低,但是他的Bias相对越差。
当模型越复杂的时候,得到的Bias相对较好,但是Variance变高了。

原因在于,较简单的模型表达的范围较少,可无法包过最佳的模型,而较复杂的模型所表达的范围较广,能够包过最佳的模型。

所以会存在过度拟合和欠拟合的情况。当我们训练模型的时候,要根据实际的情况去调整自己的模型。

我们要清楚Bias和variance哪个比较大:
- 如果你的模型不适合训练样例,得出来的模型有较大差异,那么你就有很大的Bias
- 如果您可以拟合训练数据,但测试数据存在较大误差,那么您可能会有很大的Variance
当Bias过大时候:
- 增加更多的feature
- 选择更复杂的模型
当Variance过大时候:
- 增加更多的训练数据
- 使用Regularization(这一点在第一章被我略过,见下图)

如何选择适合的模型?
There is usually a trade-off between bias and variance.
Select a model that balances two kinds of error to minimize total error
我们通过Training Set得出的模型在Testing Set中返回的error最低,但这并不意味着在真实的Testing Set得到的结果最优。
原因在于我们手中的Testing Set并不能很好的代表真实的情况,他的Bias与现实的情况还是存在着距离的。所以得出来的error并不能完美的代表现实
所以我们选择模型应该这样做:
将Training Set分成两组,然后一组用来选择model,选出来最优的model在我们手中Testing Set得到的error较能反映现实的情况:

或者下图中的交叉验证:

写完博客才更好的理解了整个思路。
# ML学习小笔记—Where does the error come from?的更多相关文章
- # ML学习小笔记—Gradien Descent
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 根据前面所为,当我们得到Loss方程的时候,我们希望求得最优的Loss方 ...
- # ML学习小笔记—Classification
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 通过模型可以分类输入,此时根据分类结果的正确与否会有一个Loss函数.找 ...
- # ML学习小笔记—Linear Regression
Regression Output a scalar Model:a set of function 以Linear model为例 y = b+w * $x_cp$ parameters:b,W f ...
- 深度学习课程笔记(六)Error
深度学习课程笔记(六)Error Variance and Bias: 本文主要是讲解方差和偏差: error 主要来自于这两个方面.有可能是: 高方差,低偏差: 高偏差,低方差: 高方差,高偏差: ...
- English - 英语学习小笔记
1.It is...to do sth:做某事是.... 解析:It 是形式主语,后面一半接形容词做表语,to do sth是不定式短语作真正主语. 2.make do和make doing是两种表达 ...
- WEB学习小笔记
环境基于WIN10.IDEA最新版.JDK1.8.TOMCAT9 下面说的有错的地方希望指出,谢谢. STRUT2 1.在maven下的时候系统会系统创建一个叫做log4j的配置文件,但是到了这个版本 ...
- SQL 学习小笔记
1.FOUND_ROWS() 题目: ,; 在上边sql中使用什么选项可以使 SELECT FOUND_ROWS()忽略LIMIT子句,返回总数? *答案* : SQL_CALC_FOUND_ROWS ...
- java学习小笔记(三.socket通信)【转】
三,socket通信1.http://blog.csdn.net/kongxx/article/details/7288896这个人写的关于socket通信不错,循序渐进式的讲解,用代码示例说明,运用 ...
- MongoDB 学习小笔记
1.配置:mongod --dbpath=D:\MongoDB\data mongo2.基本的增删查改 find() update()-- 整体更新,局部更新. 修改器: $inc db.person ...
随机推荐
- 第一个C#程序Hello World
一.编写第一个C#程序——Hello World1. 启动Microsoft Visual Studio 2010.2. 点击“文件”菜单,选择“新建”项,在弹出的子菜单中选择“项目”命令.3. 弹出 ...
- Chrome 调试工具的一些高阶功能
Chrome 内置抓包工具 Block requests 截取长图 代码的覆盖率分析 Make site better Chrome 内置抓包工具 在浏览器地址栏输入chrome://net-inte ...
- 泉五培训Day5
T1 陪审团 题目 [题目描述] 陪审团制度历来是司法研究中的一个热议话题,由于陪审团的成员组成会对案件最终的结果产生巨大的影响,诉讼双方往往围绕陪审团由哪些人组成这一议题激烈争夺.小 W提出了一个甲 ...
- springboot整合mybatis笔记
1首先创建一个springboot项目 创建项目的文件结构以及jdk的版本 选择项目所需要的依赖 之后点击finish,完成创建 2以下是文件结构 看一下啊pom.xml; <?xml vers ...
- Q&A - Nginx是做什么的?tomcat结合Nginx使用小结
相信很多人都听过nginx,这个小巧的东西慢慢地在吞食apache和IIS的份额.那究竟它有什么作用呢?可能很多人未必了解. 说到反向代理,可能很多人都听说,但具体什么是反向代理,很多人估计就不清楚了 ...
- vue组件封装及父子组件传值,事件处理
vue开发中,把有统一功能的部分提取出来,作为一个独立的组件,在需要使用的时候引入,可以有效减少代码冗余.难点在于如果封装,使用,如何传参,派发事件等,我会采取倒叙的方式进行说明.(本文总结于Vue2 ...
- 用 js 写一个获取随机颜色的程序
function getColor(){ var color="#"; for(var i=0;i<6;i++){ color+=(Math.random()*16 | 0) ...
- POJ 2676 数独(DFS)
Sudoku Time Limit: 2000MS Memory Limit: 65536K Total Submissions: 21612 Accepted: 10274 Specia ...
- realloc函数的用法
realloc(void *__ptr, size_t __size):更改已经配置的内存空间,即更改由malloc()函数分配的内存空间的大小. 如果将分配的内存减少,realloc仅仅是改变索引的 ...
- Sqlite客户端的使用
打开一个数据库sqlite3 ${databaseName} 查看当前打开的数据库.database 查看当前打开的数据库中的表.table 查看指定表结构(实际输出是建表语句).schema ${t ...