# ML学习小笔记—Where does the error come from?

关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

错误来自哪里？

error due to "bias" and error due to "variance"

当我们要求无穷多个数的平均值或者方差时，我们选取了N个样本出现计算。很显然我们得到的结果是存在一定误差的。当我们选区的样本的值越多的时候，我们得到的结果也就越准确。类比于训练模型，我们所选择的训练数据是有限的，很多时候我们希望他们效果可靠，数量可观。但是往往并非如此。例如下图：

我们所期望的模型为靶心的f。但是在我们定义的某个模型下，训练数据所推出的效果集中于f非。这两者的距离成为Bias，即偏差。训练集的离散程度为Variance，即方差，这样就导致了错误的出现。

在上图中，左上角的模型为最好的模型。

当我们的模型越简单，所得到的Variance越低，但是他的Bias相对越差。
当模型越复杂的时候，得到的Bias相对较好，但是Variance变高了。

原因在于，较简单的模型表达的范围较少，可无法包过最佳的模型，而较复杂的模型所表达的范围较广，能够包过最佳的模型。

所以会存在过度拟合和欠拟合的情况。当我们训练模型的时候，要根据实际的情况去调整自己的模型。

我们要清楚Bias和variance哪个比较大：

如果你的模型不适合训练样例,得出来的模型有较大差异，那么你就有很大的Bias
如果您可以拟合训练数据，但测试数据存在较大误差，那么您可能会有很大的Variance

当Bias过大时候：

增加更多的feature
选择更复杂的模型

当Variance过大时候：

增加更多的训练数据
使用Regularization（这一点在第一章被我略过，见下图）

如何选择适合的模型？

There is usually a trade-off between bias and variance.

Select a model that balances two kinds of error to minimize total error

我们通过Training Set得出的模型在Testing Set中返回的error最低，但这并不意味着在真实的Testing Set得到的结果最优。

原因在于我们手中的Testing Set并不能很好的代表真实的情况，他的Bias与现实的情况还是存在着距离的。所以得出来的error并不能完美的代表现实

所以我们选择模型应该这样做:

将Training Set分成两组，然后一组用来选择model，选出来最优的model在我们手中Testing Set得到的error较能反映现实的情况：

或者下图中的交叉验证：

写完博客才更好的理解了整个思路。

# ML学习小笔记—Where does the error come from?的更多相关文章

# ML学习小笔记—Gradien Descent
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 根据前面所为,当我们得到Loss方程的时候,我们希望求得最优的Loss方 ...
# ML学习小笔记—Classification
关于本课程的相关资料http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html 通过模型可以分类输入,此时根据分类结果的正确与否会有一个Loss函数.找 ...
# ML学习小笔记—Linear Regression
Regression Output a scalar Model:a set of function 以Linear model为例 y = b+w * $x_cp$ parameters:b,W f ...
深度学习课程笔记（六）Error
深度学习课程笔记(六)Error Variance and Bias: 本文主要是讲解方差和偏差: error 主要来自于这两个方面.有可能是: 高方差,低偏差: 高偏差,低方差: 高方差,高偏差: ...
English - 英语学习小笔记
1.It is...to do sth:做某事是.... 解析:It 是形式主语,后面一半接形容词做表语,to do sth是不定式短语作真正主语. 2.make do和make doing是两种表达 ...
WEB学习小笔记
环境基于WIN10.IDEA最新版.JDK1.8.TOMCAT9 下面说的有错的地方希望指出,谢谢. STRUT2 1.在maven下的时候系统会系统创建一个叫做log4j的配置文件,但是到了这个版本 ...
SQL 学习小笔记
1.FOUND_ROWS() 题目: ,; 在上边sql中使用什么选项可以使 SELECT FOUND_ROWS()忽略LIMIT子句,返回总数? *答案* : SQL_CALC_FOUND_ROWS ...
java学习小笔记（三.socket通信）【转】
三,socket通信1.http://blog.csdn.net/kongxx/article/details/7288896这个人写的关于socket通信不错,循序渐进式的讲解,用代码示例说明,运用 ...
MongoDB 学习小笔记
1.配置:mongod --dbpath=D:\MongoDB\data mongo2.基本的增删查改 find() update()-- 整体更新,局部更新. 修改器: $inc db.person ...

随机推荐

【洛谷P1064】[NOIP2006] 金明的预算方案
金明的预算方案显然是个背包问题把每个主件和它对应的附件放在一组,枚举每一组,有以下几种选法: 1.都不选 2.只选主件 3.一个主件+一个附件 4.一个主件+两个附件于是就成了01背包.. #i ...
OpenACC例子
timeinfo1.c代码 #include<stdio.h> #define N 100 int main() { int A[N]; #pragma acc kernels { ; i ...
ajax实现无刷新两级联动DropDownList
ajax实现的无刷新三级联动 http://zhangyu028.cnblogs.com/articles/310568.html 本文来自小山blog:http://singlepine.cnblo ...
4、SpringBoot------邮件发送（2）
开发工具:STS 代码下载链接:https://github.com/theIndoorTrain/Springboot/tree/0d6194d6ea2d7f4e19791a3d3f3167f861 ...
SpringBoot学习12：springboot异常处理方式2(使用@ExceptionHandle注解)
1.编写controller package com.bjsxt.controller; import org.springframework.stereotype.Controller; impor ...
Mantle--国外程序员最常用的iOS模型&字典转换框架
Mantle简介 Mantle是iOS和Mac平台下基于Objective-C编写的一个简单高效的模型层框架. Mantle能做什么 Mantle可以轻松把JSON数据.字典(Dictionary)和 ...
关于Vue 兄弟组件通信
最近项目中遇到希望在操作路由组件里面内容的时候可以影响共用组件Header组件(这个其实就是他的兄弟组件)的操作. 意思就是 router-view指向的router来影响Header组件的信息首 ...
C++的队列和pair
C++队列的成员函数: back()返回最后一个元素 empty()如果队列空则返回真 front()返回第一个元素 pop()删除第一个元素 push()在末尾加入一个元素 size()返回队列中元 ...
thinkphp 跳转外网代码（php通用）
thinkphp 提供了一个重定向但是在跳转外部网站的时候就会比较麻烦下面一种方法还不错, < ?php //重定向浏览器 header("Location: http://www. ...
解决方法:SQL Server 检测到基于一致性的逻辑 I/O 错误校验和不正(转载)
引用:http://luowei1371984.blog.163.com/blog/static/44041589201491844323885/ SQL2008运行select count(*) f ...

# ML学习小笔记—Where does the error come from?

# ML学习小笔记—Where does the error come from?的更多相关文章

随机推荐

热门专题