欠拟合（Underfitting）与过拟合（Overfitting）

上面两张图分别是回归问题和分类问题的欠拟合和过度拟合的例子。可以看到，如果使用直线（两组图的第一张）来拟合训，并不能很好地适应我们的训练集，这就叫欠拟合（Underfitting），但是如果x的次数太高（两组图的第三张），拟合虽然很好，但是预测能力反而变差了，这就是过拟合（Overfitting）。

对于欠拟合，我们可以适当增加特征，比如加入x的多次方。通常这很少发生，发生的多的都是过拟合。那么如何处理过度拟合呢？

1. 丢弃一些不能帮助我们正确预测的特征。可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙（例如 PCA）。

2. 正则化。保留所有的特征，但是减少参数的大小(magnitude)。

加入正则化的代价函数

假设上面的线性回归过拟合例子使用使用的模型是：

我们可以看出这些高次项（3次方、4次方）导致了过拟合，高次项参数大了，从图像来看就是会变得非常曲折，高次项参数小了图像就会较为平整。所以这里我们要做的就是一定程度上减小高次项参数，削弱高次项的影响力。我们的做法是修改代价函数，给theta3、theta4一些惩罚，使得最终选出来的theta3、theta4比较小：

J(theta)=

通过这样的代价函数选择出的theta3 和theta4 对预测结果的影响就比之前要小许多，因为theta3、4一试图变大，代价就会变大很多，那么在使用梯度下降最小化J(theta)时，theta3、4就会变得比较小。

假如我们有非常多的特征，我们并不知道其中哪些特征我们要惩罚，我们将对所有的特征进行惩罚，并且让代价函数最优化的软件来选择这些惩罚的程度。这样的结果是得到了一个较为简单的能防止过拟合问题的假设:

其中 lambda 又称为正则化参数（Regularization Parameter）。
根据惯例,我们不对theta0进

行惩罚。否则得到的图像比较靠近x轴，那整个模型就偏离数据了。

经过正则化处理的模型与原模型的可能对比如下图所示:

这里的lambda的选择也是较为关键的一点，如上图，theta太小甚至为0，那可能导致过拟合，而lambda太大，图像就会得到一条类似与平行于x轴的直线。

正则化后的线性回归、逻辑回归模型

正则化线性回归

重新将新的代价函数带入梯度下降算法，经过求导、化简后，得到的梯度下降如下：

对于j=1,2,…,n，thetaj的更新式子可以化简为：

可以看到（不看theta0），算法的变化就在于theta每次减少了一个额外的alpha*lambda/m。

同样的，可以在正规方程使用正则化：

正则化逻辑回归

同样带入化简，得：

发现得到的式子和线性回归一样，当然，两者的区别之前已经分析过，h(x)不同。

[笔记]机器学习(Machine Learning) - 03.正则化(Regularization)的更多相关文章

[笔记]机器学习(Machine Learning) - 01.线性回归(Linear Regression)
线性回归属于回归问题.对于回归问题,解决流程为: 给定数据集中每个样本及其正确答案,选择一个模型函数h(hypothesis,假设),并为h找到适应数据的(未必是全局)最优解,即找出最优解下的h的参数 ...
[笔记]机器学习(Machine Learning) - 00.目录/大纲/写在之前
目录会根据我的学习进度而更新,给自己列一个大纲以系统地看待整个学习过程. 学习资料来源学习的是Coursera上吴恩达(Andrew Ng)老师的机器学习视频(课程传送门,最近在"最强大脑 ...
[笔记]机器学习(Machine Learning) - 02.逻辑回归(Logistic Regression)
逻辑回归算法是分类算法,虽然这个算法的名字中出现了"回归",但逻辑回归算法实际上是一种分类算法,我们将它作为分类算法使用.. 分类问题:对于每个样本,判断它属于N个类中的那个类或哪 ...
【机器学习Machine Learning】资料大全
昨天总结了深度学习的资料,今天把机器学习的资料也总结一下(友情提示:有些网站需要"科学上网"^_^) 推荐几本好书: 1.Pattern Recognition and Machi ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料【转】
转自:机器学习(Machine Learning)&深度学习(Deep Learning)资料 <Brief History of Machine Learning> 介绍:这是一 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)
##机器学习(Machine Learning)&深度学习(Deep Learning)资料(Chapter 2)---#####注:机器学习资料[篇目一](https://github.co ...
数据挖掘(data mining)，机器学习(machine learning)，和人工智能(AI)的区别是什么？数据科学(data science)和商业分析(business analytics)之间有什么关系？
本来我以为不需要解释这个问题的,到底数据挖掘(data mining),机器学习(machine learning),和人工智能(AI)有什么区别,但是前几天因为有个学弟问我,我想了想发现我竟然也回答 ...
机器学习(Machine Learning)&深度学习(Deep Learning)资料
机器学习(Machine Learning)&深度学习(Deep Learning)资料機器學習.深度學習方面不錯的資料,轉載. 原作:https://github.com/ty4z2008 ...
【重磅干货整理】机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总
[重磅干货整理]机器学习(Machine Learning)与深度学习(Deep Learning)资料汇总 .

随机推荐

实验楼-4-Linux文件权限
$ ls -l /*查看文件权限*/ 每一行格式意思: <文件类型和权限链接数所有者所在用户组文件大小上次修改时间文件名> 文件类型和权限如下图: 解释: 软连接:类似于win ...
任务调度之集群（基于Quartz.net）
上一篇我们完成了任务调度的持久化,传送门:任务调度之持久化(基于Quartz.net) 这篇我们来完成Quartz.net的一个比较优秀的功能,即集群:集群可以提高任务调度服务的容灾性, 当一个节点宕 ...
java封装的方法
java封装是由Java是面向对象程序设计语言的性质决定的,面向对象程序设计语言的三大特性之一就是封装.封装其实就是包装的意思,从专业的角度来看,就是把对象的所有组成部分组合在一起,保护私有属性. 如 ...
Jquery EasyUI远程校验，Jquery EasyUI多个自定义校验，EasyUI自定义校验
>>>>>>>>>>>>>>>>>>>>>>>>> ...
oracle事物总结(转)
关于Oracle事务的总结 1.什么是事务,事务的特性是什么? 事务的任务便是使数据库从一种状态变换成为另一种状态,这不同于文件系统,它是数据库所特用的.它的特性有四个:TOM总结为ACID即原子性a ...
关于ng的路由的几点想法（ui-view）
在配置路由的时候,我们可以选择ng框架自带的路由,也可以使用第三方路由插件ui-router 注意: (1)在使用angular-ui-router的时候,必须先引入angular-ui-router ...
【Egret】2D 使用中的一些疑难解决技巧！
1.问题:声音在ios上无法播放解决方法:①首先需要预加载一个声音 ②然后目前只有点击之后才能播放声音,不能默认播放 2.问题:滚动条问题解 ...
老李分享：SSL协议相关证书
老李分享:SSL协议相关证书 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员能胜任自动化测试,性能测试,测试工具开发等工作为目标.如果对课程感兴趣,请大家咨询qq:9088214 ...
POPTEST老李分享session,cookie的安全性以及区别 2
四,session和cookie谁更安全就个人而言,我觉得session更安全一点,我以下几点看法. 1,如果session和cookie一样安全的话,二者就没有并要同时存在了,只要cookie就好 ...
老李推荐：第14章9节《MonkeyRunner源码剖析》 HierarchyViewer实现原理-遍历控件树查找控件
老李推荐:第14章9节<MonkeyRunner源码剖析> HierarchyViewer实现原理-遍历控件树查找控件 poptest是国内唯一一家培养测试开发工程师的培训机构,以学员 ...

[笔记]机器学习(Machine Learning) - 03.正则化(Regularization)