主要为第六周内容机器学习应用建议以及系统设计。

下一步做什么

当训练好一个模型,预测未知数据,发现结果不如人意,该如何提高呢?

  1. 1.获得更多的训练实例
  2. 2.尝试减少特征的数量
  3. 3.尝试获得更多的特征
  4. 4.尝试增加二项式特征
  5. 5.尝试减少归一化程度λ
  6. 6.尝试增加归一化程度λ

先不要急着尝试这些方法,而是通过一些机器学习诊断方法来判断现在算法是什么情况,哪些方法是可以提高算法的有效性,如何选择更有意义的方法。

 

如何评估模型

假设评估

过拟合检验:将数据集分为训练集和测试集(通常70%训练集,30%测试集),训练集和测试集均要包含各种结果的数据。

测试集评估:1.对于线性回归模型,利用测试集数据计算代价函数。2.对于逻辑回归模型,可以计算代价函数,也可以计算错误分类的比例。

模型选择

数据集分类:60%的数据作为训练集; 20%的数据作为交叉验证集;20%的数据作为测试集。

模型选择方法:1.训练集训练出多个模型;2.用每个模型分别对交叉验证集计算得出交叉验证误差;3.选取代价最小的模型;4.用选出的模型对测试集计算推广误差。

诊断方法

注:high bias翻译为高偏差,high variance翻译为高方差,regularization 翻译为正则化

一.偏差和方差

之前线性回归介绍过低拟合和过拟合。高偏差和高方差问题基本上就是低拟合和过拟合的问题。

通过将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析:

由上图可以看出:1.对于训练集,当 d 较小时,模型拟合程度更低,误差较大;随着 d 的增长,拟合程度提高,误差减小。

2.对于交叉验证集,当 d 较小时,模型拟合程度低,误差较大;但是随着 d 的增长,误差呈现先减小后增大的趋势,转折点是我们的模型开始过拟合训练数据集的时候。

我们可以知道:1.训练集误差和交叉验证集误差近似时:高偏差/低拟合;2.
交叉验证集误差远大于训练集误差时:高方差/过拟合

二.正则化

正则化可以用来防止过拟合。正则化程度由λ值控制,需要通过一定的方法选择合适的λ值。

我们选择一系列的想要测试的 λ 值,通常是 0-10 之间的呈现 2 倍关系的值(如:0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10 共 12 个)。
我们同样把数据分为训练集、交叉验证集和测试集。选择
λ的方法为:

1.使用训练集训练出
多个不同程度正则化的模型(即不同的λ值)
2. 用
每个模型分别对交叉验证集计算的出交叉验证误差
3. 选择得出交叉验证误差最小的模型
4. 运用步骤 3 中选出模型对测试集计算得出推广误差

同时将训练集和交叉验证集模型的代价函数误差与λ的值绘制在一张图表上:

由上图可以看出:1.当λ较小时,训练集误差较小(过拟合)而交叉验证集误差较大;2.随着λ的增加,训练集误差不断增加(低拟合),而交叉验证集误差则是先减小后增加。

三.学习曲线

学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量(m)的函数绘制的图表,是学习算法的一个很好的合理检验。

高偏差和高方差的情况如下图所示:

由上图可以看出:在高偏差/低拟合的情况下,训练集增加数量不一定有帮助。

在高方差/过拟合的情况下,增加数据到训练集可以提高模型的效果。

解决方案

数据多就是好?由上面的分析可以知道获得更多的数据只能解决高方差问题。

回到开头提出的六种方法,可以看出它们对应解决的问题,可不能乱用哟!

1.获得更多的训练实例——解决高方差问题

2.尝试减少特征的数量——解决高方差问题

3.尝试获得更多的特征——解决高偏差问题

4.尝试增加二项式特征——解决高偏差问题

5.尝试减少归一化程度λ——解决高方差问题

6.尝试增加归一化程度λ——解决高偏差问题

神经网络与高偏差和高方差的关系:

1.使用较小的神经网络,类似于参数较少的情况,容易导致高偏倚和低拟合,但计算代价较小

2.使用较大的神经网络,类似于参数较多的情况,容易导致高偏差和过拟合,虽然计算代价比较大,但是可以通过归一化手段来调整而更加适应数据。

通常选择较大的神经网络并采用正则化处理会比采用较小的神经网络效果要好。对于神经网络中的隐藏层的层数的选择,通常从一层开始逐渐增加层数。为了更好地作选择,可以把数据分为训练集、交叉验证集和测试集,针对不同隐藏层层数的神经网络训练神经网络,然后选择交叉验证集代价最小的神经网络。

误差分析

误差分析是指人工检查交叉验证集中我们算法中产生预测误差的实例,看看这些实例是否有某种系统化的趋势。误差分析可以帮助我们系统化地选择该做什么。

以我们的垃圾邮件过滤器为例,误差分析要做的既是检验交叉验证集中我们的算法产生错误预测的所有邮件,看:

1.是否能将这些邮件按照类分组。例如医药品垃圾邮件,仿冒品垃圾邮件或者密码窃取邮件等。然后看分类器对哪一组邮件的预测误差最大,并着手优化。

2.思考怎样能改进分类器。例如,发现是否缺少某些特征,记下这些特征出现的次数。例如记录下错误拼写出现了多少次,异常的邮件路由情况出现了多少次等等,然后从出现次数最多的情况开始着手优化。

误差度量

将算法预测的结果分成四种情况:

1.正确肯定(True Positive,TP):预测为真,实际为真
2.正确否定(True Negative,TN):预测为假,实际为真
3.错误肯定(False Positive,FP):预测为真,实际为假
4.错误否定(False Negative,FN):预测为假,实际为假

相应的查准率(Precision)和查全率(Recall)的计算:

查准率=TP/(TP+FP)

查全率=TP/(TP+FN)

查准率(Precision)和查全率(Recall)的关系:

(F1 Score),其计算公式为:

F1能平衡查准率和查全率,选择F1最高的值。

系统设计

构建一个学习算法的推荐方法为:
1. 从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法
2. 绘制学习曲线,决定是增加更多数据,或者添加更多特征,还是其他选择
3. 进行误差分析

Coursera 机器学习笔记(四)的更多相关文章

  1. coursera机器学习笔记-机器学习概论,梯度下降法

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

  2. coursera机器学习笔记-建议,系统设计

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

  3. coursera机器学习笔记-神经网络,学习篇

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

  4. coursera机器学习笔记-神经网络,初识篇

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

  5. coursera机器学习笔记-多元线性回归,normal equation

    #对coursera上Andrew Ng老师开的机器学习课程的笔记和心得: #注:此笔记是我自己认为本节课里比较重要.难理解或容易忘记的内容并做了些补充,并非是课堂详细笔记和要点: #标记为<补 ...

  6. Coursera 机器学习笔记(三)

    主要为第四周.第五周课程内容:神经网络 神经网络模型引入 之前学习的线性回归还是逻辑回归都有个相同缺点就是:特征太多会导致计算量太大.如100个变量,来构建一个非线性模型.即使只采用两两特征组合,都会 ...

  7. Coursera机器学习笔记(一) - 监督学习vs无监督学习

    转载 http://daniellaah.github.io/2016/Machine-Learning-Andrew-Ng-My-Notes-Week-1-Introduction.html 一. ...

  8. Coursera 机器学习笔记(八)

    主要为第十周内容:大规模机器学习.案例.总结 (一)随机梯度下降法 如果有一个大规模的训练集,普通的批量梯度下降法需要计算整个训练集的误差的平方和,如果学习方法需要迭代20次,这已经是非常大的计算代价 ...

  9. Coursera 机器学习笔记(七)

    主要为第九周内容:异常检测.推荐系统 (一)异常检测(DENSITY ESTIMATION) 核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非 ...

随机推荐

  1. JavaScript的XMLHttpRequest对象

    ajax的核心技术是XMLHttpRequest对象,简称XHR. //支持IE7及更高的版本 function createXML() { if(typeof XMLHttpReqquest!=&q ...

  2. Linux - atexit()(注册终止)函数

    进程终⽌的⽅式有8种,前5种为正常终⽌,后三种为异常终⽌: 1. 从main函数返回: 2 .调⽤exit函数:3 .调⽤_exit或_Exit:4 .最后⼀个线程从启动例程返回:5 .最后⼀个线程调 ...

  3. 关于Java内存管理的几个小技巧

    这里将介绍几则Java内存管理的小技巧,让你让你从Java入门开始告别陋习,为Java程序提速.有不少人都说"Java完了,只等着衰亡吧!",为什么呢?最简单的的例子就是Java做 ...

  4. Python中使用Mysql(安装篇)

    准备工作 import MySQLdb Linux系统自带了Python,但并不是都有这个包,至少我每次拿到一台全新的服务器时候,都发现没有装这个包. 这个东西的下载地址是 http://source ...

  5. 一天精通MongoDB数据库

    什么是MongoDB ? MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统. 在高负载的情况下,添加更多的节点,可以保证服务器性能. MongoDB 旨在为WEB应用提供 ...

  6. css grid学习材料整理

    2017-04-18 19:59:02 由浅入深: 什么是网格布局:http://www.w3cplus.com/css3/what-is-css-grid-layout.html 浏览器如何开启网格 ...

  7. 简介vsftpd及搭建配置

    一.简介 FTP(文件传输协议)全称是:Very Secure FTP Server.   Vsftpd是linux类操作系统上运行的ftp服务器软件. vsftp提供三种登陆方式:1.匿名登录  2 ...

  8. linux下python+pycharm安装

    安装环境: vmware 12 centos 6.8   一.安装python3.5 默认情况下,linux下是默认使用2.x版本的,现在我们要安装3.x版本,具体操作如下 1.去官网下载安装包.(这 ...

  9. JS对select动态添加option操作 (三级联动) (搜索拼接)

    以下纯属自我理解之下再东搜西查的内容~ JS对select动态添加option操作有个高大上的艺名叫多级联动:第一级改变时,第二级跟着变,第二级改变时,第三级跟着变... 本菜鸟是在工作中遇到做收货地 ...

  10. 【Java SE】利用Java的for循环加random制作小学试卷

    前期介绍:很多同学以为学习一门编程语言,一定要学到很高深的时候才可以做项目,其实不然,很多时候我们不需要学到面向对象的思想,就可以从事一些小项目的开发,来增加自己对开发的热情,比如现在我就可以利用Ja ...