CS229 7.1应用机器学习中的一些技巧

本文所讲述的是怎么样去在实践中更好的应用机器学习算法，比如如下经验风险最小化问题：

当求解最优的后，发现他的预测误差非常之大，接下来如何处理来使得当前的误差尽可能的小呢？这里给出以下几个选项，下面介绍的是如何在一下这些应对策略中选择正确的方法来助力以上问题。

当模型的variance比较大时，可能存在过拟合，这时可以尝试增多样本或者减少特征或者增大正则参数。

当模型的bias比较大时，可能存在欠拟合，这时可以尝试增加更多的特征或者增加多项特征或减小正则参数。

首先，一般的Mechine Learning问题，我们会把数据分为训练集，交叉验证集，测试集，比例分别为6:2:2.

这样，即可以用一下三哥公式分别计算假设函数在三个集合上的损失：

接下来，用交叉验证集合找到最优的，用该去到测试机上验证来得到测试误差J_err():

bias. variance.

如果目前的算法表现不是很好J_cv或者J_test很高，可以绘制如下关于bias与variance的图来确定是哪里的问题，如果J_train与J_cv均过高，则为bais问题，模型还处于欠拟合的状态，或J_train相对J_cv很低，则为variance问题。

正则化项的选取问题，随着的增大，参数的取值会越来越小，模型处于欠拟合状态，偏差bais会越来越大，J_train也会随之增大

在交叉验证集合上，当很小时，取值很大，模型可能处于过拟合状态，variance会很大，随着增大，J_cv会先减小到最小值，此处的最小值点即为bais与variance比较平衡的地方。当继续增大，J_cv也会便也会开始增大，最终会导致bais比较大。所以此处J_cv处于最小值的情况下才是最优的。

增加训练数据

首先注意，随着训练数据的增多，根据6 2 2 的比例，交叉验证集与测试集的数据均会增加。

1）当使用一个相对合适的模型时，当数据比较少时，Jtrain会完美拟合训练数据，但此时Jcv会比较大，因为数据少得话模型很难范化到交叉验证集，数据的增加会导致Jtrain增大，Jcv减小，此时增多数据的效果会越来越好。

2）当使用一个欠拟合的模型时，会导致J_train非常之大，此时，增大数据量不会有任何效果，因为J_cv不会变的更小，模型无论在测试集还是训练集上都不会有很好的效果。

3）当使用一个过拟合的模型时，当数据较少时，J_train与J_cv之间的间隔会比较大，此时增大数据量，效果会有一些提升，J_train与J_cv的间隔会减小，这也就是所谓的增多训练数据来避免过拟合。

CS229 7.1应用机器学习中的一些技巧的更多相关文章

机器学习中的相似性度量(Similarity Measurement)
机器学习中的相似性度量(Similarity Measurement) 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间 ...
paper 127：机器学习中的范数规则化之（二）核范数与规则项参数选择
机器学习中的范数规则化之(二)核范数与规则项参数选择 zouxy09@qq.com http://blog.csdn.net/zouxy09 上一篇博文,我们聊到了L0,L1和L2范数,这篇我们絮叨絮 ...
paper 126：[转载] 机器学习中的范数规则化之（一）L0、L1与L2范数
机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http://blog.csdn.net/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化. ...
机器学习中的范数规则化之（一）L0、L1与L2范数
L1正则会产生稀疏解,让很多无用的特征的系数变为0,只留下一些有用的特征 L2正则不让某些特征的系数变为0,即不产生稀疏解,只让他们接近于0.即L2正则倾向于让权重w变小.见第二篇的推导. 所以,样本 ...
ML 07、机器学习中的距离度量
机器学习算法原理.实现与实践 —— 距离的度量声明:本篇文章内容大部分转载于July于CSDN的文章:从K近邻算法.距离度量谈到KD树.SIFT+BBF算法,对内容格式与公式进行了重新整理.同时, ...
paper 56 ：机器学习中的算法：决策树模型组合之随机森林（Random Forest）
周五的组会如约而至,讨论了一个比较感兴趣的话题,就是使用SVM和随机森林来训练图像,这样的目的就是在图像特征之间建立内在的联系,这个model的训练,着实需要好好的研究一下,下面是我们需要准备的入门 ...
机器学习中的范数规则化之（一）L0、L1与L2范数（转）
http://blog.csdn.net/zouxy09/article/details/24971995 机器学习中的范数规则化之(一)L0.L1与L2范数 zouxy09@qq.com http: ...
机器学习中的算法-决策树模型组合之随机森林与GBDT
机器学习中的算法(1)-决策树模型组合之随机森林与GBDT 版权声明: 本文由LeftNotEasy发布于http://leftnoteasy.cnblogs.com, 本文可以被全部的转载或者部分使 ...
机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent)
版权声明: 本文由LeftNotEasy所有,发布于http://leftnoteasy.cnblogs.com.如果转载,请注明出处,在未经作者同意下将本文用于商业用途,将追究其法律责任. 前言: ...

随机推荐

利用JSON将Map转换为类对象
Map类型做为一种常见的Java类型,经常在开发过程中使用,笔者最近遇到要将Map对象做为一种通用的参数变量,下传到多个业务类方法中,然后在各个业务类方法中将Map转换为指定类对象的情况.如何将Map ...
将 vue 挂在 window 对象上，实现能调用 elementUI 的组件
html 部分: <div id="sample"> </div> js 部分(将js代码放在 body 的 onload事件中: <body onl ...
java zip 压缩文件
zip压缩:ZipOutputStream.ZipFile.ZipInputStream 三个类的作用一段 java zip 压缩的代码: File dir = new File("C ...
pycharm Process finished with exit code (0xC0000005)
pycharm Process finished with exit code (0xC0000005)解决办法上次报过这个错误,是在安装浏览器时发现的,报过同样的错误.按当时的方法,以为切地解 ...
十二、springboot（七）打包启动
1.打包 mvn clean package -Dmaven.test.skip=true2.运行 a.不能后台运行 java -jar 项目.jar b.可后台运行 java ...
redis sentinel哨兵的使用
哨兵模式是Redis集群管理的一种方式. 下面以Go语言为例介绍其使用方式. 使用举例 package main import ( "fmt" "strings" ...
Ribbon 常用配置
配置参数默认值说明 <client>.<namespace>.listOfServers 配置服务器列表 <client>.<namespace>. ...
看图写代码---看图写代码阅读<<Audio/Video Connectivity Solutions for Virtex-II Pro and Virtex-4 FPGAs >>
看图写代码阅读<<Audio/Video Connectivity Solutions for Virtex-II Pro and Virtex-4 FPGAs >> 1.S ...
DLL的晚绑定与早绑定
调用DLL中的函数可分为早绑定与晚绑定! 早绑定是指在编译期就已经确定函数地址! 晚绑定是指在运行期动态加载dll,并根据查表的方式获取dll内exports函数的地址,由于早绑定比较简单,在此不再讲 ...
手机与PC的影音相互播放（DLNA/UPNP）
DLNA:全称是DIGITAL LIVING NETWORK ALLIANCE(数字生活网络联盟), 旨在解决个人PC,消费电器,移动设备在内的无线网络和有线网络的互联互通,使得数字媒体和内容服务的无 ...

CS229 7.1应用机器学习中的一些技巧

CS229 7.1应用机器学习中的一些技巧的更多相关文章

随机推荐

热门专题