台大《机器学习基石》课程感受和总结---Part 2 (转)
转自:http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html
Part 2总结一下一个粗略的建模过程:
- 首先,弄清楚问题是什么,能不能用机器学习的思路去考虑:
- 是否有pattern?
- 是否规则不明确?
- 是否有数据?
- 如果可以用,那么考虑,问题的学习目标是什么,有多少feature,有多少数据,应该用什么error measure(Learning from data 有一节专门讲这个,客户能提供吗?如果不能,我们找一个能说服自己的,或者找一个容易做的。具体参考课件)
- 数据和feature之间的关系,practical来说是N大于等于10倍的自由度。
- 这个error measure或者说performance measure是否有个baseline我们可以比较呢?
- 选定算法,从简单的到复杂的都要考虑:
- 一般来说,如果有足够多的数据,简答的算法不一定比复杂的差。
- 要考虑用户的需求,是否需要最后的模型能够被人理解,还是说一个黑盒子就可以了。
- 分割数据为Training和Testing (这一点一定要在做任何数据处理前完成!处理,只应该在train上做,确定方案后在运用到test上去)
- 对train数据进行清理,分析什么的(重要Update: 这里的数据清理和分析必须是和数据中的class variable没有任何联系!如果有任何联系,都请放到Single Validation或者Cross validation里面去做!一个经常出现的错误就是在这一步进行特征选择,然后在选择完成后的数据集上进行Cross Validation,这样做通常会得到over-optimistic的结果。具体文献可以参考Statistical Learning里面的Cross Validation那一个小节)。
- 在Training上进行建模学习:
- 我们有很多Model可以选择,而一个Model下面又可以有很多参数可以调试,或者feature可以选择。这就需要我们通过Single Validation或者Cross Validation来看看这些Model在不同的参数下表现如何。
- 这样,我们从一个Model中选出其中Eval最好的那个组合,作为该模型的代表h。
- 对于另一个模型,重复第二步,直到全部模型都考虑了。
- 对比所有的这些代表,找出其中Ecv最好的那个h对应的Model M。
- 用所有的训练数据(Model Selection by Best Eval--Learning from Data),用M和它的最优参数训练一得到一个g*,最为最终的选择,同时我们做一下实验得到g*的training error--Etraiin。
- 在Testing上用g*进行测试。完成以后和baseline进行比较。如果好过baseline,那OK。继续试试更多算法看能不能提高。如果低于Baseline,那要进行以下考虑:
- 如果Etesting >> Etrain, 那么我们遇到了overfitting,那么我们可能需要:
- 更多的训练数据
- 或者更小的feature set
- 反之,如果Etesting于Etrain差别不大,那么我们遇到了underfitting,那么我们可能需要更多的feature(获取更多,或者在现有的基础上创建新的,比如polynomial features)
- 如果Etesting >> Etrain, 那么我们遇到了overfitting,那么我们可能需要:
- 调整后,重新建模,直到满足条件为止。
台大《机器学习基石》课程感受和总结---Part 2 (转)的更多相关文章
- Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法
最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...
- Coursera台大机器学习基础课程学习笔记2 -- 机器学习的分类
总体思路: 各种类型的机器学习分类 按照输出空间类型分Y 按照数据标记类型分yn 按照不同目标函数类型分f 按照不同的输入空间类型分X 按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构 ...
- Coursera台大机器学习基础课程1
Coursera台大机器学习基础课程学习笔记 -- 1 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一 机器学习是什么? 感觉和 Tom M. Mitche ...
- Coursera台大机器学习技法课程笔记01-linear hard SVM
极其淡腾的一学期终于过去了,暑假打算学下台大的这门机器学习技法. 第一课是对SVM的介绍,虽然之前也学过,但听了一次感觉还是很有收获的.这位博主总结了个大概,具体细节还是 要听课:http://www ...
- Coursera台大机器学习技法课程笔记14-Radial Basis Function Network
将Radial Basis Function与Network相结合.实际上衡量两个点的相似性:距离越近,值越大. 将神经元换为与距离有关的函数,就是RBF Network: 可以用kernel和RBF ...
- Coursera台大机器学习技法课程笔记03-Kernel Support Vector Machine
这一节讲的是核化的SVM,Andrew Ng的那篇讲义也讲过,讲的也不错. 首先讲的是kernel trick,为了简化将低维特征映射高维特征后的计算,使用了核技巧.讲义中还讲了核函数的判定,即什么样 ...
- Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree
将Adaboost和decision tree相结合,需要注意的地主是,训练时adaboost需要改变资料的权重,如何将有权重的资 料和decision tree相结合呢?方法很类似于前面讲过的bag ...
- Coursera台大机器学习技法课程笔记10-Random forest
随机森林就是要将这我们之前学的两个算法进行结合:bagging能减少variance(通过g们投票),而decision tree的variance很大,资料不同,生成的树也不同. 为了得到不同的g, ...
- Coursera台大机器学习技法课程笔记04-Soft-Margin Support Vector Machine
之前的SVM非常的hard,要求每个点都要被正确的划分,这就有可能overfit,为此引入了Soft SVM,即允许存在被错分的点,将犯的错放在目 标函数中进行优化,非常类似于正则化. 将Soft S ...
- Coursera台大机器学习技法课程笔记02-Dual Support Vector Machine
这节课讲的是SVM的对偶问题,比较精彩的部分:为何要使用拉格朗日乘子以及如何进行对偶变换. 参考:http://www.cnblogs.com/bourneli/p/4199990.html http ...
随机推荐
- 第四章:javascript: 栈
列表是一种最自然的数据组织方式.上一章已经介绍如何使用List类将数据组织成一个列表.如果数据存储的顺序不重要.也不必对数据进行查找,那么列表就是一种再好不过的数据结构.对于其它的一些应用,列表就显得 ...
- 2016 版 Laravel 系列入门教程(三)【最适合中国人的 Laravel 教程】
本教程示例代码见: https://github.com/johnlui/Learn-Laravel-5 在任何地方卡住,最快的办法就是去看示例代码. 在本篇文章中,我们将尝试构建一个带后台的简单博客 ...
- python 参数的组合
现在我们知道python定义函数的参数类型有:必选参数 默认参数 可变参数 关键字参数 但是在我们日常中我们是可以组合使用这些参数的:但是使用的时候,参数定义是有顺序的 定义的顺序必须是:必选参数,默 ...
- 读JS高级API笔记_(DOM&&DOM2&&DOM3)哎呀——园龄才9个月啊
---恢复内容开始--- <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http: ...
- Struts tag -s
1,if/elseif/else标签 <s:set value="19"/> <s:if test="%{#age > 60}"> ...
- javaEE规范和SSH三大框架到底有什么关系
转自博客:http://blog.csdn.net/bingjing12345/article/details/20641891 1994-2000 年是互联网的大航海时代. 请注意,下面的时间点及其 ...
- Android intent传递list或对象
方法一: 如果单纯的传递List<String> 或者List<Integer>的话 就可以直接使用 Java代码 intent.putStringArrayListExtra ...
- 【BZOJ-3545&3551】Peaks&加强版 Kruskal重构树 + 主席树 + DFS序 + 倍增
3545: [ONTAK2010]Peaks Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 1202 Solved: 321[Submit][Sta ...
- BZOJ-1477 青蛙的约会 拓展欧几里德
充权限之前做的...才来交 1477: 青蛙的约会 Time Limit: 2 Sec Memory Limit: 64 MB Submit: 369 Solved: 233 [Submit][Sta ...
- 洛谷P1263 || 巴蜀2311 宫廷守卫
题目描述 从前有一个王国,这个王国的城堡是一个矩形,被分为M×N个方格.一些方格是墙,而另一些是空地.这个王国的国王在城堡里设了一些陷阱,每个陷阱占据一块空地. 一天,国王决定在城堡里布置守卫,他希望 ...