转自:http://blog.sina.com.cn/s/blog_641289eb0101e2ld.html

Part 2总结一下一个粗略的建模过程:

  1. 首先,弄清楚问题是什么,能不能用机器学习的思路去考虑:
    1. 是否有pattern?
    2. 是否规则不明确?
    3. 是否有数据?
  2. 如果可以用,那么考虑,问题的学习目标是什么,有多少feature,有多少数据,应该用什么error measure(Learning from data 有一节专门讲这个,客户能提供吗?如果不能,我们找一个能说服自己的,或者找一个容易做的。具体参考课件)
    1. 数据和feature之间的关系,practical来说是N大于等于10倍的自由度。
    2. 这个error measure或者说performance measure是否有个baseline我们可以比较呢?
  3. 选定算法,从简单的到复杂的都要考虑:
    1. 一般来说,如果有足够多的数据,简答的算法不一定比复杂的差。
    2. 要考虑用户的需求,是否需要最后的模型能够被人理解,还是说一个黑盒子就可以了。
  4. 分割数据为Training和Testing (这一点一定要在做任何数据处理前完成!处理,只应该在train上做,确定方案后在运用到test上去)
  5. 对train数据进行清理,分析什么的(重要Update: 这里的数据清理和分析必须是和数据中的class variable没有任何联系!如果有任何联系,都请放到Single Validation或者Cross validation里面去做!一个经常出现的错误就是在这一步进行特征选择,然后在选择完成后的数据集上进行Cross Validation,这样做通常会得到over-optimistic的结果。具体文献可以参考Statistical Learning里面的Cross Validation那一个小节)。
  6. 在Training上进行建模学习:
    1. 我们有很多Model可以选择,而一个Model下面又可以有很多参数可以调试,或者feature可以选择。这就需要我们通过Single Validation或者Cross Validation来看看这些Model在不同的参数下表现如何。
    2. 这样,我们从一个Model中选出其中Eval最好的那个组合,作为该模型的代表h。
    3. 对于另一个模型,重复第二步,直到全部模型都考虑了。
    4. 对比所有的这些代表,找出其中Ecv最好的那个h对应的Model M。
    5. 用所有的训练数据(Model Selection by Best Eval--Learning from Data),用M和它的最优参数训练一得到一个g*,最为最终的选择,同时我们做一下实验得到g*的training error--Etraiin。
  7. 在Testing上用g*进行测试。完成以后和baseline进行比较。如果好过baseline,那OK。继续试试更多算法看能不能提高。如果低于Baseline,那要进行以下考虑:
    1. 如果Etesting >> Etrain, 那么我们遇到了overfitting,那么我们可能需要:
      1. 更多的训练数据
      2. 或者更小的feature set
    2. 反之,如果Etesting于Etrain差别不大,那么我们遇到了underfitting,那么我们可能需要更多的feature(获取更多,或者在现有的基础上创建新的,比如polynomial features)
  8. 调整后,重新建模,直到满足条件为止。
上面提到的Validation可以是Single Validation,也可以是Cross Validation.如果计算量允许,就用cross validation(通常是5或者10 fold)。
===============================================================================================
这里插一些Andrew Ng在斯坦福的机器学习里提到的东西:
上面的建模部分,如果一开始就用较多较复杂的算法来做,可能会耗时间比较多。建议选用一个简单的算法,先用上面的步骤试试,看看结果怎样?是有overfitting还是underfitting,这需要判断Etesting和Etrain之间的gap是不是很大。不过,多大算大呢...
 
一个方法是画一下Learning Curve,即Eval, Etrain vs Training size的曲线,具体内容可以去看课程的课件,大概就是说如果是overfitting,随着Training size的增加,Eval和Etrain之间的gap会逐渐的减小,而如果是underfitting,就不会。
 
构建learning curve的方法是,随机的从training set中抽取i个数据的subset,在上面进行建模,然后将模型用在这个subset和整个validation set上进行验证得到Etrain和Eval,这个过程重复20到50次,最后的平均作为i个数据的代表。之后测试i+1,i+2.....
 
不过,这貌似只适用于single validation,cross validation的情况下要怎么做还不清楚。不过,也许也没必要在这个问题上考虑cross validation,毕竟这只是一个dirty approach,看看大概是怎么个情况。
 
===================================================================
另一个问题,如果是需要对数据集(已经是分割过的数据集train-test split中的train)做Sampling来处理imbalanced data的情况下做cross validation,那么应该做如下的处理(假设是5 fold):
1、选出一个fold做validation set,剩下的四个set做training
2、对training做sampling的处理,训练并得到一个hypothesis
3、在validation上测试效果。
4、换一组,重复以上步骤。最后求平均。
这个东西貌似很容易就做成了错误的方法:拿着整个train数据集做了Sampling,再去做cross validation。不对哦!!!简而言之,如果是要对数据分布做变化的操作,都要小心这个问题。
 
以上。

台大《机器学习基石》课程感受和总结---Part 2 (转)的更多相关文章

  1. Coursera台大机器学习基础课程学习笔记1 -- 机器学习定义及PLA算法

    最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一机器学习是什么? 感觉和 Tom M. Mitchell的定义几乎一致, A computer program ...

  2. Coursera台大机器学习基础课程学习笔记2 -- 机器学习的分类

    总体思路: 各种类型的机器学习分类 按照输出空间类型分Y 按照数据标记类型分yn 按照不同目标函数类型分f 按照不同的输入空间类型分X 按照输出空间类型Y,可以分为二元分类,多元分类,回归分析以及结构 ...

  3. Coursera台大机器学习基础课程1

    Coursera台大机器学习基础课程学习笔记 -- 1 最近在跟台大的这个课程,觉得不错,想把学习笔记发出来跟大家分享下,有错误希望大家指正. 一 机器学习是什么? 感觉和 Tom M. Mitche ...

  4. Coursera台大机器学习技法课程笔记01-linear hard SVM

    极其淡腾的一学期终于过去了,暑假打算学下台大的这门机器学习技法. 第一课是对SVM的介绍,虽然之前也学过,但听了一次感觉还是很有收获的.这位博主总结了个大概,具体细节还是 要听课:http://www ...

  5. Coursera台大机器学习技法课程笔记14-Radial Basis Function Network

    将Radial Basis Function与Network相结合.实际上衡量两个点的相似性:距离越近,值越大. 将神经元换为与距离有关的函数,就是RBF Network: 可以用kernel和RBF ...

  6. Coursera台大机器学习技法课程笔记03-Kernel Support Vector Machine

    这一节讲的是核化的SVM,Andrew Ng的那篇讲义也讲过,讲的也不错. 首先讲的是kernel trick,为了简化将低维特征映射高维特征后的计算,使用了核技巧.讲义中还讲了核函数的判定,即什么样 ...

  7. Coursera台大机器学习技法课程笔记11-Gradient Boosted Decision Tree

    将Adaboost和decision tree相结合,需要注意的地主是,训练时adaboost需要改变资料的权重,如何将有权重的资 料和decision tree相结合呢?方法很类似于前面讲过的bag ...

  8. Coursera台大机器学习技法课程笔记10-Random forest

    随机森林就是要将这我们之前学的两个算法进行结合:bagging能减少variance(通过g们投票),而decision tree的variance很大,资料不同,生成的树也不同. 为了得到不同的g, ...

  9. Coursera台大机器学习技法课程笔记04-Soft-Margin Support Vector Machine

    之前的SVM非常的hard,要求每个点都要被正确的划分,这就有可能overfit,为此引入了Soft SVM,即允许存在被错分的点,将犯的错放在目 标函数中进行优化,非常类似于正则化. 将Soft S ...

  10. Coursera台大机器学习技法课程笔记02-Dual Support Vector Machine

    这节课讲的是SVM的对偶问题,比较精彩的部分:为何要使用拉格朗日乘子以及如何进行对偶变换. 参考:http://www.cnblogs.com/bourneli/p/4199990.html http ...

随机推荐

  1. java中的File类

    File类 java中的File类其实和文件并没有多大关系,它更像一个对文件路径描述的类.它即可以代表某个路径下的特定文件,也可以用来表示该路径的下的所有文件,所以我们不要被它的表象所迷惑.对文件的真 ...

  2. Spring 事务配置管理,简单易懂,详细 [声明式]

    Spring 事务配置说明 Spring 如果没有特殊说明,一般指是跟数据存储有关的数据操作事务操作:对于数据持久操作的事务配置,一般有三个对象,数据源,事务管理器,以及事务代理机制: Spring ...

  3. java设计优化--装饰者模式

    装饰者模式拥有一个设计非常巧妙的结构,它可以动态的添加功能.在基本的设计原则中,有一条重要的设计准则就是合成/聚合复用原则.根据该原则的思想,代码复用应该尽可能使用委托,而不是使用继承.因为继承是一种 ...

  4. iOS边练边学--父子控件之作为导航控制器的子类产生的问题以及网易新闻练习

    一.导航控制器的子类 作为导航控制器的子类,并且是导航控制器子类中的第一个,系统会默认给子控件添加EdgeInsert属性,把导航栏的宽度挤出来.但是系统只会默认修改第一个. 解决办法1:系统帮忙给第 ...

  5. HNOI2002

    对于当天的营业额,你要找到之前的数和他差的绝对值最小的和.由于这个是不断在插入的,所以用伸展树来维护. http://www.lydsy.com/JudgeOnline/problem.php?id= ...

  6. Html-Css-div透明层剧中

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  7. 图解Android - Android GUI 系统 (1) - 概论

    Android的GUI系统是Android最重要也最复杂的系统之一.它包括以下部分: 窗口和图形系统 - Window and View Manager System. 显示合成系统 - Surfac ...

  8. NOI题库--砝码称重V2(多重背包2^n拆分)

    以前只会写多重背包的原版,渣的不行,为了做此题不得不学习了一下,发现其实也不难,只要理解了方法就好多了(PS:其实和倍增挺像的) 8756:砝码称重V2 总时间限制: 1000ms 内存限制: 655 ...

  9. 【bzoj1191】 HNOI2006—超级英雄Hero

    http://www.lydsy.com/JudgeOnline/problem.php?id=1191 (题目链接) 题意 有m个问题,n个锦囊妙计,每个锦囊妙计可以解决一个问题,每个问题有两个锦囊 ...

  10. PowerDesigner反向数据库时遇到[Microsoft][ODBC SQL Server Driver][SQL Server]无法预定义语句。SQLSTATE = 37错误解决方法

    逆向工程中,有时会出现如下错误 ... [Microsoft][ODBC SQL Server Driver][SQL Server]无法预定义语句 SQLSTATE = 37000 解决方案: 1. ...