(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 每个部分由四节课组成,总共有16节课.那么,从这篇开始,我们将连续对这门课做课程笔记,共16篇,希望能对正在看这们课的童鞋有所帮助.下面开始第一节课的笔记:The Learning Problem. 一.What…
这一节开始讲基础的Linear Regression算法. (1)Linear Regression的假设空间变成了实数域 (2)Linear Regression的目标是找到使得残差更小的分割线(超平面) 下面进入核心环节:Linear Regression的优化目标是minimize Ein(W) 为了表达简便,首先需要把这种带Σ符号的转换成matrix form,如下: 1~2:多个项的平方和可以转换成向量的平方 2~3:把每个列向量x都横过来,组成一个新的X矩阵 最后转换成了最终的min…
这里提出Logistic Regression的角度是Soft Binary Classification.输出限定在0~1之间,用于表示可能发生positive的概率. 具体的做法是在Linear Regression的基础上,再加一层Logistic Function,限定住输出的取值. 完成了hypothesis的部分,下面就是如何写出Ein的表达式了. 这里自己先回想了一下Linear Regression的情况,为啥能得到analytic close solution呢? 因为Line…
首先回顾了几个Linear Model的共性:都是算出来一个score,然后做某种变化处理. 既然Linear Model有各种好处(训练时间,公式简单),那如何把Linear Regression给应用到Classification的问题上呢?到底能不能迁移呢? 总结了如下的集中Linear Model的error functions的表达式: 这里都提炼出来了ys这一项,y表示需要更正的方向{+1,-1},s表示需要更正的幅度(score) 三种error function可以这么理解: (…
正则化的提出,是因为要解决overfitting的问题. 以Linear Regression为例:低次多项式拟合的效果可能会好于高次多项式拟合的效果. 这里回顾上上节nonlinear transform的课件: 上面的内容说的是,多项式拟合这种的假设空间,是nested hypothesis:因此,能否想到用step back的方法(即,加一些constraints的方法把模型给退化回去呢?) 事实上,是可以通过加入constraint使得模型退化回去的:但是,再优化的过程中涉及到了“判断每…
首先回顾上节课末尾引出来的VC Bound概念,对于机器学习来说,VC dimension理论到底有啥用. 三点: 1. 如果有Break Point证明是一个好的假设集合 2. 如果N足够大,那么Ein跟Eout的表现会比较接近 3. 如果算法A选的g足够好(Ein很小),则可能从数据中学到了东西 ================================================== 现在正式引出VC Dimension的概念:啥叫VC Dimension: VC Dimensi…
直接跳过第一讲.从第二讲Perceptron开始,记录这一讲中几个印象深的点: 1. 之前自己的直觉一直对这种图理解的不好,老按照x.y去理解. a) 这种图的每个坐标代表的是features:features的值是有物理意义的. b) 而圈圈和叉叉是为了标注不同的样本(正样本 负样本),即label:为了后续的很多简便表示,这里正样本取+1,负样本取-1 2. Perceptron Learning策略的几何意义:表示临界线(面)的法向量旋转方向 由于label设为了+1和-1,可以直接用w+…
上节课我们主要介绍了解决线性分类问题的一个简单的方法:PLA.PLA能够在平面中选择一条直线将样本数据完全正确分类.而对于线性不可分的情况,可以使用Pocket Algorithm来处理.本节课将主要介绍一下机器学习有哪些种类,并进行归纳. 一.Learning with Different Output Space Y(根据输入空间变化划分) 银行根据用户个人情况判断是否给他发信用卡的例子,这是一个典型的二元分类(binary classification)问题.也就是说输出只有两个,一般y=…
机器学习的整个过程:根据模型H,使用演算法A,在训练样本D上进行训练,得到最好的h,其对应的g就是我们最后需要的机器学习的模型函数,一般g接近于目标函数f.本节课将继续深入探讨机器学习问题,介绍感知机Perceptron模型,并推导课程的第一个机器学习算法:Perceptron Learning Algorithm(PLA). 一.Perceptron Hypothesis Set 某银行要根据用户的年龄.性别.年收入等情况来判断是否给该用户发信用卡.现在有训练样本D,即之前用户的信息和是否发了…
紧接上一讲的Break Point of H.有一个非常intuition的结论,如果break point在k取到了,那么k+1, k+2,... 都是break point. 那么除此之外,我们还能获得那些讯息? 这里举了一些例子,核心就是说下面的事情 简言之,如果H有Break Point k,那么当N大于k的时候,mH(N)会大大地缩减(对于binary classification来说是pow(2, N) ). 按照这个思路,自然就想知道,既然mH(N)会大大缩减,能缩减到啥程度?(如…