这一节讲述的是机器学习的核心.根本性问题——学习的可行性.学过机器学习的我们都知道,要衡量一个机器学习算法是否具有学习能力,看的不是这个模型在已有的训练数据集上的表现如何,而是这个模型在训练数据外的数据(一般我们称为测试数据)上性能的好坏,我们把这个性能称为泛化能力(generalization ability),机器学习中,我们的目标是寻找高泛化能力的模型:有些模型虽然在训练数据集上分类效果很好,甚至正确率达到100%,但是在测试数据集上效果很差,这样的模型泛化能力很差,这种现象也叫过拟合(O…
这门课的授课老师是个台湾人,师从Caltech的Yaser S. Abu-Mostafa,他们共同编撰了<Learning From Data>这本书.Yaser S. Abu-Mostafa在edx上也开设了机器学习的公开课,不过说实话,他的埃及口音英语实在很难听懂,而且讲的内容偏重理论,所以追了几节课就放弃了.这次他的学生带来了coursera的机器学习基石这门公开课,讲的内容和Yaser的公开课差不多,而且是中文授课(ppt是英文),这对于华语世界的学生来说是个福音.未来几周,我将把这门…
第一讲中我们学习了一个机器学习系统的完整框架,包含以下3部分:训练集.假设集.学习算法 一个机器学习系统的工作原理是:学习算法根据训练集,从假设集合H中选择一个最好的假设g,使得g与目标函数f尽可能低接近.H称为假设空间,是由一个学习模型的参数决定的假设构成的一个空间.而我们这周就要学习一个特定的H——感知器模型. 感知器模型在神经网络发展历史中占有特殊地位,并且是第一个具有完整算法描述的神经网络学习算法(称为感知器学习算法:PLA).这个算法是由一位心理学家Rosenblatt在1958年提出…
博客已经迁移至Marcovaldo's blog (http://marcovaldong.github.io/) Andrew Ng的Machine Learning比較简单,已经看完.林田轩的机器学习基石很多其它的是从概率论的角度来介绍机器学习,之前的视频已经听了大半.但好多都是模棱两可. 如今从头開始,认真整理笔记.笔记的结构遵从课程视频的结构. 以下是机器学习基石的第一讲:the learning problem Course Introduction 机器学习是一门理论和实践相结合的课…
(转载)林轩田机器学习基石课程学习笔记1 - The Learning Problem When Can Machine Learn? Why Can Machine Learn? How Can Machine Learn? How Can Machine Learn Better? 每个部分由四节课组成,总共有16节课.那么,从这篇开始,我们将连续对这门课做课程笔记,共16篇,希望能对正在看这们课的童鞋有所帮助.下面开始第一节课的笔记:The Learning Problem. 一.What…
课程的讲授从logo出发,logo由四个图案拼接而成,两个大的和两个小的.比较小的两个下一次课程就可能会解释到它们的意思,两个大的可能到课程后期才会解释到它们的意思(提示:红色代表使用机器学习危险,蓝色代表使用机器学习不危险). 机器学习是理论与实践相结合的一门学问.要怎么学习机器学习课程?我们可以从很理论的角度出发:机器学习有什么推论什么结论,它可以设计出什么样的东西,我们可以非常深入的了解这些相关知识.然后,我们感叹,哇- 这些前辈好伟大,怎么可以设计出这么漂亮的数学,这么漂亮的东西.可是,…
大家好,我是Mac Jiang,非常高兴您能在百忙之中阅读我的博客!这个专题我主要讲的是Coursera-台湾大学-機器學習基石(Machine Learning Foundations)的课后习题解答.笔者是在学习了Ng的Machine Learning之后開始学习这门课程的.但还是感觉收获颇丰.Ng的课程主要站在计算机专业的角度.教你怎样使用机器学习.注重方法而不是数学推导,是一门非常好的新手教程.而林轩田老师的机器学习基石是站在统计分析角度,证明机器学习算法为什么要这么做,更加注重于理论的…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们介绍了Logistic Regression问题,建立cross-entropy error,并提出使用梯度下降算法gradient descent来获得最好的logistic hypothesis.本节课继续介绍使用线性模型来解决分类问题. 一.Linear Models for Binary Classification 之前介绍的几种线性模型都有一个共同点,就是都有…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课介绍了Linear Regression线性回归,用均方误差来寻找最佳的权重向量\(w\),获得最好的线性预测.本节课将介绍Logistic Regression逻辑回归问题. 一.Logistic Regression Problem 一个心脏病预测的问题:根据患者的年龄.血压.体重等信息,来预测患者是否会有心脏病.很明显这是一个二分类问题,其输出\(y\)只有\({0,1}…
注: 文章中所有的图片均来自台湾大学林轩田<机器学习基石>课程. 笔记原作者:红色石头 微信公众号:AI有道 上一节课,我们主要介绍了VC Dimension的概念.如果Hypotheses set的VC Dimension是有限的,且有足够多的资料\(N\),同时能够找到一个hypothesis使它的\(E_{in}\approx 0\),那么就能说明机器学习是可行的.本节课主要讨论数据集有Noise的情况下,是否能够进行机器学习,并且介绍了假设空间H下演算法\(\mathcal{A}\)的…