CS229 Lecture 01】的更多相关文章

CS229 Lecture notes 01 机器学习课程主要分为4部分:监督学习:学习理论:无监督学习:增强学习. $x^{(i)}$表示特征,$y^{(i)}$表示目标,$i=1...m$.m是训练数据的数量.n表示特征的数量. 回归问题:预测连续变量的值. 线性回归: 确定假设$h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}$.我们可以增加一个变量$x_{0}=1$,则该假设可以改写为$h(x)=\sum_{i=0}^{x}…
本博客是针对李宏毅教授在Youtube上上传的课程视频<ML Lecture 0-1: Introduction of Machine Learning>的学习笔记.在Github上也po了这个系列学习笔记(MachineLearningCourseNote),觉得写的不错的小伙伴欢迎来给项目点个赞哦~~ Lecture 0-1: Introduction of Machine Learning Lecture 0-1: Introduction of Machine Learning Wha…
引言: 最近开始学习"机器学习",早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程.今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子加深学生的印象. 视频链接(bilibili):李宏毅机器学习(2017) 另外已经有有心的同学做了速记并更新在github上:李宏毅机器学习笔记(LeeML-Notes) 所以,接下来我的笔记只记录一些我自己的总结和听课当时的困惑,如果有能够帮我解答的朋友也请多多指教. 1.人工智能.机器学习.深度学习的关…
最近忙成狗,各种意义上.第二章其实之前已经看过了但是已经完全忘记了,于是重新看了一遍当复习. 判别学习算法:直接学习$p(y|x)$,或学习一个假设$h_{\theta}(x)$输出结果 生成学习算法:对$p(x|y)$进行建模(feature, class label),然后根据$p(y|x)=\frac{p(x|y)p(y)}{p(x)}$和$p(x)=p(x|y=1)p(y=1)+p(x|y=0)p(y=0)$计算结果. 高斯判别分析 假设p(x|y)服从多元高斯分布$z~N(\mu,\S…
Theories of Deep Learning 借该课程,进入战略要地的局部战斗中,采用红色字体表示值得深究的概念,以及想起的一些需要注意的地方. Lecture 01 Lecture01: Deep Learning Challenge. Is There Theory? (Donoho/Monajemi/Papyan) Video link 纯粹的简介,意义不大. Lecture 02 Video: Stats385 - Theories of Deep Learning - David…
上一节我们跟大家介绍了一个具体的机器学习的问题,以及它的内容的设定,我们今天要继续下去做什么呢?我们今天要教大家说到底我们怎么样可以有一个机器学习的演算法来解决我们上一次提到的,判断银行要不要给顾客信用卡的问题. 那么复习一下我们上一次上了什么?我们上一次说机器学习做的事情就是,有一个演算法我们叫做 A ,这个演算法会看两件事情:一件事情是资料,我们叫做 D :另一件事情是 hypothesis set ,假说集合.我们要从这个假说集合,即 hypothesis set 里面选一个 g ,这个…
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Cluster Analysis)方法.聚类就是将数据对象分组成为多个类或者簇 (Cluster),使得在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大. 划分(Partitioning):聚类可以基于划分,也可以基于分层.划分即将对象划分成不同的簇,而分层是将对象分等级. 排他(Exclu…
[十大经典数据挖掘算法]系列 C4.5 K-Means SVM Apriori EM PageRank AdaBoost kNN Naïve Bayes CART 1. 极大似然 极大似然(Maximum Likelihood)估计为用于已知模型的参数估计的统计学方法.比如,我们想了解抛硬币是正面(head)的概率分布\(\theta\):那么可以通过最大似然估计方法求得.假如我们抛硬币\(10\)次,其中\(8\)次正面.\(2\)次反面:极大似然估计参数\(\theta\)值: \[ \ha…
在线最优化求解(Online Optimization)之一:预备篇 动机与目的 在实际工作中,无论是工程师.项目经理.产品同学都会经常讨论一类话题:“从线上对比的效果来看,某某特征或因素对xx产品的最终效果有很大的影响”.这类话题本质上说的是通过已有的数据反映出某些特定的因素对结果有很强的正(或负)相关性.而如何定量计算这种相关性?如何得到一套模型参数能够使得效果达到最优?这就是最优化计算要做的事情. 举一类典型点的例子:在推荐和广告计算中,我们经常会需要对某些值进行预测,例如在一条推荐或广告…
本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 闲话:二项Logistic回归是我去年入门机器学习时学的第一个模型(忘记了为什么看完<统计学习方法>第一章之后直接就跳去了第六章,好像是对"逻辑斯蒂"这个名字很感兴趣?...),对照<机器学习实战>写了几行代码敲了一个toy版本,当时觉得还是挺有意思的.我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开…
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensionality) 维数灾难就是说当样本的维数增加时,若要保持与低维情形下相同的样本密度,所需要的样本数指数型增长.从下面的图可以直观体会一下.当维度很大样本数量少时,无法通过它们学习到有价值的知识:所以需要降维,一方面在损失的信息量可以接受的情况下获得数据的低维表示,增加样本的密度:另一方面也可以达到去噪…
支持向量机(support vector machine, 以下简称svm)是机器学习里的重要方法,特别适用于中小型样本.非线性.高维的分类和回归问题.本篇希望在正篇提供一个svm的简明阐述,附录则提供一些其他内容.(以下各节内容分别来源于不同的资料,在数学符号表述上可能有差异,望见谅.) 一.原理概述 机器学习的一大任务就是分类(Classification).如下图所示,假设一个二分类问题,给定一个数据集,里面所有的数据都事先被标记为两类,能很容易找到一个超平面(hyperplane)将其完…
本文地址为:http://www.cnblogs.com/kemaswill/,作者联系方式为kemaswill@163.com,转载请注明出处. 机器学习的目标是学得一个泛化能力比较好的模型.所谓泛化能力,是指根据训练数据训练出来的模型在新的数据上的性能.这就牵扯到机器学习中两个非常重要的概念:欠拟合和过拟合.如果一个模型在训练数据上表现非常好,但是在新数据集上性能很差,就是过拟合,反之,如果在训练数据集和新数据集上表现都很差,就是欠拟合,如下图所示 其中蓝叉点表示训练数据,蓝色的线表示学到的…
http://blog.csdn.net/pipisorry/article/details/50638749 偏置-方差分解(Bias-Variance Decomposition) 偏置-方差分解(Bias-Variance Decomposition)是统计学派看待模型复杂度的观点.Bias-variance 分解是机器学习中一种重要的分析技术.给定学习目标和训练集规模,它可以把一种学习算法的期望误差分解为三个非负项的和,即本真噪音noise.bias和 variance. noise 本…
回顾发现,李航的<统计学习方法>有些章节还没看完,为了记录,特意再水一文. 0 - logistic分布 如<统计学习方法>书上,设X是连续随机变量,X服从logistic分布是指X具有以下分布函数和密度函数: \[F(x) = P(X \leq x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}\] \[f(x) = F'(x) = \frac{e^{-(x-\mu)/\gamma}}{1+e^{-(x-\mu)/\gamma}}\] 其中\(\mu\)是位置参…
最近感觉对EM算法有一点遗忘,在表述的时候,还是有一点说不清,于是重新去看了这篇<CS229 Lecture notes>笔记. 于是有了这篇小札. 关于Jensen's inequality不等式: Corollary(推论): 如果函数f(x)为凸函数,那么在 f(x) 上任意两点X1,X2所作割线一定在这两点间的函数图象的上方,即:    其中t表示[x1,x2]的位置 举例子: 当t=1/2 ;  1/2*f(x1) + 1/2*f(x2) >= f( 1/2*x1 + 1/2*…
学术潜规则: 概率图模型提出的意义在于将过去看似零散的topic/model以一种统一的方式串联了起来,它便于从整体上看待这些问题,而非具体解决了某个细节. 举个例子:梯度下降,并非解决神经网络收敛问题而专门提出的什么算法,其实是凸优化理论中的一部分.凸优化理论的作用就是概率图模型的贡献所在. 统计机器学习,有数学系角度的认识,也有计算机系角度的认识. 统计机器学习 - 张志华 该课程更偏向于数学系视角,所以课程中包含了大量的概率基础.但课程的top不够,但并非讲师不行,而是计算机系的学生并未系…
Link: Neural Networks for Machine Learning - 多伦多大学 Link: Hinton的CSC321课程笔记1 Link: Hinton的CSC321课程笔记2 一年后再看课程,亦有收获,虽然看似明白,但细细推敲其实能挖掘出很多深刻的内容:以下为在线课程以及该笔记的课程重难点总结. Lecture 01 增强学习: (这是ng的拿手好戏,他做无人直升机可是做了好久)增强学习的输出是一个动作或者一系列的动作,通过与实际的场合下的环境互动来决定动作,增强学习的…
原文地址: https://blog.csdn.net/wishchin/article/details/42425145 原文 :  http://dataunion.org/?p=639 1.引言 说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和RL).这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现.DeepMind 工作人员合两者之精髓,在Stella模拟机上让机器自己玩了7个Atari 2600的…
stanford deep learning 网站上推荐的阅读目录: UFLDL Recommended Readings   If you're learning about UFLDL (Unsupervised Feature Learning and Deep Learning), here is a list of papers to consider reading. We're assuming you're already familiar with basic machine…
原文 :  http://dataunion.org/?p=639 1.引言 说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和RL).这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现.DeepMind 工作人员合两者之精髓,在Stella模拟机上让机器自己玩了7个Atari 2600的游戏,结果是玩的冲出美洲,走向世界,超越了物种的局限.不仅战胜了其他机器人,甚至在其中3个游戏中超越了人类游戏专家.噢,忘记…
##Advice for Applying Machine Learning Applying machine learning in practice is not always straightforward. In this module, we share best practices for applying machine learning in practice, and discuss the best ways to evaluate performance of the le…
Ref: http://sklearn.lzjqsdd.com/modules/svm.html Ref: CS229 Lecture notes - Support Vector Machines Ref: Lecture 6 | Machine Learning (Stanford) youtube Ref: 支持向量机通俗导论(理解SVM的三层境界) Ref: <Kernel Methods for Pattern Analysis> Ref: SVM教程:支持向量机的直观理解[插图来源…
Lecture 3(part 1) Divide and conquer 1. the general paradim of algrithm as bellow: 1. divide the problem into subproblems; 2. conqure each subproblems recrusively; 3. combine solution 2. Some typical problem (part 1) the matrix mutiplication(strassen…
当前标签: lecture   组合数求法讲解 BLADEVIL 2014-01-08 18:59 阅读:3 评论:0     mobius反演讲解 BLADEVIL 2014-01-08 18:13 阅读:4 评论:0     01分数规划讲解 BLADEVIL 2014-01-08 17:05 阅读:15 评论:0     动态树之LCT(link-cut tree)讲解 BLADEVIL 2014-01-08 17:01 阅读:259 评论:0     莫队算法讲解 BLADEVIL 20…
Lecture 6  Training Neural Networks 课堂笔记参见:https://zhuanlan.zhihu.com/p/22038289?refer=intelligentunit 本节课内容主要包括三部分:训练前准备.训练和评分.具体包括激活函数的选择,预处理,权重初始化,正则化,梯度检查,监控学习进程,参数更新,超参数优化和最终的模型评估. 一.激活函数 激活函数就是f,在以往线性评分的基础上加上激活函数,引入了非线性项,整体作为评分. 1.     Sigmoid:…
Lecture 7 神经网络二 课程内容记录:https://zhuanlan.zhihu.com/p/21560667?refer=intelligentunit 1.协方差矩阵: 协方差(Covariance)在概率论和统计学中用于衡量两个变量的总体误差.而方差是协方差的一种特殊情况,即当两个变量是相同的情况. 协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同. 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间…
sparse autoencoder的一个实例练习,这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparse autoencoder的方法训练出一个隐含层网络所学习到的特征.该网络共有3层,输入层是64个节点,隐含层是25个节点,输出层当然也是64个节点了. main函数,  分五步走,每个函数的实现细节在下边都列出了. %%===============================================…
Lecture 15 Anomaly Detection 异常检测 15.1 异常检测问题的动机 Problem Motivation 异常检测(Anomaly detection)问题是机器学习算法的一个常见应用.这种算法虽然主要用于无监督学习问题,但从某些角度看,它又类似于一些监督学习问题.举例: 当飞机引擎从生产线上流出时需要进行QA(质量控制测试),数据集包含引擎的一些特征变量,比如运转时产生的热量,或者振动等.当有一个新的飞机引擎从生产线上流出,它具有特征变量 xtest .异常检测问…
Lecture 11—Machine Learning System Design 11.1 垃圾邮件分类 本章中用一个实际例子: 垃圾邮件Spam的分类 来描述机器学习系统设计方法.首先来看两封邮件,左边是一封垃圾邮件Spam,右边是一封非垃圾邮件Non-Spam:垃圾邮件有很多features.如果我们想要建立一个Spam分类器,就要进行有监督学习,将Spam的features提取出来,而希望这些features能够很好的区分Spam.事实上,对于spam分类器,通常选取spam中词频最高的…