本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 梯度下降法 (Gradient Descent) 梯度下降法是一种用来寻找函数最小值的算法.算法的思想非常简单:每次沿与当前梯度方向相反的方向走一小步,并不断重复这一过程.举例如下: [例]使用梯度下降法,求z=0.3x2+0.4y2+2的最小值. 第一步:求解迭代格式.根据“每次沿与当前梯度方向相反的方向走一小步”的思想,可知x(k…
分类任务 原始方法:通过将线性回归的输出映射到0-1,设定阈值来实现分类任务 改进方法:原始方法的效果在实际应用中表现不好,因为分类任务通常不是线性函数,因此提出了逻辑回归 逻辑回归 假设表示--引入sigmoid函数g sigmoid函数将输出映射到区间(0,1),可以看作是概率 损失函数 多分类 训练多个逻辑回归二分类器,对新的样本取预测概率最高的一个类别 欠拟合与过拟合 欠拟合:高偏差,模型没有很好地捕捉到数据的结构,通常是因为模型太简单,使用特征太少 过拟合:高方差,可以很好地拟合可用数…
[Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为"对数几率回归",是一种分类学习方法.和先前的线性回归模型不同的是,输出的y一般是离散量的集合,如输出\(y \in \{0,1\}\)的二分类任务. 考虑二分类任务,线性回归模型产生的\(Z=\theta ^TX\)是连续的实值,需要用一个函数\(g(\theta ^TX)\)将z转换为0/1值.…
点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记 机器学习 scikit-learn 图谱 人脸表情识别常用的几个数据库 机器学习 F1-Score, recall, precision Softmax Classifier (三个隐含层) Softmax Classifier (两个隐含层) Softmax classifier (一个隐含层) Softmax classifier (无隐含层) 机器视觉: LBP-TOP 机器视觉…
这章的内容对于设计分析假设性能有很大的帮助,如果运用的好,将会节省实验者大量时间. Machine Learning System Design6.1 Evaluating a Learning Algorithm6.1.1 Deciding What to Try Next机器学习诊断法:一种测试法,通过执行这种测试,能够深入了解某种算法是否有用.诊断法也会告诉你,要想改进一种算法的效果需要什么样的尝试.能够判断一种学习算法能不能work,并且改善该算法性能的一个测试. 诊断法的执行和实现是需…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 指数分布族简介 之前的文章分别介绍了因变量服从高斯分布.伯努利分布.泊松分布.多项分布时,与之对应的回归模型,本文章将阐释这些模型的共同点,并加以推广. 首先非正式地给出指数分布族的定义: 定义 如果变量y的分布可以被表示为p(y;η)=b(y)exp(ηTT(y)-a(η))的形式(η为分布的参数),则称y服从指数分布族 萌萌哒博主…
What is machine learning? 并没有广泛认可的定义来准确定义机器学习.以下定义均为译文,若以后有时间,将补充原英文...... 定义1.来自Arthur Samuel(上世纪50年代.西洋棋程序) 在进行特定编程的情况下给予计算机学习能力的领域. 定义2.来自Tom Mitchell(卡内基梅隆大学) 一个好的学习问题定义如下:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P, 当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升. 机器学习分类 监…
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最先是由David Cournapeau在2007年发起的一个Google Summer of Code项目,从那时起这个项目就已经拥有很多的贡献者了,而且该项目目前为止也是由一个志愿者团队在维护着. scikit-learn最大的特点就是,为用户提供各种机器学习算法接口,可以让用户简单.高效地进行数…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 泊松回归 (Poisson Regression) 在生活中,经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模,例如癌症.火灾等. 假设向量x表示引起这一事件发生的因素,向量θ表示因素的权重,则使用hθ(x)=exp(θTx)表示事件发生次数的期望.θTx位于指数位置,意味着其每增加1个单位,将导至事件发生次数的期望值翻…
逻辑回归: 本章内容主要讲述简单的逻辑回归:这个可以归纳为二分类的问题. 逻辑,非假即真.两种可能,我们可以联想一下在继电器控制的电信号(0 or 1) 举个栗子:比如说你花了好几个星期复习的考试(通过 or 失败) 哇,那个女孩子长得真好看,你同不同意? 一场NBA,湖人赢了火箭还是输给火箭? 这里:我们引入sigmoid函数,可以设定一个阈值来区分两类. 这样我们可以设定一个阈值:0.5.   超过0.5的值归为1这一类,其余的(>0)都归为零这一类 这里的代码跟上一篇博客的很像,如果你不熟…
1. 目的:根据人口普查数据来预测收入(预测每个个体年收入是否超过$50,000) 2. 数据来源:1994年美国人口普查数据,数据中共含31978个观测值,每个观测值代表一个个体 3. 变量介绍: (1)age: 年龄(以年表示) (2)workclass: 工作类别/性质 (e.g., 国家机关工作人员.当地政府工作人员.无收入人员等) (3)education: 受教育水平 (e.g., 小学.初中.高中.本科.硕士.博士等) (4)maritalstatus: 婚姻状态(e.g., 未婚…
模型 假定有i组输入输出数据.输入变量可以用\(x^i\)表示,输出变量可以用\(y^i\)表示,一对\(\{x^i,y^i\}\)名为训练样本(training example),它们的集合则名为训练集(training set). 假定\(X\)有j个特征,则可以用集合\({x^i_1,x^i_2,\dots ,x^i_j}\)表示. 为了描述模型,要建立假设方程(hypothesis function) : $ h:X\to Y$. \(h_\theta (x) = \theta_0 +…
一.Model representation(模型表示) 1.1 训练集 由训练样例(training example)组成的集合就是训练集(training set), 如下图所示, 其中(x,y)是一个训练样例, (x(i),y(i))是第 i个训练样例. 1.2 假设函数 使用某种学习算法对训练集的数据进行训练, 我们可以得到假设函数(Hypothesis Function), 如下图所示. 在房价的例子中,假设函数就是一个房价关于房子面积的函数.有了这个假设函数之后, 给定一个房子的面积…
回归任务 多变量线性回归 公式 h为假设,theta为模型参数(代表了特征的权重),x为特征的值 参数更新 梯度下降算法 影响梯度下降算法的因素 (1)加速梯度下降:通过让每一个输入值大致在相同的范围可以加速梯度下降,因为theta在x的范围比较小的时候收敛更快, x的范围不平整时收敛慢且会发生震荡.即对变量进行标准化处理,方法为减均值,除标准差 (2)学习速率:alpha太小,能收敛但速度太慢:alpha太大不能保证每一步都会使代价函数下降,且可能会导致不收敛 改善特征和假设函数的方法--多项…
看到Max Welling教授主页上有不少学习notes,收藏一下吧,其最近出版了一本书呢还,还没看过. http://www.ics.uci.edu/~welling/classnotes/classnotes.html Statistical Estimation [ps]- bayesian estimation- maximum a posteriori (MAP) estimation- maximum likelihood (ML) estimation- Bias/Variance…
机器学习的定义 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E. 某类任务T(task)具有性能度量P(performance),计算机程序可以从任务T…
Typora 安装与使用. Typora插件. OSS图床配置. 机器学习导论. 机器学习的基本思路. 机器学习实操的7个步骤…
- Normal equation 到眼下为止,线性回归问题中都在使用梯度下降算法,但对于某些线性回归问题,正规方程方法是更好的解决方式. 正规方程就是通过求解例如以下方程来解析的找出使得代价函数最小的參数: 如果我们的训练集特征矩阵为X,我们的训练集结果为向量y,则利用正规方程解出向量: 下面表所看到的的数据为例: 运用正规方程方法求解參数为: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvam9qb3poYW5nanU=/font/5a6L5L2T…
引子 对于一个特征数比较大的非线性分类问题,如果采用先前的回归算法,需要很多相关量和高阶量作为输入,算法的时间复杂度就会很大,还有可能会产生过拟合问题,如下图: 这时就可以选择采用神经网络算法. 神经网络算法最早是人们希望模仿大脑的学习功能而想出来的. 一个神经元,有多个树突(Dendrite)作为信息的输入通道,也有多个轴突(Axon)作为信息的输出通道.一个神经元的输出可以作为另一个神经元的输入.神经元的概念和多分类问题的分类器概念很相近,都是可以接收多个输入,在不同的权值(weights)…
继续学习http://www.cnblogs.com/tornadomeet/archive/2013/03/15/2962116.html,上一节课学习速率是固定的,而这里我们的目的是找到一个比较好的学习速率.我们主要是观察 不同的学习速率对应的不同的损失值与迭代次数之间的函数曲线是怎么样的,找到那条最快达到收敛的函数曲线,其对应的学习速率就是我们要找的比较好的学习速率.在这里我们分别取速率值为:0.001,0.01,0.1,1,2,当我们选择完学习速率后,其余的都跟上一节课一样了.本文要解决…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 用牛顿法解方程 牛顿法是一种求解方程的迭代算法,也可以用于方程组的求解.其思想是利用方程(尤其是非线性方程)的线性部分,对原方程进行近似.不失一般性,考虑方程f(x)=0.对f(x)在x=t处进行泰勒展开,可得f(x)=f(t)+f'(t)(x-t)+... 取线性部分代替f(x),带入方程f(x)=0,可得f(t)+f'(t)(x-…
Uninstall any existing gnuplot on your OSX brew uninstall gnuplot Install gnuplot with either X or X11 brew-install gnuplot --with-x11 Finally, set the GNUTERM to X11 setenv("GNUTERM","X11") 或者 brew install gnuplot --with-qt setenv(&qu…
解决复杂非线性问题 BP神经网络 模型表示 theta->weights sigmoid->activation function input_layer->hidden_layer->output_layer 对每一个隐藏层的操作等同于Logistic Regression.因此,通过BP神经网络可以建立比Logistic Regression更复杂的非线性假设, 且建模形式更简洁. 损失函数 其中,K是输出层的单元数(类别数) 反向传播算法(推导) 随机初始化weights 网…
损失函数. 最小二乘法. 极大似然估计. 复习一下对数. 交叉熵. 信息量. 系统熵的定义. KL散度…
DA就是“Denoising Autoencoders”的缩写.继续给yusugomori做注释,边注释边学习.看了一些DA的材料,基本上都在前面“转载”了.学习中间总有个疑问:DA和RBM到底啥区别?(别笑,我不是“学院派”的看Deep Learning理论,如果“顺次”看下来,可能不会有这个问题),现在了解的差不多了,详情见:[deep learning学习笔记]Autoencoder.之后,又有个疑问,DA具体的权重更新公式是怎么推导出来的?我知道是BP算法,不过具体公示的推导.偏导数的求…
过拟合(overfitting): 实际操作过程中,无论是线性回归还是逻辑回归,其假设函数h(x)都是人为设定的(尽管可以通过实验选择最优). 这样子就可能出线“欠拟合”或者“过拟合”现象. 所谓过拟合,就是模型复杂度过高,模型很好地拟合了训练样本却对未知样本的预测能力不足.(亦称"泛化"能力不足) 所谓欠拟合,就是模型复杂度过低,模型不能很好拟合不管是训练样本还是其他样本. 例子: 如果输出与输入大致成二次关系, 那么我们用一次函数去拟合,拟合结果过于平缓,跟不上变化,这就是“欠拟合…
原文:http://blog.csdn.net/abcjennifer/article/details/7732417 本文为Maching Learning 栏目补充内容,为上几章中所提到单参数线性回归.多参数线性回归和 逻辑回归的总结版.旨在帮助大家更好地理解回归,所以我在Matlab中分别对他们予以实现,在本文中由易到难地逐个介绍.     本讲内容: Matlab 实现各种回归函数 ========================= 基本模型 Y=θ0+θ1X1型---线性回归(直线拟合…
Spark MLlib回归算法------线性回归.逻辑回归.SVM和ALS 1.线性回归: (1)模型的建立: 回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好. 数学上,ElasticNet被定义为L1和L2正则化项的凸组合: 通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况.例如,如果用参数α设置为1来训练线性回归模型,则其等价于Lasso模型.另一方面,如果α被设置为0,则训练的模型简化为ridge回归模型.…
一.线性回归 1.批量梯度下降法 每次对参数进行一次迭代时,都要扫描一遍输入全集 算法可以收敛到局部最优值 当迭代多次之后,每次迭代参数的改变越小 2.随机梯度下降法 对于一个输入样本,对参数进行一次更新 算法通常不会收敛到局部最优值,整个过程类似在上山迂回下山,有时可能上山,有时可能下山,但算法的最后都会得到局部最优值附近的一个值 若输入数据非常多的时候,随机梯度下降比批量梯度下降更加合适 3.概率解释 在原式子里加入一个"error term",之后得到这个"error…
UFLDL深度学习笔记 (二)Softmax 回归 本文为学习"UFLDL Softmax回归"的笔记与代码实现,文中略过了对代价函数求偏导的过程,本篇笔记主要补充求偏导步骤的详细推导. 1. 详细推导softmax代价函数的梯度 经典的logistics回归是二分类问题,输入向量$ x^{(i)}\in\Re^{n+1}$ 输出0,1判断\(y^{(i)}\in{\{0,1\}}\),Softmax回归模型是一种多分类算法模型,如图所示,输出包含k个类型,\(y^{(i)}\in{\…