本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 指数分布族简介 之前的文章分别介绍了因变量服从高斯分布.伯努利分布.泊松分布.多项分布时,与之对应的回归模型,本文章将阐释这些模型的共同点,并加以推广. 首先非正式地给出指数分布族的定义: 定义 如果变量y的分布可以被表示为p(y;η)=b(y)exp(ηTT(y)-a(η))的形式(η为分布的参数),则称y服从指数分布族 萌萌哒博主…
[Machine Learning]学习笔记-Logistic Regression 模型-二分类任务 Logistic regression,亦称logtic regression,翻译为"对数几率回归",是一种分类学习方法.和先前的线性回归模型不同的是,输出的y一般是离散量的集合,如输出\(y \in \{0,1\}\)的二分类任务. 考虑二分类任务,线性回归模型产生的\(Z=\theta ^TX\)是连续的实值,需要用一个函数\(g(\theta ^TX)\)将z转换为0/1值.…
点击标题可转到相关博客. 博客专栏:机器学习 PDF 文档下载地址:Machine Learning 学习笔记 机器学习 scikit-learn 图谱 人脸表情识别常用的几个数据库 机器学习 F1-Score, recall, precision Softmax Classifier (三个隐含层) Softmax Classifier (两个隐含层) Softmax classifier (一个隐含层) Softmax classifier (无隐含层) 机器视觉: LBP-TOP 机器视觉…
1. scikit-learn介绍 scikit-learn是Python的一个开源机器学习模块,它建立在NumPy,SciPy和matplotlib模块之上.值得一提的是,scikit-learn最先是由David Cournapeau在2007年发起的一个Google Summer of Code项目,从那时起这个项目就已经拥有很多的贡献者了,而且该项目目前为止也是由一个志愿者团队在维护着. scikit-learn最大的特点就是,为用户提供各种机器学习算法接口,可以让用户简单.高效地进行数…
What is machine learning? 并没有广泛认可的定义来准确定义机器学习.以下定义均为译文,若以后有时间,将补充原英文...... 定义1.来自Arthur Samuel(上世纪50年代.西洋棋程序) 在进行特定编程的情况下给予计算机学习能力的领域. 定义2.来自Tom Mitchell(卡内基梅隆大学) 一个好的学习问题定义如下:一个程序被认为能从经验E中学习,解决任务T,达到性能度量值P, 当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升. 机器学习分类 监…
这章的内容对于设计分析假设性能有很大的帮助,如果运用的好,将会节省实验者大量时间. Machine Learning System Design6.1 Evaluating a Learning Algorithm6.1.1 Deciding What to Try Next机器学习诊断法:一种测试法,通过执行这种测试,能够深入了解某种算法是否有用.诊断法也会告诉你,要想改进一种算法的效果需要什么样的尝试.能够判断一种学习算法能不能work,并且改善该算法性能的一个测试. 诊断法的执行和实现是需…
看到Max Welling教授主页上有不少学习notes,收藏一下吧,其最近出版了一本书呢还,还没看过. http://www.ics.uci.edu/~welling/classnotes/classnotes.html Statistical Estimation [ps]- bayesian estimation- maximum a posteriori (MAP) estimation- maximum likelihood (ML) estimation- Bias/Variance…
Typora 安装与使用. Typora插件. OSS图床配置. 机器学习导论. 机器学习的基本思路. 机器学习实操的7个步骤…
模型 假定有i组输入输出数据.输入变量可以用\(x^i\)表示,输出变量可以用\(y^i\)表示,一对\(\{x^i,y^i\}\)名为训练样本(training example),它们的集合则名为训练集(training set). 假定\(X\)有j个特征,则可以用集合\({x^i_1,x^i_2,\dots ,x^i_j}\)表示. 为了描述模型,要建立假设方程(hypothesis function) : $ h:X\to Y$. \(h_\theta (x) = \theta_0 +…
机器学习的定义 A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E. 某类任务T(task)具有性能度量P(performance),计算机程序可以从任务T…
一.Model representation(模型表示) 1.1 训练集 由训练样例(training example)组成的集合就是训练集(training set), 如下图所示, 其中(x,y)是一个训练样例, (x(i),y(i))是第 i个训练样例. 1.2 假设函数 使用某种学习算法对训练集的数据进行训练, 我们可以得到假设函数(Hypothesis Function), 如下图所示. 在房价的例子中,假设函数就是一个房价关于房子面积的函数.有了这个假设函数之后, 给定一个房子的面积…
回归任务 多变量线性回归 公式 h为假设,theta为模型参数(代表了特征的权重),x为特征的值 参数更新 梯度下降算法 影响梯度下降算法的因素 (1)加速梯度下降:通过让每一个输入值大致在相同的范围可以加速梯度下降,因为theta在x的范围比较小的时候收敛更快, x的范围不平整时收敛慢且会发生震荡.即对变量进行标准化处理,方法为减均值,除标准差 (2)学习速率:alpha太小,能收敛但速度太慢:alpha太大不能保证每一步都会使代价函数下降,且可能会导致不收敛 改善特征和假设函数的方法--多项…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 泊松回归 (Poisson Regression) 在生活中,经常会遇到一类问题需要对一段时间内某一小概率事件的发生次数建模,例如癌症.火灾等. 假设向量x表示引起这一事件发生的因素,向量θ表示因素的权重,则使用hθ(x)=exp(θTx)表示事件发生次数的期望.θTx位于指数位置,意味着其每增加1个单位,将导至事件发生次数的期望值翻…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 用牛顿法解方程 牛顿法是一种求解方程的迭代算法,也可以用于方程组的求解.其思想是利用方程(尤其是非线性方程)的线性部分,对原方程进行近似.不失一般性,考虑方程f(x)=0.对f(x)在x=t处进行泰勒展开,可得f(x)=f(t)+f'(t)(x-t)+... 取线性部分代替f(x),带入方程f(x)=0,可得f(t)+f'(t)(x-…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 梯度下降法 (Gradient Descent) 梯度下降法是一种用来寻找函数最小值的算法.算法的思想非常简单:每次沿与当前梯度方向相反的方向走一小步,并不断重复这一过程.举例如下: [例]使用梯度下降法,求z=0.3x2+0.4y2+2的最小值. 第一步:求解迭代格式.根据“每次沿与当前梯度方向相反的方向走一小步”的思想,可知x(k…
- Normal equation 到眼下为止,线性回归问题中都在使用梯度下降算法,但对于某些线性回归问题,正规方程方法是更好的解决方式. 正规方程就是通过求解例如以下方程来解析的找出使得代价函数最小的參数: 如果我们的训练集特征矩阵为X,我们的训练集结果为向量y,则利用正规方程解出向量: 下面表所看到的的数据为例: 运用正规方程方法求解參数为: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvam9qb3poYW5nanU=/font/5a6L5L2T…
引子 对于一个特征数比较大的非线性分类问题,如果采用先前的回归算法,需要很多相关量和高阶量作为输入,算法的时间复杂度就会很大,还有可能会产生过拟合问题,如下图: 这时就可以选择采用神经网络算法. 神经网络算法最早是人们希望模仿大脑的学习功能而想出来的. 一个神经元,有多个树突(Dendrite)作为信息的输入通道,也有多个轴突(Axon)作为信息的输出通道.一个神经元的输出可以作为另一个神经元的输入.神经元的概念和多分类问题的分类器概念很相近,都是可以接收多个输入,在不同的权值(weights)…
Uninstall any existing gnuplot on your OSX brew uninstall gnuplot Install gnuplot with either X or X11 brew-install gnuplot --with-x11 Finally, set the GNUTERM to X11 setenv("GNUTERM","X11") 或者 brew install gnuplot --with-qt setenv(&qu…
解决复杂非线性问题 BP神经网络 模型表示 theta->weights sigmoid->activation function input_layer->hidden_layer->output_layer 对每一个隐藏层的操作等同于Logistic Regression.因此,通过BP神经网络可以建立比Logistic Regression更复杂的非线性假设, 且建模形式更简洁. 损失函数 其中,K是输出层的单元数(类别数) 反向传播算法(推导) 随机初始化weights 网…
分类任务 原始方法:通过将线性回归的输出映射到0-1,设定阈值来实现分类任务 改进方法:原始方法的效果在实际应用中表现不好,因为分类任务通常不是线性函数,因此提出了逻辑回归 逻辑回归 假设表示--引入sigmoid函数g sigmoid函数将输出映射到区间(0,1),可以看作是概率 损失函数 多分类 训练多个逻辑回归二分类器,对新的样本取预测概率最高的一个类别 欠拟合与过拟合 欠拟合:高偏差,模型没有很好地捕捉到数据的结构,通常是因为模型太简单,使用特征太少 过拟合:高方差,可以很好地拟合可用数…
损失函数. 最小二乘法. 极大似然估计. 复习一下对数. 交叉熵. 信息量. 系统熵的定义. KL散度…
DA就是“Denoising Autoencoders”的缩写.继续给yusugomori做注释,边注释边学习.看了一些DA的材料,基本上都在前面“转载”了.学习中间总有个疑问:DA和RBM到底啥区别?(别笑,我不是“学院派”的看Deep Learning理论,如果“顺次”看下来,可能不会有这个问题),现在了解的差不多了,详情见:[deep learning学习笔记]Autoencoder.之后,又有个疑问,DA具体的权重更新公式是怎么推导出来的?我知道是BP算法,不过具体公示的推导.偏导数的求…
从2016年年初,开始用python写一个简单的爬虫,帮我收集一些数据. 6月份,开始学习Machine Learning的相关知识. 9月开始学习Spark和Scala. 现在想,整理一下思路. 先感谢下我的好友王峰给我的一些建议.他在Spark和Scala上有一些经验,让我前进的速度加快了一些. 学习算法 作为一个程序猿,以前多次尝试看过一些机器学习方面的书,其过程可以说是步履阑珊,碰到的阻力很大. 主要原因是,读这些机器学习的书,需要有一些数学方面的背景. 问题就在这些数学背景上,这些背景…
一.文章来由 好久没写原创博客了,一直处于学习新知识的阶段.来新加坡也有一个星期,搞定签证.入学等杂事之后,今天上午与导师确定了接下来的研究任务,我平时基本也是把博客当作联机版的云笔记~~如果有写的不对的地方,欢迎批评指正. 二.<一天搞懂深度学习> 300多页的PPT,台大教授写的好文章. 对应的视频地址 1.Lecture I: Introduction of Deep Learning (1)machine learning≈找函数 training和testing过程 (2)单个神经网…
原文地址: https://www.cnblogs.com/steven-yang/p/5857964.html ---------------------------------------------------------------------------------------------------------- 从2016年年初,开始用python写一个简单的爬虫,帮我收集一些数据.6月份,开始学习Machine Learning的相关知识.9月开始学习Spark和Scala.现在…
 1. 直接上手篇 台湾李宏毅教授写的,<1天搞懂深度学习> slideshare的链接: http://www.slideshare.net/tw_dsconf/ss-62245351?qid=108adce3-2c3d-4758-a830-95d0a57e46bc&v=&b=&from_search=3 网盘下载链接:http://pan.baidu.com/s/1nv54p9R     密码:3mty. 中文在线课程:Hung-yi Lee (http://spe…
1 Machine Learning strategy 1.1 为什么有机器学习调节策略 当你的机器学习系统的性能不佳时,你会想到许多改进的方法.但是选择错误的方向进行改进,会使你花费大量的时间,但是无法得到想要的结果. 这一部分吴恩达老师将讲解一些他在国王总结的经验教训,改进策略,避免南辕北辙.而且现在深度学习的的策略变化日新月异. 1.2 Orthogonalization(正交化) 不耦合的.举例了控制电视屏幕,汽车. 1.2.1 chain of assumption in ML 下面这…
指数分布族 我们称一类分布属于指数分布族(exponential family distribution),如果它的分布函数可以写成以下的形式: \[ \begin{equation} p(y;\eta) = b(y) \exp(\eta^{T}T(y) - a(\eta)) \tag{*} \end{equation} \] 其中,\(\eta\)被称为自然参数(natural parameter),\(T(y)\)被称为充分统计量(sufficient statistic),\(a(\eta…
1. ELM 是什么 ELM的个人理解: 单隐层的前馈人工神经网络,特别之处在于训练权值的算法: 在单隐层的前馈神经网络中,输入层到隐藏层的权值根据某种分布随机赋予,当我们有了输入层到隐藏层的权值之后,可以根据最小二乘法得到隐藏层到输出层的权值,这也就是ELM的训练模型过程. 与BP算法不同,BP算法(后向传播算法),输入层到隐藏层的权值,和隐藏层到输出层的权值全部需要迭代求解(梯度下降法) 用一张老图来说明,也就是说上图中的Wi1,Wi2,Wi3 在超限学习机中,是随机的,固定的,不需要迭代求…
最近研究上了这个一个东西--极限学习机. 在很多问题中,我大多会碰到两个问题,一个是分类,另一个就是回归.简单来说,分类是给一串数打个标签,回归是把一串数变为一个数. 在这里我们需要处理的数据一般维度都比较高,在处理这两类问题时最简单的方法就是加权.使那些对最终结果影响大的维度的数据的权设大点,影响小的权设小点.其实,影响小的这些维度的数据对于我们整个建立的模型也不是完全没有用的.至少它们保证了我们整个模型的稳定和鲁棒性. 直到现在我都没有说什么是ELM(极限学习机),因为,它本身还存在很大的争…