广义线性模型 y是分类变量 Link function:将分类变量和数值变量放在一起 使用得到结果0 or 1的概率值来评估选0 or1 函数关系: 正比例函数: logistics函数S型曲线: Odds ratio反应事件发生的倾向性 logistics函数与probit regression function很像,但是logistics函数基于二项分布,probit regression function基于正态分布. probit regression function:正态分布的累计概…
(一)牛顿法解最大似然估计 牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x),如果我们要求函数值为0时的x,如图所示: 我们先随机选一个点,然后求出该点的切线,即导数,延长它使之与x轴相交,以相交时的x的值作为下一次迭代的值. 更新规则为: 那么如何将牛顿方法应用到机器学习问题求解中呢? 对于机器学习问题,我们优化的目标函数为极大似然估计L,当极大似然估计函数取得最大时,其导…
本系列文章允许转载,转载请保留全文! [请先阅读][说明&总目录]http://www.cnblogs.com/tbcaaa8/p/4415055.html 1. 指数分布族简介 之前的文章分别介绍了因变量服从高斯分布.伯努利分布.泊松分布.多项分布时,与之对应的回归模型,本文章将阐释这些模型的共同点,并加以推广. 首先非正式地给出指数分布族的定义: 定义 如果变量y的分布可以被表示为p(y;η)=b(y)exp(ηTT(y)-a(η))的形式(η为分布的参数),则称y服从指数分布族 萌萌哒博主…
Logistic Regression 同 Liner Regression 均属于广义线性模型,Liner Regression 假设 $y|x ; \theta$ 服从 Gaussian 分布,而 Logistic Regression 假设 $y|x ; \theta$ 服从 Bernoulli 分布. 这里来看线性回归,给定数据集 $\left \{ (x_i,y_i) \right \}_{i=1}^N$ ,$x_i$ 与 $y_i$ 的关系可以写成 $y_i = \theta^Tx_…
本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型 闲话:二项Logistic回归是我去年入门机器学习时学的第一个模型(忘记了为什么看完<统计学习方法>第一章之后直接就跳去了第六章,好像是对"逻辑斯蒂"这个名字很感兴趣?...),对照<机器学习实战>写了几行代码敲了一个toy版本,当时觉得还是挺有意思的.我觉得这个模型很适合用来入门(但是必须注意这个模型有很多很多很多很多可以展开…
使用场景:结果变量是类别型,二值变量和多分类变量,不满足正态分布  结果变量是计数型,并且他们的均值和方差都是相关的 解决方法:使用广义线性模型,它包含费正太因变量的分析 1.Logistics回归(因变量为类别型) 案例:匹配出发生婚外情的模型 1.查看数据集的统计信息 library(AER) data(Affairs,package = 'AER') summary(Affairs) table(Affairs$affairs) 结果:该数据从601位参与者收集了,婚外情次数,性别,年龄,…
在线性回归问题中,我们假设,而在分类问题中,我们假设,它们都是广义线性模型的例子,而广义线性模型就是把自变量的线性预测函数当作因变量的估计值.很多模型都是基于广义线性模型的,例如,传统的线性回归模型,最大熵模型,Logistic回归,softmax回归. 指数分布族 在了解广义线性模型之前,先了解一下指数分布族(the exponential family) 指数分布族原型如下 如果一个分布可以用上面形式在表示,那么这个分布就属于指数分布族,首先来定义一下上面形式的符号: η:分布的自然参数(n…
一.广义线性模型概念 在讨论广义线性模型之前,先回顾一下基本线性模型,也就是线性回归. 在线性回归模型中的假设中,有两点需要提出: (1)假设因变量服从高斯分布:$Y={{\theta }^{T}}x+\xi $,其中误差项$\xi \sim N(0,{{\sigma }^{2}})$,那么因变量$Y\sim N({{\theta }^{T}}x,{{\sigma }^{2}})$. (2)模型预测的输出为$E[Y]$,根据$Y={{\theta }^{T}}x+\xi $,$E[Y]=E[{{…
指数分布族 The exponential family 因为广义线性模型是围绕指数分布族的.大多数常用分布都属于指数分布族,服从指数分布族的条件是概率分布可以写成如下形式:η 被称作自然参数(natural parameter),或正则参数canonical parameter),它是指数分布族唯一的参数T(y) 被称作充分统计量(sufficient statistic),很多情况下T(y)=y loga(η) 是log partition functione-a(η)是一个规范化常数,使得…
前面的文章已经介绍了一个回归和一个分类的例子.在逻辑回归模型中我们假设: 在分类问题中我们假设: 他们都是广义线性模型中的一个例子,在理解广义线性模型之前需要先理解指数分布族. 指数分布族(The Exponential Family) 如果一个分布可以用如下公式表达,那么这个分布就属于指数分布族: 公式中y是随机变量:h(x)称为基础度量值(base measure): η称为分布的自然参数(natural parameter),也称为标准参数(canonical parameter): T(…