广义线性模型

前面我们举了回归和分类得到例子。在回归的例子中，$y \mid x;\theta \sim N(u,\sigma ^{2})$，在分类例子中，$y\mid x;\theta \sim Bbernoulli(\phi)$

广义线性模型是基于指数函数族的，指数函数族原型为：

$p(y;\eta) = b(y)exp(\eta^{T}T(y)-a(\eta))$

$\eta$为自然参数，$T(y)$为充分统计量，一般情况下$T(y)=y$。选择固定的T，a，b定义一个分布，参数为$\eta$。

对于伯努利分布（均值为$\phi$），有：

$p(y=1,\phi)=\phi;p(y=0;\phi)=1-\phi$

$p(y;\phi) = \phi^{y}(1-\phi)^{1-y}$

$p(y;\phi) = exp(ylog\phi +(1-y)log(1-\phi))$

$p(y;\phi) = exp((log(\frac{\phi}{1-\phi}))y+log(1-\phi))$

因此有：

$T(y) = y$

$a(\eta) = -log(1-\phi)$

$a(\eta) = log(1+e^{\eta})$

$b(y)=1$

对于高斯分布，有：

$p(y;u) = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-u)^{2})$

$p(y;u) = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^{2})\cdot exp(uy=\frac{1}{2}u^{2})$

因此有：

$\eta = u$

$T(y) = y $

$a(\eta) = \frac{u^{2}}{2} = \frac{\eta^{2}}{2}$

$b(y) = (\frac{1}{\sqrt{2\pi}})exp(-\frac{1}{2}y^{2})$

构造GLM

1. $y \mid x;\theta \sim ExponentialFamily(\eta)$

2. 给定x，我们的目标是预测T(y)，大部分情况下T(y)=y，因此我们可以选择预测输出h(x),$h(x) =E\left [ y \mid x \right ]$

3. 自然参数$\eta$和输入x是线性相关的，$\eta = \theta^{T}x$

普通最小二乘法

普通最小二乘法是GLM模型的一种特例：y是连续的，给定x后的y的条件分布是高斯分布$N(u,\sigma^{2})$。因此令指数函数族的分布为高斯分布。正如前面，高斯分布U作为指数函数族时，$u=\eta$。因此有：

$h_{\theta}(x) = E\left [ y \mid x ; \theta \right ] = u = \eta =\theta^{T}x$

逻辑回归

逻辑回归中y只取0和1，因此使用伯努利分布作为指数函数族的分布，因此$\phi = \frac{1}{1+e^{-\eta}}$。进一步，由$y \mid x;\theta \sim Bernoulli(\phi)$，则$E\left [ y \mid x;\theta \right ] = \phi $，得到：

$h_{\theta}(x) = E\left [ y \mid x ; \theta \right ] $

$h_{\theta}(x) = \phi $

$h_{\theta}(x) = \frac{1}{1+e^{-\eta}}$

$h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}$

softmax回归

在逻辑回归中，y离散取值只有两个，现在考虑当y取多个值的情况，$y\in {1,2,...,k}$。

为了参数化具有k个可能的输出的多项式，我们可以使用k个参数$\phi_{1},...,\phi_{2}$来表示每个输出的概率。但是这些参数是冗余的，因为这k个参数之和为1。所以我们只需要参数化k-1个变量：$\phi_{i} = p(y=i;\phi) ~~ p(y=k;\phi) = 1-\sum_{i=1}^{k-1}\phi_{i}$，为了方便，我们令$\phi_{k}= 1-\sum_{i=1}^{k-1}\phi_{i}$，但记住它并不是一个参数，而是由其它k-1个参数值决定。

为了使多项式为指数函数族分布，定义以下$T(y) \in R^{k-1}$：

$ T(1) =\begin{bmatrix} 1\\ 0\\ 0\\ \vdots \\0 \end{bmatrix}$

$ T(2) =\begin{bmatrix} 0\\ 1\\ 0\\ \vdots \\0 \end{bmatrix}$

$ T(k-1) =\begin{bmatrix} 0\\ 0\\ 0\\ \vdots \\1 \end{bmatrix}$

$ T(k) =\begin{bmatrix} 1\\ 0\\ 0\\ \vdots \\0 \end{bmatrix}$

跟前面不同的是，这里T(y)并不等于y，T(y) 在这里是一个k-1维向量，而不是一个实数。令$(T(y))_{i}$表示$T(y)$的第i个元素。

接着定义一个函数$1{\cdot}$，当参数为true时，函数值为1，反之为零。例如 1{2=3}=0.

因此，$(T(y))_{i}=1{y=i}$，进一步我们有$E[(T(y))_{i}]=P(y=i)=\phi_{i}$。

接下来说明该多项式也属于指数函数族：

$p(y;\phi) = \phi_{1}^{1\{y=1\}} \phi_{2}^{1\{y=2\}} \cdots \phi_{k}^{1\{y=k\}}$

$p(y;\phi) = \phi_{1}^{1\{y=1\}} \phi_{2}^{1\{y=2\}} \cdots \phi_{k}^{1-\sum_{i=1}^{k-1}(T(y))_{i}}$

$p(y;\phi) = \phi_{1}^{(T(y))_{1}} \phi_{2}^{(T(y))_{2}} \cdots \phi_{k}^{1-\sum_{i=1}^{k-1}(T(y))_{i}}$

$p(y;\phi) = exp((T(y))_{1}log(\phi_{1}) + (T(y))_{2}log(\phi_{2}) + \cdots + (1-\sum_{i=1}^{k-1}(T(y))_{i})log(\phi_{k}))$

$p(y;\phi) =exp((T(y))_{1}log(\phi_{1}/\phi_{k})+ (T(y))_{2}log(\phi_{2}/\phi_{k})+\cdots+(T(y))_{k-1}log(\phi_{k-1}/\phi_{k})+log(\phi_{k}))$

$p(y;\phi) = b(y)exp( \eta^{T}T(y)-a(\eta))$

其中：

$ \eta =\begin{bmatrix} log(\phi_{1}/\phi_{k})\\ log(\phi_{2}/\phi_{k})\\ \vdots \\log(\phi_{k-1}/\phi_{k}) \end{bmatrix}$

$a(\eta)=-log(\eta_{k})$

$b(y)=1$

因此有以下函数关系式：

$\eta_{i}= \frac{\phi_{i}}{\phi_{k}}$

为了方便，我们定义：

$\eta_{k} = 0$

因此我们得到以下关系式：

$e^{\eta_{i}}= \frac{\phi_{i}}{\phi_{k}}$

$\phi_{k}e^{\eta_{i}} = \phi_{i}$

$\phi_{k}\sum_{i=1}{k}e^{\eta_{i}}=1$

因此我们得到以下响应函数：

$\phi_{i}= \frac{e^{\eta_{i}}}{\sum_{j=1}^{k}e^{\eta_{j}}}$

这种$\eta$到$\phi$的映射函数称为softmax函数。

令$\eta_{i}=\theta_{i}^{T}x ~~(i=1,2,...,k-1),\theta_{1},...,\theta_{k-1}\in R^{n+1}$

因此有以下条件分布：

$p(y=1 \mid x;\theta) = \phi_{i}$

$p(y=1 \mid x;\theta) = \frac{e^{\eta_{i}}}{\sum_{j=1}^{k}e^{\eta_{j}}}$

$p(y=1 \mid x;\theta) = \frac{e^{\theta_{i}^{T}x}}{\sum_{j=1}^{k}e^{\theta_{j}^{T}x}}$

损失函数：

最大似然估计：

第三章广义线性模型（GLM）的更多相关文章

从广义线性模型(GLM)理解逻辑回归
1 问题来源记得一开始学逻辑回归时候也不知道当时怎么想得,很自然就接受了逻辑回归的决策函数--sigmod函数: 与此同时,有些书上直接给出了该函数与将 $y$ 视为类后验概率估计 $p(y=1|x ...
广义线性模型 GLM
Logistic Regression 同 Liner Regression 均属于广义线性模型,Liner Regression 假设 $y|x ; \theta$ 服从 Gaussian 分布,而 ...
广义线性模型(GLM, Generalized Linear Model)
引言:通过高斯模型得到最小二乘法(线性回归),即: 通过伯努利模型得到逻辑回归,即: 这些模型都可以通过广义线性模型得到.广义线性模型是把自变量的线性预测函数当作因变量的估计值.在 ...
广义线性模型（GLM）
一.广义线性模型概念在讨论广义线性模型之前,先回顾一下基本线性模型,也就是线性回归. 在线性回归模型中的假设中,有两点需要提出: (1)假设因变量服从高斯分布:$Y={{\theta }^{T}}x ...
Stanford大学机器学习公开课（四）：牛顿法、指数分布族、广义线性模型
(一)牛顿法解最大似然估计牛顿方法(Newton's Method)与梯度下降(Gradient Descent)方法的功能一样,都是对解空间进行搜索的方法.其基本思想如下: 对于一个函数f(x), ...
机器学习 —— 基础整理（五）线性回归；二项Logistic回归；Softmax回归及其梯度推导；广义线性模型
本文简单整理了以下内容: (一)线性回归 (二)二分类:二项Logistic回归 (三)多分类:Softmax回归 (四)广义线性模型闲话:二项Logistic回归是我去年入门机器学习时学的第一个模 ...
CS299笔记：广义线性模型
指数分布族我们称一类分布属于指数分布族(exponential family distribution),如果它的分布函数可以写成以下的形式: \[ \begin{equation} p(y;\et ...
R语言实战（八）广义线性模型
本文对应<R语言实战>第13章:广义线性模型广义线性模型扩展了线性模型的框架,包含了非正态因变量的分析. 两种流行模型:Logistic回归(因变量为类别型)和泊松回归(因变量为计数型) ...
斯坦福CS229机器学习课程笔记 part3：广义线性模型 Greneralized Linear Models (GLMs)
指数分布族 The exponential family 因为广义线性模型是围绕指数分布族的.大多数常用分布都属于指数分布族,服从指数分布族的条件是概率分布可以写成如下形式:η 被称作自然参数(nat ...

随机推荐

nodejs知识点
rss(resident set size):所有内存占用,包括指令区和堆栈. heapTotal:”堆”占用的内存,包括用到的和没用到的. heapUsed:用到的堆的部分. external: V ...
jdbc之连接Oracle的基本步骤
// 1.加载驱动程序 Class.forName("oracle.jdbc.driver.OracleDriver"); // 2.获取数据库连接 Connection conn ...
armv7学习记录
ARM架构支持跨大范围性能点的实现.ARM处理器的架构简单性导致了非常小的实现,而小的实现意味着设备可以具有非常低的功耗.实现大小.性能和非常低的功耗是ARM体系结构的关键属性. ARM架构是一个精简 ...
pci枚举初始化部分(2)
1.2.8判断pcie设备是否支持雷电技术 Intel具有一种基于Thunderbolt技术的PCIE变体,它结合了DisplayPort和PCIe协议,与Mini DisplayPort兼容. Th ...
python3 实现一个多级菜单小功能
记录下一下 #!/usr/bin/env python3 ''' 需求:三级菜单三级菜单,依次进入子菜单 ''' City = { '北京':{ '大兴区':[ '亦庄','黄村','中信新城',' ...
homebrew 使用心得
''' 安装anaconda 安装命令: brew search anaconda brew cask install anaconda 添加环境变量: vi ~/.bash_profile expo ...
【深度优先搜索】MZOJ_1344工作依赖
这道题的读入非常毒瘤...恶心到我了我痛苦地弄了很久,还是被卡住了我还真是▇了狗了.[传送门](特此声明:学校内部OJ,需登录) 题目描述(Description): 2008年,奥运会将在中国举行 ...
Bessel函数的零点计算 MATLAB
由于MATLAB自己没有附带贝塞尔函数零点,因此使用起来很不方便,特别是在绘制仿真场量时. 下面给出0-9阶的贝塞尔函数零点的计算公式,其中理论上计算零点个数N在50以内时较为精确: function ...
python 多线程笔记（6）-- 生产者/消费者模式（续）
用 threading.Event() 也可以实现生产者/消费者模式 (自己拍脑袋想出来的,无法知道其正确性,请大神告知为谢!) import threading import time import ...
提取oracle awr报告
做性能测试时有时需要分析sql的执行情况,以找出需要优化的sql,oracle数据库就提供了很好的数据库状态和sql执行情况的监控平台,数据库的监控平台可以时时的监控数据库的状态,同时还可以取监控的时 ...

第三章 广义线性模型（GLM）