CS299笔记：广义线性模型

指数分布族

我们称一类分布属于指数分布族（exponential family distribution），如果它的分布函数可以写成以下的形式：
\[
\begin{equation}
p(y;\eta) = b(y) \exp(\eta^{T}T(y) - a(\eta)) \tag{*}
\end{equation}
\]
其中，$\eta$被称为自然参数（natural parameter），$T(y)$被称为充分统计量（sufficient statistic），$a(\eta)$被称为对数分割函数（log partition function），一组特定的$T$，$b$，$a$可以确定一类分布，它们以$\eta$为参数。

下面介绍两个例子：伯努利分布与正态分布。

伯努利分布

伯努利分布的概率分布函数是：
\[
\begin{align*}
p(y;\phi) &= \phi ^{y} (1 - \phi)^{1-y}\\
&= \exp(y \log \phi + (1-y) \log (1 - \phi))\\
&= \exp(y \log \frac{\phi}{1-\phi} + \log (1-\phi ))\\
\end{align*}
\]
我们发现，伯努利分布的概率分布函数符合式$(*)$的形式，其中$\eta = \log \frac{\phi}{1 - \phi} \Rightarrow \phi = \frac{1}{1+e ^{-\eta}}$，进一步可以得到：
\[
\begin{align*}
b(y) &= 1\\
T(y) &= y\\
a(\eta) &= \log (1 + e^{\eta})\\
\end{align*}
\]

高斯分布

接下来考虑高斯分布，这里令$\sigma ^{2} = 1$，则：
\[
\begin{align*}
p(y;\mu) &= \frac{1}{\sqrt{2\pi}}\exp(-\frac{(y-\mu)^2}{2}) \\
&= \frac{1}{\sqrt{2\pi}}\exp(-\frac{y^{2}}{2})\exp(\mu y - \frac{\mu ^{2}}{2})
\end{align*}
\]
可以看出，高斯分布同样属于指数分布族：
\[
\begin{align*}
b(y) &= \frac{1}{\sqrt{2\pi}} \exp(-\frac{y^{2}}{2}) \\
\eta &= \mu \\
T(y) &= y \\
a(\eta) &= \frac{\mu ^2}{2} = \frac{\eta ^2}{2}
\end{align*}
\]
除了这两个分布，还有很多分布属于指数分布族，如多项式分布、泊松分布、指数分布、伽玛分布、$\beta$分布等。

构造广义线性模型（GLM）

考虑一个分类问题或回归问题，我们希望把随机变量$y$当作$x$的函数，并以此对其进行预测。我们首先需要做出以下假设：

$y|x;\theta \sim ExponentialFamily(\eta)$，也就是说，以$\theta$为参数，给定$x$，$y$的条件分布属于指数分布族
给定$x$，我们输出的结果$h_{\theta}(x)$是$T(y)$的均值，一般情况下，$T(y) = y$，所以$h_{\theta}(x) = E[y|x]$
$\eta$和$x$满足线性关系，即$\eta = \theta ^T x$（如果$\eta$是向量，则$\eta_{i} = \theta_{i}^{T}x$）

对于第3个假设，我们可以说它是一种假设，也可以说它是一种设计选择，正是由于我们选择了这样的关系，所以我们称这一类模型为广义线性模型。

接下来给出三个例子。

线性回归

假设$y|x; \theta \sim \mathcal{N}(\mu, \sigma)$，利用上文的三个假设，我们可以推导出：
\[
\begin{align*}
h_{\theta}(x) &= E[y|x;\theta] \tag{1}\\
&= \mu \tag{2} \\
&= \eta \tag{3}\\
&= \theta ^{T} x \tag{4}\\
\end{align*}
\]
其中$(1)$由假设2得到，$(2)$由正态分布的性质得到，$(3)$由正态分布对应的广义线性模型参数得到，$(4)$由假设3得到。

逻辑回归

假设$y|x; \theta \sim Bernoulli(\phi)$，则：
\[
\begin{align*}
h_{\theta}(x) &= E[y|x;\theta] \tag{1} \\
&= \phi \tag{2} \\
&= \frac{1}{1 + e^{-\eta}} \tag{3} \\
&= \frac{1}{1 + e^{-\theta^{T}x}} \tag{4}\\
\end{align*}
\]
同样地，$(1)$由假设2得到，$(2)$由伯努利分布的性质得到，$(3)$由伯努利分布对应的广义线性模型参数得到，$(4)$由假设3得到。

softmax回归

我们介绍一种新的算法：softmax回归（softmax regression）。softmax回归解决的是多分类问题，假设在一个给定的问题中，标签可以分为$k$类，即$y \in \left\{1, 2, \dots, k\right\}$，此时用多项式分布（multinomial distribution）建模看上去是一个比较自然的想法。对于有$k$种可能输出的多项式分布，参数有$k - 1$个：$\phi_{1}, \phi_{2}, \dots, \phi_{k-1}$，其中$\phi_{i} = p(y=i;\phi)$，同时引入记号$\phi_{k} = p(y=k;\phi)= 1 - \sum_{i=1}^{k-1}\phi_{i}$，注意，这里的$\phi_k$并非参数，只是为了推导公式方便引入的符号。

引入示性函数$1\left\{\cdot\right\}$，函数的参数是一个表达式，若表达式为真，则函数值为1，若表达式为假，则函数值为0，即$1\left\{\text{True}\right\} = 1, 1\left\{\text{False}\right\} = 0$，则：
\[
\begin{align*}
p(y;\phi) &= \phi_{1}^{1\left\{y=1\right\}}\phi_{2}^{1\left\{y=2\right\}}\cdots\phi_{k}^{1\left\{y=k\right\}}\\
&= \phi_{1}^{1\left\{y=1\right\}}\phi_{2}^{1\left\{y=2\right\}}\cdots\phi_{k}^{1-\sum_{i=1}^{k-1}1\left\{y=i\right\}}\\
\end{align*}
\]
定义函数$T(y) \in \mathbb{R}^{k-1}$：
\[
T(1) = \begin{bmatrix}
1\\0\\0\\ \vdots\\ 0\\
\end{bmatrix},
T(2) = \begin{bmatrix}
0\\1\\0\\ \vdots\\ 0\\
\end{bmatrix},
T(3) = \begin{bmatrix}
0\\0\\1\\ \vdots\\ 0\\
\end{bmatrix},
\cdots,
T(k-1) = \begin{bmatrix}
0\\0\\0\\ \vdots\\ 1\\
\end{bmatrix},
T(k) = \begin{bmatrix}
0\\0\\0\\ \vdots\\ 0\\
\end{bmatrix}
\]
则：
\[
\begin{align*}
p(y;\phi) &= \phi_{1}^{1\left\{y=1\right\}}\phi_{2}^{1\left\{y=2\right\}}\cdots\phi_{k}^{1-\sum_{i=1}^{k-1}1\left\{y=i\right\}}\\
&= \phi_{1}^{T(y)_{1}}\phi_{2}^{T(y)_{2}}\cdots\phi_{k}^{1-\sum_{i=1}^{k-1}T(y)_{i}}\\
&= \exp(T(y)_{1}\log \phi_{1} + T(y)_{2}\log \phi_{2} + \dots + T(y)_{k-1}\log \phi_{k-1} + (1-\sum_{i=1}^{k-1}T(y)_{i})\log \phi_{k})\\
&= \exp(T(y)_{1}\log \frac{\phi_{1}}{\phi_{k}} + T(y)_{2}\log \frac{\phi_{2}}{\phi_{k}} + \dots + T(y)_{k-1}\log \frac{\phi_{k-1}}{\phi_{k}} + \log \phi_{k})\\
\end{align*}
\]
上式满足指数分布族的概率分布函数形式，其中：
\[
\begin{align*}
\eta &= \begin{bmatrix}
\log \frac{\phi_1}{\phi_k}\\
\log \frac{\phi_2}{\phi_k}\\
\vdots\\
\log \frac{\phi_{k-1}}{\phi_k}\\
\end{bmatrix}\\
a(\eta) &= -\log \phi_{k}\\
b(y) &= 1 \\
\end{align*}
\]
所以，我们的假设函数为：
\[
\begin{align*}
h_{\theta}(x) &= E[T(y)|x;\theta]\\
&= p(y=1|x;\theta)T(1) + p(y=2|x;\theta)T(2) + \dots + p(y=k|x;\theta)T(k)\\
&= \phi_{1}T(1) + \phi_{2}T(2) + \dots + \phi_{k}T(k)\\
&= \begin{bmatrix}
\phi_{1}\\
\phi_{2}\\
\vdots\\
\phi_{k-1}
\end{bmatrix}
\end{align*}
\]
另外，由$\eta$的值可知：
\[
\begin{align*}
\eta_{i} &= \log \frac{\phi_i}{\phi_k}\\
\phi_{k} e^{\eta_i} &= \phi_i\\
\phi_{k} \sum_{i=1}^{k-1} e^{\eta_i} &= \sum_{i=1}^{k-1} \phi_i = 1 - \phi_k\\
\end{align*}
\]
所以，$\phi_k = \frac{1}{1 + \sum_{i=1}^{k-1} e^{\eta_i}}$，不妨再引入记号$\eta_k = 0$，则$\phi_{k} = \frac{1}{\sum_{i=1}^{k} e^{\eta_i}}$，从而我们得到：
\[
\phi_i = \frac{e^{\eta_i}}{\sum_{j=1}^{k} e^{\eta_j}} \quad i = 1,2,\dots, k-1
\]
我们把这个从$\eta$映射到$\phi$的函数称为softmax函数，引入记号$\theta_{k} = 0$，利用假设3，我们可以将上式写成：
\[
\phi_{i} = \frac{e^{\theta_{i}^T x}}{\sum_{j=1}^{k} e^{\theta_{j}^Tx}}\quad i=1,2,\dots,k-1
\]
至此，我们就得到了$k$分类问题的假设函数：
\[
h_{\theta}(x) = \begin{bmatrix}
\frac{e^{\theta_{1}^T x}}{\sum_{j=1}^{k} e^{\theta_{j}^Tx}}\\
\frac{e^{\theta_{2}^T x}}{\sum_{j=1}^{k} e^{\theta_{j}^Tx}}\\
\vdots\\
\frac{e^{\theta_{k-1}^T x}}{\sum_{j=1}^{k} e^{\theta_{j}^Tx}}\\
\end{bmatrix}
\]
假设函数输出的是$y=1, 2, \dots, k-1$的概率，同时，我们也不难得到$y=k$的概率；此外，我们发现，当$k=2$时，上式就是逻辑回归的假设函数。

我们用$\theta$来表示完整的模型参数，$\theta \in \mathbb{R}^{(k-1) \times (n+1)}$：
\[
\theta = \begin{bmatrix}
\theta_{1}^{T}\\
\theta_{2}^{T}\\
\vdots\\
\theta_{k-1}^{T}\\
\end{bmatrix}
\]
可以得到其对数似然：
\[
\begin{align*}
l(\theta) &= \log \prod_{i=1}^{m}\prod_{j=1}^{k}(\frac{e^{\theta_j^{T}x^{(i)}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}})^{1\left\{y^{(i)}=j\right\}} \\
&= \sum_{i=1}^{m}\sum_{j=1}^{k}{1\left\{y^{(i)}=j\right\}}\log \frac{e^{\theta_j^{T}x^{(i)}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}
\end{align*}
\]

现在，我们尝试求$l(\theta)$对$\theta_s (s \in \left\{1, 2, \dots, k-1\right\})$的梯度：
\[
\begin{align*}
\nabla_{\theta_{s}}l(\theta)
&= \sum_{i=1}^{m}\left[\sum_{j=1,j\neq s}^{k}1\left\{y^{(i)}=j\right\}\frac{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}{e^{\theta_j^{T}x^{(i)}}}\cdot \frac{-e^{\theta_s^{T}x^{(i)}}\cdot e^{\theta_{j}^{T}x^{(i)}}}{(\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}})^2}\cdot x^{(i)} + 1\left\{y^{(i)}=s\right\}\frac{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}{e^{\theta_s^{T}x^{(i)}}}\cdot \frac{e^{\theta_s^Tx^{(i)}}\cdot(\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}) - e^{\theta_s^Tx^{(i)}}\cdot e^{\theta_s^Tx^{(i)}}}{(\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}})^2}\cdot x^{(i)}\right]\\
&= \sum_{i=1}^{m}\left[\sum_{j=1,j\neq s}^{k}1\left\{y^{(i)}=j\right\}\frac{-e^{\theta_s^{T}x^{(i)}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}\cdot x^{(i)} + 1\left\{y^{(i)}=s\right\}\frac{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}} - e^{\theta_s^Tx^{(i)}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}\cdot x^{(i)}\right]\\
&= \sum_{i=1}^{m}\left[\left(1\left\{y^{(i)}=s\right\}-\sum_{j=1}^{k}1\left\{y^{(i)}=j\right\}\frac{e^{\theta_s^Tx^{(i)}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}\right)x^{(i)}\right]\\
&= \sum_{i=1}^{m}\left[\left(1\left\{y^{(i)}=s\right\}-\frac{e^{\theta_s^Tx^{(i)}}}{\sum_{l=1}^{k}e^{\theta_{l}^{T}x^{(i)}}}\right)x^{(i)}\right]\\
&= \sum_{i=1}^{m}\left[\left(1\left\{y^{(i)}=s\right\}-h_{\theta}(x^{(i)})_{s}\right)x^{(i)}\right]\\
\end{align*}
\]
在每一次迭代中，我们进行如下更新：
\[
\theta_s := \theta_s + \alpha \nabla_{\theta_s} l(\theta)\quad s = 1,2,\dots,k-1
\]
当$k=2$时，上述的更新方式恰好就是逻辑回归中的更新方式。