LR模型常见问题

信息速览

基础知识介绍-广义线性回归
逻辑斯蒂回归模型推导
逻辑斯蒂回归常见问题
补充知识信息点

基础知识:

机器学习对结果的形式分类:

分类算法
回归算法
LR:logistic regression 逻辑斯谛回归（对数几率回归 logit regression）
LR是一个分类模型是一个基于线性回归(linear regression)的模型

1.预备知识

线形回归

\[f(x_{i})=\omega \cdot x_{i}+b\]
采用均方误差最小的策略来进行优化
\[(w^{*},b^{*})=argmin_{(w,b)}\sum_{i=1}^{m}(f(x_{i}-y_{i}))^{2}\]

最小二乘法(least square method):
基于均方误差最小化来进行模型求解的方法

在真实的数据应用中，会将b参数融入参数$\omega$中$\omega=(\omega;b)$
最小二乘法也可以使用向量的形式来表示
\[\omega=argmin_{\omega}(y-X \omega)^{T}(y-X\omega)\]
对$\omega$求导，解得最优解。在$det(X^{T}X)\neq 0$时候
\[\omega=(X^{T} X)^{-1} X^{T} y\]

补充知识点-广义模型

2.逻辑斯蒂回归

定义推导

基于线性回归的广义模型
\[y=g^{-1}(\omega ^{T} x+b)\]
找到一个单调可微函数将分类任务的真实标记y和线性模型的预测值联系起来。

应用与分类，分类函数- heaviside函数，但是其不是一个连续函数
利用对数几率函数(sigmod函数)来进行代替
\[y=\frac{1}{1+e^{-z}}\]

结合线性回归广义模型
\[y=\frac{1}{1+e^{-(w^{T}x+b)}}\]

\[ln\frac{y}{1-y}=\omega ^{T} x+b\]

y-正例的可能性
1-y 反例的可能性

$\frac{y}{1-y}$ 称为几率 odds $ln \frac{y}{1-y} $对数几率 log odds=logit

性质

\[ ln\frac{p(y=1 | x)}{p(y=0 | x)}= \omega ^{T} x+b \]
\[p(y=1 |x)=\frac{e^{(w^{T}x+b)}}{1+e^{(w^{T}x+b)}}\]
\[p(y=0 |x)=\frac{1}{1+e^{(w^{T}x+b)}}\]

通过极大似然法来估计$\omega,b$的值

似然函数：
\[\prod_{i=1}^{m} p(y=1 |x)^{y_{i}} p(y=0|x)^{1-y_{i}}= \prod_{i=1}^{m} p(y=1 |x)^{y_{i}} (1-p(y=1|x))^{1-y_{i}}\]
对数似然函数
\[L(\omega,b)=\sum_{i=1}^{m}[y_{i} ln(p(y=1|x))+ (1-y_{i})ln(1-p(y=1 |x))]\]
\[L(\omega,b)=\sum_{i=1}^{m} ln(p_{i} | x_{i};\omega,b)\]

每个样本属于其真实标记的概率越大越好
\[L(\omega,b)=\sum_{i=1}^{m}[y_{i} ln(p(y=1|x))+ (1-y_{i})ln(1-p(y=1 |x))]\]
\[=\sum_{i=1}^{m}[y_{i=1} ln\frac{p(y=1|x)}{1-p(y=1 |x)} +ln(1-p(y=1 |x) ]\]
\[=\sum_{i=1}^{m}[y_{i=1}(w^{T}+b) - ln (1+e^{(w^{T}x+b)})]\]

利用梯度下降法、拟牛顿法来得到最优解
$\hat{\omega}=argMAX_{\omega} L(\theta)$
在计算中通常会将 w,b进行合并这样只有一个矩阵要求。
求极值，找到 w，b的最大值 $\hat{\omega}$

最终的逻辑斯蒂模型:
\[P(y=1 |x)=\frac{e^{(\hat{w}^{T}x)}}{1+e^{(\hat{w}^{T}x)}}\]
\[P(y=0 |x)=\frac{1}{1+e^{(\hat{w}^{T}x)}}\]

3.常见逻辑斯蒂回归问题

LR模型的损失函数的推导
为什么要使用似然函数来实现

实现为正的概率最大，同时为负的概率也最大，每个样本都实现最大概率。
LR模型的预测结果为什么很差

LR模型是线性模型，不能得到非线性模型，大部分实际问题不能用线性就能拟合。
L1，L2正则化，降低模型复杂度

模型越复杂，越容易过拟合，这大家都知道，加上L1正则化给了模型的拉普拉斯先验，加上L2正则化给了模型的高斯先验。从参数的角度来看，L1得到稀疏解，去掉一部分特征降低模型复杂度。L2得到较小的参数，如果参数很大，样本稍微变动一点，值就有很大偏差，这当然不是我们想看到的，相当于降低每个特征的权重。

4.补充知识点

基于线性模型的其他“广义模型”

LWLR 局部加权回归 locally weighted linear regression
对于预测值附近的赋予一定的权重W
参数k是用户赋值参数，决定权重赋值的比例
\[\omega=(X^{T}W X)^{-1} X^{T}W y\]
\[W(i,j)=exp(\frac{|| x_{i}-x_{j} ||}{-2 k^{2}})\]
岭回归 ridge regression
当数据中特征比数据样本点还多的时候，就不能使用简单的线性回归函数
在计算$(X^{T}X)^{-1}$会出现错误，$n>m ,X$不是满秩矩阵。
通过缩减系数来实现算法
加入一个矩阵，使$(X^{T} X+\lambda I_{mxm})$可逆，非奇异
\[\omega=(X^{T} X+\lambda I_{m \times m})^{-1} X^{T} y\]
lasso，前向逐步回归，PCA回归

极大似然估计

总体 X 属离散型 $p{X=x}=p(x;\theta)$ 其中$\theta$为待估参数,$X_{1},X_{2},...,X_{N}$为X的样本
样本的联合分布概率:\[\prod_{i=1}^{n}p(x_{i} | \theta)\]
$x_{1},x_{2},...,x_{n}$是相应于样本$X_{1},X_{2},...,X_{N}$的一个样本值
事件${ X_{1}=x_{1},X_{2}=x{2},...,X_{n}=x_{n} }$发生的概率:
样本的似然函数$L(\theta)$，是$\theta$的函数，会因取值而改变
\[L(\theta)=L(x_{1},x_{2},...,x_{n};\theta)=\prod_{i=1}^{n} p(x_{i};\theta)\]

挑选能够让似然函数达到最大的参数值$\hat{\theta}$
\[L(\theta)=L(x_{1},x_{2},...,x_{n};\hat{\theta})=MAX _{\theta} L(x_{1},x_{2},...,x_{n};\theta)\]

在计算时候一般使用对数似然方程方法。