LR模型常见问题
信息速览
- 基础知识介绍-广义线性回归
- 逻辑斯蒂回归模型推导
- 逻辑斯蒂回归常见问题
- 补充知识信息点
基础知识:
机器学习对结果的形式分类:
- 分类算法
- 回归算法
LR:logistic regression 逻辑斯谛回归 (对数几率回归 logit regression)
LR是一个分类模型 是一个基于线性回归(linear regression)的模型
1.预备知识
线形回归
\[f(x_{i})=\omega \cdot x_{i}+b\]
采用均方误差最小的策略来进行优化
\[(w^{*},b^{*})=argmin_{(w,b)}\sum_{i=1}^{m}(f(x_{i}-y_{i}))^{2}\]
最小二乘法(least square method):
基于均方误差最小化来进行模型求解的方法
在真实的数据应用中,会将b参数融入参数\(\omega\)中\(\omega=(\omega;b)\)
最小二乘法也可以使用向量的形式来表示
\[\omega=argmin_{\omega}(y-X \omega)^{T}(y-X\omega)\]
对\(\omega\)求导,解得最优解。在\(det(X^{T}X)\neq 0\)时候
\[\omega=(X^{T} X)^{-1} X^{T} y\]
2.逻辑斯蒂回归
定义推导
基于线性回归的广义模型
\[y=g^{-1}(\omega ^{T} x+b)\]
找到一个单调可微函数将分类任务的真实标记y和线性模型的预测值联系起来。
应用与分类,分类函数- heaviside函数 ,但是其不是一个连续函数
利用 对数几率函数(sigmod函数)来进行代替
\[y=\frac{1}{1+e^{-z}}\]
结合线性回归广义模型
\[y=\frac{1}{1+e^{-(w^{T}x+b)}}\]
\[ln\frac{y}{1-y}=\omega ^{T} x+b\]
- y-正例的可能性
- 1-y 反例的可能性
\(\frac{y}{1-y}\) 称为几率 odds $ln \frac{y}{1-y} $对数几率 log odds=logit
性质
\[ ln\frac{p(y=1 | x)}{p(y=0 | x)}= \omega ^{T} x+b \]
\[p(y=1 |x)=\frac{e^{(w^{T}x+b)}}{1+e^{(w^{T}x+b)}}\]
\[p(y=0 |x)=\frac{1}{1+e^{(w^{T}x+b)}}\]
通过极大似然法来估计\(\omega,b\)的值
似然函数:
\[\prod_{i=1}^{m} p(y=1 |x)^{y_{i}} p(y=0|x)^{1-y_{i}}= \prod_{i=1}^{m} p(y=1 |x)^{y_{i}} (1-p(y=1|x))^{1-y_{i}}\]对数似然函数
\[L(\omega,b)=\sum_{i=1}^{m}[y_{i} ln(p(y=1|x))+ (1-y_{i})ln(1-p(y=1 |x))]\]
\[L(\omega,b)=\sum_{i=1}^{m} ln(p_{i} | x_{i};\omega,b)\]
每个样本属于其真实标记的概率越大越好
\[L(\omega,b)=\sum_{i=1}^{m}[y_{i} ln(p(y=1|x))+ (1-y_{i})ln(1-p(y=1 |x))]\]
\[=\sum_{i=1}^{m}[y_{i=1} ln\frac{p(y=1|x)}{1-p(y=1 |x)} +ln(1-p(y=1 |x) ]\]
\[=\sum_{i=1}^{m}[y_{i=1}(w^{T}+b) - ln (1+e^{(w^{T}x+b)})]\]
利用梯度下降法、拟牛顿法来得到最优解
\(\hat{\omega}=argMAX_{\omega} L(\theta)\)
在计算中通常会将 w,b进行合并这样只有一个矩阵要求。
求极值,找到 w,b的最大值 \(\hat{\omega}\)
最终的逻辑斯蒂模型:
\[P(y=1 |x)=\frac{e^{(\hat{w}^{T}x)}}{1+e^{(\hat{w}^{T}x)}}\]
\[P(y=0 |x)=\frac{1}{1+e^{(\hat{w}^{T}x)}}\]
3.常见逻辑斯蒂回归问题
- LR模型的损失函数的推导
为什么要使用似然函数来实现
实现为正的概率最大,同时为负的概率也最大,每个样本都实现最大概率。
LR模型的预测结果为什么很差
LR模型是线性模型,不能得到非线性模型,大部分实际问题不能用线性就能拟合。
L1,L2正则化,降低模型复杂度
模型越复杂,越容易过拟合,这大家都知道,加上L1正则化给了模型的拉普拉斯先验,加上L2正则化给了模型的高斯先验。从参数的角度来看,L1得到稀疏解,去掉一部分特征降低模型复杂度。L2得到较小的参数,如果参数很大,样本稍微变动一点,值就有很大偏差,这当然不是我们想看到的,相当于降低每个特征的权重。
4.补充知识点
基于线性模型的其他“广义模型”
LWLR 局部加权回归 locally weighted linear regression
对于预测值附近的赋予一定的权重W
参数k是用户赋值参数,决定权重赋值的比例
\[\omega=(X^{T}W X)^{-1} X^{T}W y\]
\[W(i,j)=exp(\frac{|| x_{i}-x_{j} ||}{-2 k^{2}})\]岭回归 ridge regression
当数据中特征比数据样本点还多的时候,就不能使用简单的线性回归函数
在计算\((X^{T}X)^{-1}\)会出现错误,\(n>m ,X\)不是满秩矩阵。
通过缩减系数来实现算法
加入一个矩阵,使\((X^{T} X+\lambda I_{mxm})\)可逆,非奇异
\[\omega=(X^{T} X+\lambda I_{m \times m})^{-1} X^{T} y\]lasso,前向逐步回归,PCA回归
极大似然估计
总体 X 属离散型 \(p{X=x}=p(x;\theta)\) 其中\(\theta\)为待估参数,\(X_{1},X_{2},...,X_{N}\)为X的样本
样本的联合分布概率:\[\prod_{i=1}^{n}p(x_{i} | \theta)\]
\(x_{1},x_{2},...,x_{n}\)是相应于样本\(X_{1},X_{2},...,X_{N}\)的一个样本值
事件\({ X_{1}=x_{1},X_{2}=x{2},...,X_{n}=x_{n} }\)发生的概率:
样本的似然函数\(L(\theta)\),是\(\theta\)的函数,会因取值而改变
\[L(\theta)=L(x_{1},x_{2},...,x_{n};\theta)=\prod_{i=1}^{n} p(x_{i};\theta)\]
挑选能够让似然函数达到最大的参数值\(\hat{\theta}\)
\[L(\theta)=L(x_{1},x_{2},...,x_{n};\hat{\theta})=MAX _{\theta} L(x_{1},x_{2},...,x_{n};\theta)\]
在计算时候一般使用对数似然方程方法。
LR模型常见问题的更多相关文章
- cs229 斯坦福机器学习笔记(一)-- 入门与LR模型
版权声明:本文为博主原创文章,转载请注明出处. https://blog.csdn.net/Dinosoft/article/details/34960693 前言 说到机器学习,非常多人推荐的学习资 ...
- 基于Spark的GBDT + LR模型实现
目录 基于Spark的GBDT + LR模型实现 数据预处理部分 GBDT模型部分(省略调参部分) GBDT与LR混合部分 基于Spark的GBDT + LR模型实现 测试数据来源http://arc ...
- skearn自学路径
sklearn学习总结(超全面) 关于sklearn,监督学习几种模型的对比 sklearn之样本生成make_classification,make_circles和make_moons pytho ...
- 逻辑回归模型(Logistic Regression, LR)基础
逻辑回归模型(Logistic Regression, LR)基础 逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函 ...
- 逻辑回归模型(Logistic Regression, LR)--分类
逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上,套用了一个逻辑函数,但也就由于这个逻辑函数,使得逻辑回归模型成为了机器学习领域一颗耀眼的明星,更是计算广告学的核 ...
- GBDT与LR融合提升广告点击率预估模型
1GBDT和LR融合 LR模型是线性的,处理能力有限,所以要想处理大规模问题,需要大量人力进行特征工程,组合相似的特征,例如user和Ad维度的特征进行组合. GDBT天然适合做特 ...
- 线性模型之逻辑回归(LR)(原理、公式推导、模型对比、常见面试点)
参考资料(要是对于本文的理解不够透彻,必须将以下博客认知阅读,方可全面了解LR): (1).https://zhuanlan.zhihu.com/p/74874291 (2).逻辑回归与交叉熵 (3) ...
- 机器学习(四)—逻辑回归LR
逻辑回归常见问题:https://www.cnblogs.com/ModifyRong/p/7739955.html 推导在笔记上,现在摘取部分要点如下: (0) LR回归是在线性回归模型的基础上,使 ...
- 线性回归、逻辑回归(LR)
线性回归 回归是一种极易理解的模型,就相当于y=f(x),表明自变量 x 和因变量 y 的关系.最常见问题有如 医生治病时的望.闻.问.切之后判定病人是否生了什么病,其中的望闻问切就是获得自变量x,即 ...
随机推荐
- kubernetes CRD 开发指南
扩展kubernetes两个最常用最需要掌握的东西:自定义资源CRD 和 adminsion webhook, 本文教你如何十分钟掌握CRD开发. kubernetes允许用户自定义自己的资源对象,就 ...
- Struts完成用户新增操作
点击新增客户出现该页面并完成前后台交互 代码逻辑分析: jsp 页面部分代码 <TABLE id=table_1 style="DISPLAY: none" cellSpac ...
- DesignPattern系列__06迪米特原则
迪米特原则定义 迪米特原则,也叫最少知道原则,即一个类应该对自己依赖的类知道的越少越好,而你被依赖的类多么复杂,对我都没有关系.也就是说,对于别依赖的类来说,不管业务逻辑多么复杂,都应该尽量封装在类的 ...
- .net core web api部署到docker
一.创建.net core web api 的Demo 修改部分代码 端口随意指定,ip用星号“*”,方便接下来docker虚拟网络自动分配ip 下一步是Dockerfile文件,如果发现你的项目中没 ...
- Spring系列(二):Spring IoC应用
一.Spring IoC的核心概念 IoC(Inversion of Control 控制反转),详细的概念见Spring系列(一):Spring核心概念 二.Spring IoC的应用 1.定义B ...
- Unity的赛车游戏实现思路
unity目前版本实现赛车的技术方案主要有3种: 1.wheelCollider,设置motorTorque.brakeTorque.steerAngle来实现车子的推动和转弯,优点是上手简单,而且很 ...
- Tomcat源码分析 (三)----- 生命周期机制 Lifecycle
Tomcat里面有各种各样的组件,每个组件各司其职,组件之间又相互协作共同完成web服务器这样的工程.在这些组件之上,Lifecycle(生命周期机制)至关重要!在学习各个组件之前,我们需要看看Lif ...
- wordpress搬家 更换域名
结论:wordpress网站文件夹是和域名相关联的 wordpress,备份了数据库 然后用另一个新域名新建站,直接从wordpress官网直接下载的网站压缩包,没有用之前的网站文件夹. 然后把原来的 ...
- Powered by .NET Core 进展0819:高速开车车况汇报
继续以流水账的方式向大家汇报,自从上周六上午将 .net core 版博客站点从 windows 部署切换到 linux 上的 docker-compose 部署后,到目前一直在线. Linux 上没 ...
- 关于js-xlsx的使用
写在前头,本人是名Java开发人员,偶尔在前端打打酱油,写出的代码或许存在问题,请路过的大神一一指正,不吝感激. 最近公司准备做一些关于Excel 数据导入和导出相关需求,之前有在开源社区看到说比起纯 ...