WOE(证据权重)为何这样计算？

更多大数据分析、建模等内容请关注公众号《bigdatamodeling》

先简单回顾一下WOE的含义。假设x是类别变量或分箱处理过的连续变量，含R个类别或分段，取值为{C1, ..., Cr, ..., CR}；y是目标变量，取值为0(Good)或1(Bad)。x和y的频数表如下：

1、概念回顾

WOE的定义如下：

变量x第r类的WOE为：

WOE是变量x第r类中Bad与Good的比率与整个样本中Bad与Good的比率的比值的对数，其衡量第r类对Bad和Good的比率的影响程度。WOE等于0，表示该类别中Bad与Good的比率与整体样本中Bad与Good的比率相等，说明该类别完全没有区分度；WOE大于0，表示该类别中Bad与Good的比率大于整体样本中Bad与Good的比率；WOE小于0，表示该类别中Bad与Good的比率小于整体样本中Bad与Good的比率。

2、理论推导

那么，WOE为何这样计算？从上面的WOE定义可以发现，WOE编码是有监督方法，所以计算变量x的WOE可以看做用x拟合y的优化过程。将x的WOE写成，其中是二元虚拟变量，如果变量x取第r类，则，否则。

(1)定义如下模型：

(2)定义对数损失函数：

(3)整体样本上的损失为：

(4) 损失最小化，即令偏导=0:

因此，WOE是使损失最小化的编码方式，计算WOE就是一次单变量建模过程，得到的WOE值使损失最小，即信息损失最小。实际上，常数b的不同取值会产生不同的WOE编码值，但不影响WOE编码的效果。而令，会使WOE的含义更容易解释和理解。

另外，通过前述的推导可以看出，使用经过WOE编码后的单变量拟合逻辑回归模型将得到变量系数为1，截距项为b。

WOE(证据权重)为何这样计算？的更多相关文章

WOE(weight of evidence, 证据权重)
1. WOE(weight of evidence, 证据权重) WOE是一种衡量正常样本( Good)和违约样本( Bad)分布的差异方法 WOE=ln(Distr Good/Distr Bad)例 ...
数据分箱：等频分箱，等距分箱，卡方分箱，计算WOE、IV
转载:https://zhuanlan.zhihu.com/p/38440477 转载:https://blog.csdn.net/starzhou/article/details/78930490 ...
评分卡模型剖析之一（woe、IV、ROC、信息熵）
信用评分卡模型在国外是一种成熟的预测方法,尤其在信用风险评估以及金融风险控制领域更是得到了比较广泛的使用,其原理是将模型变量WOE编码方式离散化之后运用logistic回归模型进行的一种二分类变量的广 ...
转载：数据挖掘模型中的IV和WOE详解
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...
WOE和IV
woe全称是"Weight of Evidence",即证据权重,是对原始自变量的一种编码形式. 进行WOE编码前,需要先把这个变量进行分组处理(离散化) 其中,pyi是这个组中响 ...
评分卡模型中的IV和WOE详解
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选 ...
特征重要度 WoE、IV、BadRate
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...
特征工程中的IV和WOE详解
1.IV的用途 IV的全称是Information Value,中文意思是信息价值,或者信息量. 我们在用逻辑回归.决策树等模型方法构建分类模型时,经常需要对自变量进行筛选.比如我们有200个候选自变 ...
WOE:信用评分卡模型中的变量离散化方法（生存分析）
WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...

随机推荐

ReactJS的4行代码
Angular 2一个显著的变动是,把Angular 1的Promise pattern改成了Observer pattern,并且使用了ReactJS.这里有一篇值得一读的文章要搞懂ReactJS ...
Swoole跟thinkphp5结合开发WebSocket在线聊天通讯系统
ThinkPHP使用Swoole需要安装 think-swoole Composer包,前提系统已经安装好了Swoole PECL 拓展* tp5的项目根目录下执行composer命令安装think- ...
【论文阅读】Deep Clustering for Unsupervised Learning of Visual Features
文章:Deep Clustering for Unsupervised Learning of Visual Features 作者:Mathilde Caron, Piotr Bojanowski, ...
2019-11-20:xss学习笔记
xxe漏洞防御使用开发语言提供的禁用外部实体的方法phplibxml_disable_entity_loader(true); 卢兰奇对象模型,bom由于现代浏览器实现了js交互性方面的相同方法和属性 ...
图解 Spring：HTTP 请求的处理流程与机制【2】
2. HTTP 请求在 Web 容器中的处理流程 Web 容器以进程的方式在计算机上运行,我们知道进程是系统资源分配的最小单元,线程是系统任务执行的最小单元.从这个角度看,Web 容器就像是邮包收件人 ...
Dubbo实现登陆
一.目录展示二.dubbo_logins_service 2.1 实体类和service层 2.2 logins实体类 package com.login.entity; import java.i ...
Socket 实现简单的多线程服务器程序
**********服务器端************* public class ServerSocket{ public static void main(String[] args) throws ...
c#-PropertyChangingEventArgs
MSDN 解释连接:https://msdn.microsoft.com/zh-cn/library/system.eventargs.aspx#inheritanceContinued[Serial ...
Xamarin.Forms学习系列之Android集成极光推送
一般App都会有消息推送的功能,如果是原生安卓或者IOS集成消息推送很容易,各大推送平台都有相关的Sample,但是关于Xamarin.Forms的消息推送集成的资料非常少,下面就说下Xamarin. ...
CCNA 之十二 Frame Relay 帧中继
Fram Relay 帧中继帧中继简介 VC.LMI.DLCI的概念帧中继映射 Inverse-ARP的操作帧中继配置帧中继简介分组交换广域网接入方式的一个代表,分组交换是以分组的形式在广域 ...

WOE(证据权重)为何这样计算？

WOE(证据权重)为何这样计算？的更多相关文章

随机推荐

热门专题