模型稳定性指标

由于模型是以特定时期的样本所开发的，此模型是否适用于开发样本之外的族群，必须经过稳定性测试才能得知。稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发样本评分的的分布差异，为最常见的模型稳定度评估指针。其实PSI表示的就是按分数分档后，针对不同样本，或者不同时间的样本，population分布是否有变化，就是看各个分数区间内人数占总人数的占比是否有显著变化。公式如下：

这里的AC与EX为不同时间段的模型输出分数，如果PSI过大，说明模型输出的分数分布变化很大了，需要更新模型。

PSI实际应用范例：

1）样本外测试

　　针对不同的样本测试一下模型稳定度，比如训练集与测试集，也能看出模型的训练情况，我理解是看出模型的方差情况。

2）时间外测试

　　测试基准日与建模基准日相隔越远，测试样本的风险特征和建模样本的差异可能就越大，因此PSI值通常较高。至此也可以看出模型建的时间太长了，是不是需要重新用新样本建模了。

变量的PSI计算：

PSI：检验变量的稳定性，当一个变量的psi值大于0.0001时，变量不稳定。

一个变量，将它的取值按照分位数来分组一下，每一组中测试模型的客户数占比减去训练模型中的客户数占比再乘以这两者相除的对数，

就是这一组的稳定性系数psi，然后变量的psi系数就是把这个变量的所有组的psi相加总起来。

======================

PSI群体稳定性指标(population stability index)

psi = sum(（实际占比-预期占比）/ln(实际占比/预期占比))

举个例子解释下，比如一个评分卡模型，按天为维度计算PSI，我们把模型刚上线第一天(设定为一个基期)的各分数段用户占比作为预期占比P1，之后每天的各分数段用户占比作为实际占比P2,这样根据公式就可以计算出每天的PSI值，通过观测这些PSI的大小和走势，从而实现对评分卡稳定性的监测。通常PSI会以日、周和月为维度进行计算，同时也会对评分卡模型中各个特征变量分别做PSI监测。

模型分数的变化可能由特征变化引起，也可能是模型本身不稳定引起，若是高分段总数量没变，而psi值变动较大，认为需要重训模型。

若是psi值没变，高分段总数量变多，认为整体用户变好。

https://blog.csdn.net/sinat_26917383/article/details/51721107

模型稳定性指标—PSI的更多相关文章

模型稳定度指标PSI与IV
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发 ...
模型监控指标- 混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、PSI值，Lift图，Gain图，KT值，迁移矩阵
1. 混淆矩阵确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 TP(实际为正预测为正 ...
iOS App稳定性指标及监测
一个App的稳定性,主要决定于整体的系统架构设计,同时也不可忽略编程的细节,正所谓"千里之堤,溃于蚁穴",一旦考虑不周,看似无关紧要的代码片段可能会带来整体软件系统的崩溃.尤其因为 ...
【机器学习】--模型评估指标之混淆矩阵，ROC曲线和AUC面积
一.前述怎么样对训练出来的模型进行评估是有一定指标的,本文就相关指标做一个总结. 二.具体 1.混淆矩阵混淆矩阵如图: 第一个参数true,false是指预测的正确性. 第二个参数true,p ...
【分类模型评判指标二】ROC曲线与AUC面积
转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80499031 略有改动,仅供个人学习使用简介 ROC曲线与AUC面积均是用来 ...
【分类模型评判指标一】混淆矩阵(Confusion Matrix)
转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80520839 略有改动,仅供个人学习使用简介混淆矩阵是ROC曲线绘制的基础 ...
召回率、AUC、ROC模型评估指标精要
混淆矩阵精准率/查准率,presicion 预测为正的样本中实际为正的概率召回率/查全率,recall 实际为正的样本中被预测为正的概率 TPR F1分数,同时考虑查准率和查全率,二者达到平衡,= ...
基于sklearn的metrics库的常用有监督模型评估指标学习
一.分类评估指标准确率(最直白的指标)缺点:受采样影响极大,比如100个样本中有99个为正例,所以即使模型很无脑地预测全部样本为正例,依然有99%的正确率适用范围:二分类(准确率):二分类.多分类( ...
【Model Log】模型评估指标可视化，自动画Loss、Accuracy曲线图工具，无需人工参与!
1. Model Log 介绍 Model Log 是一款基于 Python3 的轻量级机器学习(Machine Learning).深度学习(Deep Learning)模型训练评估指标可视化工具, ...

随机推荐

springboot2.1.3+spring-session2.1.4分库处理
使用spring session框架来统一管理session,该框架支持jdbc.redis存储,使用非常简单,可以去官网查看文档一步步接入即可,官网文档如下:https://docs.spring. ...
Mongodb的主从复制
主从服务器的实现原理首先,主节点会把本服务的与写有关的操作记录下来,读操来不记录,这些操作就记录在local数据库中的oplog.$admin这个集合中,这是一个固定集合,大小是可以配置的,主要是通 ...
国际化(i18n) 各国语言缩写
internationalization (国际化)简称:i18n,因为在i和n之间还有18个字符,localization(本地化 ),简称L10n. 一般用语言_地区的形式表示一种语言,如:zh_ ...
使用Arduino开发板制作交流电压表
在本文中,我们将使用Arduino开发板制作一个交流电压测量装置,测量我们家中交流电源的电压.我们将在Arduino IDE的串行监视器上打印输出该电压,并在万用表上显示出来. 制作数字电压表比模拟电 ...
云计算---记一次黑客攻击openstack创建的虚拟机
一:问题定位现象: 近期发现有几台openstack云主机被修改密码并被肉鸡. 黑客操作日志: -- :: ##### root tty1 : #### -- :: top -- :: ##### ...
解决Antimalware Service Executable CPU占用高的问题
windows8/8.1,WIN10自带的安全软件Windows defender还不错,基本可以不用装其他杀毒软件了. 但是其进程Antimalware Service Executable 出现C ...
自定义异步IO框架
异步就是回调异步 = 非阻塞+循环 select只能完成IO多路复用,不能完成异步 IO多路复用--->监听多个socket对象,这个过程是同步的利用其特性可以开发异步模块异步IO:非阻塞 ...
关于跨域介绍和djiago解决跨域问题
什么是跨域? 跨域,指的是浏览器不能执行其他网站的脚本.它是由浏览器的同源策略造成的,是浏览器对javascript施加的安全限制. 什么是同源策略? 同源策略又分为以下两种 DOM同源策略:禁止对不 ...
go内置的反向代理
package main import ( "log" "net/http" "net/http/httputil" "net/u ...
Node.js安装，多版本管理以及修改npm下载的镜像源
注意:在操作之前建议先把整个文章看完,在决定要不要配置!!!!! 1.下载地址:http://nodejs.cn/download/ 根据系统对应版本下载文件 2.安装下 ...

模型稳定性指标—PSI

模型稳定性指标—PSI的更多相关文章

随机推荐

热门专题