样本稳定指数PSI
信用评定等级划分之后需要对评级的划分做出评价,分析这样的评级划分结果是否具有实用价值,即分析样本分布的稳定程度。样本分布稳定,则信用评定等级划分结果的实用价值就高。采用样本稳定指数( PSI )检验样本分布的稳定程度,若训练样本和测试样本在分布上表现一致,样本稳定指数的取值就会接近于零,信用评级划分结果的可靠性就会很高;若训练样本和测试样本在分布上差异很大,样本稳定指数的取值就会变大,信用评级划分结果的可靠性就会很低。样本稳定指数大于 0.10 ,即认为训练样本和测试样本分布上发生了轻微的改变;样本稳定指数大于 0.25 ,认为训练样本和测试样本分布上发生了比较明显的改变,应该警惕。

K 代表信用等级数,pi1 代表训练样本在第 i 个信用等级上的违约概率,pi2代表测试样本在第 i 个信用等级上的违约概率。
import numpy as np y1_train_prob = np.array([0.1,0.7,0.7,0.3,0.5,0.8])
y1_pred_prob = np.array([0.1,0.4,0.1]) def psi(y1_train_prob,y1_pred_prob,k=8,eps=1e-10):
"""
param y1_train_prob:训练数据预测1的概率
param y1_pred_prob: 预测数据预测1的概率
param k: 等级个数
param eps:数值稳定系数 return :psi
""" y1_train_prob = np.sort(y1_train_prob)
y1_pred_prob = np.sort(y1_pred_prob) len_train = len(y1_train_prob)
len_pred = len(y1_pred_prob) num_K_train = [] #训练样本每个信用等级的计数占比
num_K_test = [] #预测样本每个信用等级的计数占比
i = 0
while i<=1:
temp1 = len(y1_train_prob[y1_train_prob<(i+1/k)])-len(y1_train_prob[y1_train_prob<i])
num_K_train.append(temp1/len_train)
temp2 = len(y1_pred_prob[y1_pred_prob<(i+1/k)])-len(y1_pred_prob[y1_pred_prob<i])
num_K_test.append(temp2/len_pred)
i= i+1/k Sum = 0.0 #存储psi值
for i in range(k):
left = num_K_train[i]-num_K_test[i]
right = (num_K_train[i]+eps)/(num_K_test[i]+eps)
Sum = Sum + left*np.log(right)
return round(Sum,3) psi(y1_train_prob,y1_pred_prob,k=10)
样本稳定指数PSI的更多相关文章
- 【机器学习PAI实践十二】机器学习算法基于信用卡消费记录做信用评分
背景 如果你是做互联网金融的,那么一定听说过评分卡.评分卡是信用风险评估领域常用的建模方法,评分卡并不简单对应于某一种机器学习算法,而是一种通用的建模框架,将原始数据通过分箱后进行特征工程变换,继而应 ...
- PSi-Population Stability Index (PSI)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
- 模型稳定度指标PSI与IV
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发 ...
- 模型稳定性指标—PSI
由于模型是以特定时期的样本所开发的,此模型是否适用于开发样本之外的族群,必须经过稳定性测试才能得知.稳定度指标(population stability index ,PSI)可衡量测试样本及模型开发 ...
- 模型监控指标- 混淆矩阵、ROC曲线,AUC值,KS曲线以及KS值、PSI值,Lift图,Gain图,KT值,迁移矩阵
1. 混淆矩阵 确定截断点后,评价学习器性能 假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 TP(实际为正预测为正 ...
- 信贷风控模型开发----模型流程&好坏样本定义
第二章 模型开发流程&好坏样本定义 2.1模型开发流程 2.1.1 评分模型流程图 2.1.2流程图阐述 该小结提出了一些数据指标,如果不明白没有关系,往后的文章笔者会一个个地解释这些指标的含 ...
- 【转】风控中的特征评价指标(二)——PSI
转自:https://zhuanlan.zhihu.com/p/79682292 风控业务背景 在风控中,稳定性压倒一切.原因在于,一套风控模型正式上线运行后往往需要很久(通常一年以上)才会被替换下线 ...
- SQL->Python->PySpark计算KS,AUC及PSI
KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法. 生成本文的测试数据: import pandas as pd import numpy as np i ...
- 一个windows下的ddos样本
一个windows下的ddos样本. 加载器 程序运行之后会在临时目录释放出一个256_res.tmp的文件 之后将该文件移动至system32目录下,以rasmedia.dll命名. 删除原文件. ...
随机推荐
- Mysql命令insert into:向表中插入数据(记录)
insert into命令用于向表中插入数据. insert into命令格式:insert into <表名> [(<字段名1>[,..<字段名n > ])] v ...
- C#并行开发_Thread/ThreadPool, Task/TaskFactory, Parallel
大家好,本次讨论的是C#中的并行开发,给力吧,随着并行的概念深入,哥也赶上这个潮流了,其实之前讨论C#的异步调用或者C#中BeginInvoke或者Invoke都已经涉及了部分本篇的内容. 参考书目: ...
- CODE大全大量Flash网站收藏
我的博客:CODE大全:www.codedq.net:业余草:www.xttblog.com:爱分享:www.ndislwf.com或ifxvn.com. http://www.wallop.com在 ...
- LSTM神经网络
LSTM是什么 LSTM即Long Short Memory Network,长短时记忆网络.它其实是属于RNN的一种变种,可以说它是为了克服RNN无法很好处理远距离依赖而提出的. 我们说RNN不能处 ...
- Spring JdbcTemplate中的回调
回调 JdbcTemplate类支持的回调类: 1.预编译语句及存储过程创建回调:用于根据JdbcTemplate提供的连接创建相应的语句: 1.1 PreparedStatementCreator ...
- 安装python第三方库
前言 接触python编程很晚,基础语法比较好理解,但是用起来还是需要用心的,特别是可能会用到许多第三方库,本文就介绍一下python第三方库的安装. 环境 系统环境:win7_64; Python版 ...
- windows7所有版本迅雷地址下载集合(含32位和64位) - imsoft.cnblogs
Windows7 SP1旗舰版 32位官方原版下载: ed2k://|file|/cn_windows_7_ultimate_with_sp1_x86_dvd_618763.iso|265187737 ...
- Knight Tournament 合并区间
Hooray! Berl II, the king of Berland is making a knight tournament. The king has already sent the me ...
- 【python】面试常考数据结构算法
这里整理的都是基础的不能再基础的算法,目的就是进行一个回忆,同时作为剑指offer的一个补充~嘿嘿~ 查找算法二分查找# 实现一个二分查找# 输入:一个顺序list# 输出: 待查找的元素的位置def ...
- IEPNGFix 解决IE6支持PNG透明问题
IE6本身是支持索引色透明度(PNG8)格式,但不支持真彩色透明度(PNG24)格式. 使用IE PNG Fix 2.0可以完美解决IE6支持PNG透明问题,而且支持背景定位和重复属性. IE PNG ...