当特征数量或者模型数量很多的时候，使用PySpark去计算相关指标会节省很多的时间。网上关于使用PySpark计算相关指标的资料较少，这里抛砖引玉，写了三个风控常用的指标AUC，KS和PSI相关的计算方法，供参考。

AUC

AUC的相关概念网上已经有很多的很好的文章，这里不在赘述，AUC使用的到的计算公式如下：

\[AUC=\frac{\sum_{i\in positiveClass}rank_i-{\displaystyle\frac{M(1+M)}2}}{M\times N}
\]

其中M为负类样本的数目，N为正类样本的数目

使用PySpark计算代码如下：

from pyspark.sql import functions as F

from pyspark.sql.window import Window

true_y_col = 'y'

pred_y_col = 'pred_y'

date_col = 'day'

auc_df = df.filter(F.col(true_y_col)>=0).filter(F.col(pred_y_col)>=0)\

           .select(true_y_col, pred_y_col, date_col, 'model_name')\

           .withColumn('totalbad', F.sum(F.col(true_y_col)).over(Window.patitonBy(date_col, 'model_name').orderBy(F.lit(1))))\

           .withColumn('totalgood', F.sum(1-F.col(true_y_col)).over(Window.patitonBy(date_col, 'model_name').orderBy(F.lit(1))))\

           .withColumn('rnk2', F.row_number().over(Window.partitionBy(date_col, 'model_name').orderBy(F.col(pred_y_col).asc())))\

           .filter(F.col(true_y_col)==1)\

           .groupBy(date_col, 'model_name')\

           .agg(((F.sum(F.col('rnk2'))-0.5*(F.max(F.col('totalbad')))*(1+F.max(F.col('totalbad'))))/(F.max(F.col('totalbad'))*F.max(F.col('totalgood')))).alias('AUC'))\

           .orderBy('model_name', date_col)

KS

KS统计量是基于经验累积分布函数（Empirical Cumulative Distribution Function，ECDF)

建立的，一般定义为：

\[KS=\max\left\{\left|cum\left(bad\_rate\right)-cum\left(good\_rate\right)\right|\right\}
\]

即为TPR与FPR差值绝对值的最大值。

\[KS=max\left(\left|TPR-FPR\right|\right)
\]

KS计算方法有很多种，这里使用的是分箱法分别计算TPR与FPR，然后得到KS。

使用PySpark计算代码如下：

from pyspark.sql import functions as F

from pyspark.sql.window import Window

true_y_col = 'y'

pred_y_col = 'pred_y'

date_col = 'day'

nBins = 10

ks_df = df.filter(F.col(true_y_col)>=0).filter(F.col(pred_y_col)>=0)\

          .select(true_y_col, pred_y_col, date_col, 'model_name')\

          .withColumn('Bin', F.ntile(nBins).over(Window.partitionBy(date_col, 'model_name').orderBy(pred_y_col)))\

          .groupBy(date_col, 'model_name', 'Bin').agg(F.sum(true_y_col).alias('N_1'), F.sum(1-F.col(true_y_col)).alias('N-0'))\

          .withColumn('ALL_1', F.sum('N_1').over(Window.partitionBy(date_col, 'model_name')))\

          .withColumn('ALL_0', F.sum('N_0').over(Window.partitionBy(date_col, 'model_name')))\

          .withColumn('SUM_1', F.sum('N_1').over(Window.partitionBy(date_col, 'model_name').orderBy('Bin')))\

          .withColumn('ALL_0', F.sum('N_0').over(Window.partitionBy(date_col, 'model_name').orderBy('Bin')))\

          .withColumn('KSn', F.expr('round(abs(SUM_1/ALL_1-SUM_0/ALL_0),6)'))\

          .withColumn('KS', F.round(F.max('KSn').over(Window.partitionBy(date_col, 'model_name')),6))

ks_df = ks_df.select(date_col, 'model_name', 'KS').filter(col('KS').isNotNull()).dropDuplicates()

PSI

群体稳定性指标（Population Stability Index，PSI）是风控场景常用的验证样本在各分数段的分布与建模样本分布的稳定性。在建模中，常用来筛选特征变量、评估模型稳定性。

计算公式如下：

\[psi=\sum_{i=1}^n\left(A_i-E_i\right)\ast\ln\left(A_i/E_i\right)
\]

其中\(A_i\)代表的是第i个分箱中实际分布（actual）样本占比，同理\(E_i\)代表的是第i个分箱中预期分布（excepted）样本占比

使用PySpark计算代码如下：

from pyspark.sql import functions as F

from pyspark.sql.window import Window

from pyspark.sql.functions import when

date_col = 'day'

nBins = 10

feature_list = ['fea_1', 'fea_2', 'fea_3']

df = df.withColumn('flag', when(F.col(date_col) == 'actual_date'), 0).when(F.col(date_col) == 'excepted_date').otherwise(None)

quantitles = df.filter(F.col('flag') == 0)\

               .approxQuantile(feature_list, [i/nBins for i in range(1, nBins)], 0.001) # 基准样本分箱

quantitles_dict = {col: quantitles[idx] for idx, col in enumerate(feature_list)}

f_quantitles_dict = F.create_map([F.lit(x) if isinstance(x, str) else F.array(*[F.lit(xx) for xx in x]) for i in quantitles_dict.items() for x in i])

unpivotExpr = "stack(3, 'fea_1', fea_1, 'fea_2', fea_2, 'fea_3', fea_3)"

psi_df = df.filter(F.col('flag').isNotNull()).select('flag', F.expr(unpivotExpr))\

           .withColumn('Bin', when(F.col('value').isNull(), 'Missing').otherwise(

            when(F.col('value') < f_quantitles_dict[F.col('varname')][0], 'bin_0')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][1], 'bin_1')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][2], 'bin_2')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][3], 'bin_3')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][4], 'bin_4')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][5], 'bin_5')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][6], 'bin_6')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][7], 'bin_7')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][8], 'bin_8')

            .when(F.col('value') < f_quantitles_dict[F.col('varname')][8], 'bin_9')))\

           .groupBy('varname', 'Bin').agg(F.sum('flag').alias('N_1'), F.sum(1-F.col('flag')).alias('N_0'))\

           .withColumn('ALL_1', F.sum('N_1').over(Window.partitionBy('varname')))\

           .withColumn('ALL_0', F.sum('N_0').over(Window.partitionBy('varname')))\

           .withColumn('actual', F.expr('round(N_0/ALL_0, 6)'))\

           .withColumn('excepted', F.expr('round(N_1/ALL_1, 6)'))\

           .withColumn('PSIn', F.expr('round((actual-excepted)*ln(actual/excepted), 6'))\

           .withColumn('PSI', F.round(F.sum('PSIn').over(Window.partitionBy('varname')), 6))

Reference

使用PySpark计算AUC,KS与PSI的更多相关文章

MATLAB画ROC曲线，及计算AUC值
根据决策值和真实标签画ROC曲线,同时计算AUC的值步骤: 根据决策值和真实标签画ROC曲线,同时计算AUC的值: 计算算法的决策函数值deci 根据决策函数值deci对真实标签y进行降序排序,得到 ...
python计算auc指标
1.安装scikit-learn 1.1Scikit-learn 依赖 Python (>= 2.7 or >= 3.3), NumPy (>= 1.8.2), SciPy (> ...
pyspark计算最大值、最小值、平均值
需求:使用pyspark计算相同key的最大值.最小值.平均值说明: 最大值和最小值好计算,直接reduceByKey后使用python内置的max.min方法平均值计算提供两种计算方法,直接先上 ...
Python计算AUC
AUC(Area under curve)是机器学习常用的二分类评测手段,直接含义是ROC曲线下的面积.另一种解释是:随机抽出一对样本(一个正样本,一个负样本),然后用训练得到的分类器来对这两个样本进 ...
matlab 矢量化编程（一）—— 计算 AUC
AUC = sum( (Y(2:end)+Y(1:end-1))/2 .* (X(2:end) - X(1:end-1)) X 和 Y 均是向量: Y(2:end) - Y(1:end-1),是 Y( ...
SQL->Python->PySpark计算KS，AUC及PSI
KS,AUC 和 PSI 是风控算法中最常计算的几个指标,本文记录了多种工具计算这些指标的方法. 生成本文的测试数据: import pandas as pd import numpy as np i ...
模型监控指标- 混淆矩阵、ROC曲线，AUC值，KS曲线以及KS值、PSI值，Lift图，Gain图，KT值，迁移矩阵
1. 混淆矩阵确定截断点后,评价学习器性能假设训练之初以及预测后,一个样本是正例还是反例是已经确定的,这个时候,样本应该有两个类别值,一个是真实的0/1,一个是预测的0/1 TP(实际为正预测为正 ...
tensorflow添加自定义的auc计算operator
tensorflow可以很方便的添加用户自定义的operator(如果不添加也可以采用sklearn的auc计算函数或者自己写一个但是会在python执行,这里希望在graph中也就是c++端执行这 ...
AUC计算 - 进阶操作
首先AUC值是一个概率值,当你随机挑选一个正样本以及负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值,AUC值越大,当前分类算法越有可能将正样本排在负样本前 ...
AUC计算 - 手把手步进操作
2017-07-10 14:38:24 理论参考: 评估分类器性能的度量,像混淆矩阵.ROC.AUC等 http://www.cnblogs.com/suanec/p/5941630.html ROC ...

随机推荐

2020-12-30：生产环境 CPU 占用过高，你如何解决？
福哥答案2020-12-30: 1.top + H 指令找出占用 CPU 最高的进程的 pid. 2.top -H -p.在该进程中找到,哪些线程占用的 CPU 最高的线程,记录下 tid. 3.js ...
Swagger UI接入配置
Swagger UI接入配置这里的接入我们依赖于DRF官方推荐的一个第三方包: drf-yasg,下面的接入步骤其实都是按照这个第三方库的文档进行配置,这里只是个最最入门的使用,对于更加高阶或者定制 ...
AcWing 1023. 买书
小明手里有n元钱全部用来买书,书的价格为10元,20元,50元,100元. 问小明有多少种买书方案?(每种书可购买多本) 输入格式一个整数 n,代表总共钱数. 输出格式一个整数,代表选择方案种数. ...
springboot 项目国际化+登录拦截器
项目页面国际化 1.语言配置文件需要下载插件Resource Bundle Editor 新建国际目录i18n 在properties配置文件中自定义 2.前端index页面要设置语言参数传递给后端 ...
springboot 分析源码欢迎页和图标-> thymeleaf模板引擎常用语法->扩展
欢迎页: icon: 注意点: thymeleaf模板引擎 1.使用thymeleaf模板引擎前要导入对应依赖包 2.阅读源码: 根据源码说明我们可以将html文件放置在templates目录下,然 ...
一篇文章带你入门HBase
本文已收录至Github,推荐阅读 Java随想录微信公众号:Java随想录目录 HBase特性 Hadoop的限制基本概念 NameSpace Table RowKey Column Time ...
【Python入门教程】Python常用表格函数&操作（xlrd、xlwt、openpyxl、xlwings）
在我们使用Python时,避免不了与Excel打交道.同样Python的三方库和代码的简洁性也为我们处理大数据提供了便利.今天给大家介绍一下常用的处理表格的函数,同时还有一些常用的 ...
Linux 线程传递参数
1 #include <stdio.h> 2 #include <stdlib.h> 3 #include <pthread.h> 4 #include <u ...
「学习笔记」Garsia-Wachs 算法
前言本文的资料和图片均来自 \(\texttt{OI-Wiki}\). 引入题目描述在一个操场上摆放着一排 \(N\) 堆石子.现要将石子有次序地合并成一堆.规定每次只能选相邻的 \(2\) 堆 ...
Enhancingdecisiontreeswithtransferlearningforsentimenta
目录 1. 引言 2. 技术原理及概念 2.1 基本概念解释 2.2 技术原理介绍 2.3 相关技术比较 3. 实现步骤与流程 3.1 准备工作:环境配置与依赖安装 3.2 核心模块实现 3.3 集成 ...

使用PySpark计算AUC,KS与PSI

AUC

KS

PSI

Reference

使用PySpark计算AUC,KS与PSI的更多相关文章

随机推荐

热门专题