sas信用评分之第二步变量筛选

今天介绍变量初步选择。这部分的内容我就只介绍information
–value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把。

Iv值的介绍你们已经很熟悉了,我这次就简单粗暴的说下变量iv值到那个数就可以用的啦。

(1):在很多书上说要达到0.1-0.3才是中等相关,达到0.3是强相关,但是这里必须提及,变量的iv值本来就是变量多个分段的iv值的相加。所以我们做这部分工作的时候就发现,一个变量我要是变态一点,分成1000分,他可以达到1.5,iv值是很高啊,这个变量你一旦用下聚类或者是决策树分下类,就发现iv值其实是很低的,所以这个iv值的计算我们需要大概的给个分多少段。

(2):在第一点中提到分几份,但是分几份是针对连续变量,对于字符变量的。我建议可以先使用最优分段分下组再进行计算iv值。但是如果字符变量的分类在4-10类的话还是可以直接计算iv值的。

(3):对于在日常的建模中,其实并不是iv值大于0.1才会被筛选出来,我就在建模中碰见一个问题,就是iv值大于0.1都是同类变量,相关性极高,这些变量虽然iv值很高,但是丢进逻辑回归中是不会被全部选中的,因为我们都知道共线性强的变量对于我们模型其实是不好的。讲了这么多就是为了说,变量初步选择的时候我一般是大于iv值0.02我会筛选出来,不为什么,宁可错杀一千,不可放过一个,我对变量就是这么残暴。在这里我考虑到一点,就是可能一个变量单独对因变量的预测力不是很强,但是跟其他变量结合的时候,可能会产生不一样的结果哈。

例如哈,我举一个很不恰当的例子哈,不恰当的例子哈,不要喷我。譬如婚姻状况和年纪,可能这两个变量单独对因变量没什么明显的体现,但是结合在一起呢,譬如25岁下离婚的人是不是会比25岁以上离婚不一样呢。你们顺着这个思路想下去就可以啦,我再说下去25岁以下离婚怎么怎么样,我就要被喷了。毕竟我还是怕键盘侠。

这篇文章的代码我之前是发过的。路径在这里:sas输出变量的基尼系数以及iv值。在这篇文章中我介绍下结果:

代码的使用在上面路径中有介绍,点下去就可以看了。介绍下结果,score2是分组后的变量就是譬如说年龄中52岁分组后是第3组,那么他观测的值就是3。score3输出基尼系数,这部分的内容之后用到基尼系数再说哈。我们着重说下score4以及score5.

Score4的表格是长这样子的:

你看到的var_name这一列的变量是每个变量名价格前缀“p_”如果是字符变量就不加前缀“p_”,_freq_这一变量是分组数,我这边设定的是分成5组,你问我为什么上面写着6,因为我这批数据中有缺失,缺失不参与分组,就是第6组啦。最后一列就是iv值啦,我刚才说的同类变量iv值都很高啦,就是这个图,q_开头的都是同类的变量,iv值基本相近,假设说这些都进去模型的,模型也不会全都要了。

score5的表格是长这样子的:

这图可能在这里比较小,但是你单独点开还是可以看的。

score5是score4的具体每段的iv值的分布,其中m就是观测缺失的组别。后面的start
end这两个变量是这个组别的区间。这里的woe值其实我不建议使用,因为我这边的分区是全部都是等分的5份,但是某些变量有更好的分法,后面对于筛选出来的变量也会进行进一次的最优分段再计算woe值,这里的woe只是为计算iv,顺便显示在数据集中。

其实到了这里,iv值的代码以及iv值运用,我也都讲完了。但是在业务上,还会做这样子一个步骤,就是对于iv值极高的变量会单独拿出来再分析。下面分享一个其中的一个的分析例子,这部分的工作可能不是全部公司都会做,因为很耗费时间。

这是建模中我的一个次数变量至于代表是什么变量因为公司的保密性质,所以我就不说了。分区是计算iv值时分段出来的。假设这个是拨打贷款公司的电话的次数,当他打的次数是3次以下的时候,批核率以及逾期率是比较高的,但是当达到13次以上的时候,批核率不仅降了9%左右,而且逾期率也高了4%,那么这个变量就可以跟领导讨论一下,将这条规则做到前端,让审批审核人员多了一个可以参考的条件,当然这个变量的体现可能相对于其他变量来说是很明显的。但是真正做成规则或者说人工审批的决策还可能不能。具体的情况还是要看自己公司的数据,我这里也只是分享我工作中的一个小小的经验。

sas信用评分之第二步变量筛选的更多相关文章

  1. SAS信用评分之逻辑回归的变量选择

    SAS信用评分之逻辑回归的变量选择 关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈.这次的文章我想来讲逻辑回 ...

  2. SAS信用评分之模型拟合以及验证的大坑

    SAS信用评分之模型拟合以及验证的大坑 今天的内容是来讲我这段时间被模型拟合和模型验证坑过的那些事.我也是千辛万苦终于是把模型给建出来了.此处应该有掌声.因为模型老是效果不好这件事,我躲在被窝里哭了好 ...

  3. SAS信用评分之番外篇异常值的识别

    SAS信用评分之番外篇异常值的识别 今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在"信用风险评分卡研究"看过,但是代码只能识别一个变量,我将这个代码作了改良,但 ...

  4. 信用评分卡 (part 3of 7)

    python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...

  5. 基于Python的信用评分卡模型分析(一)

    信用风险计量体系包括主体评级模型和债项评级两部分.主体评级和债项评级均有一系列评级模型组成,其中主体评级模型可用“四张卡”来表示,分别是A卡.B卡.C卡和F卡:债项评级模型通常按照主体的融资用途,分为 ...

  6. 信用评分卡Credit Scorecards (1-7)

      欢迎关注博主主页,学习python视频资源,还有大量免费python经典文章 python风控评分卡建模和风控常识 https://study.163.com/course/introductio ...

  7. WOE:信用评分卡模型中的变量离散化方法(生存分析)

    WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析 在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...

  8. 评分模型的检验方法和标准&信用评分及实现

    评分模型的检验方法和标准通常有:K-S指标.交换曲线.AR值.Gini数等.例如,K-S指标是用来衡量验证结果是否优于期望值,具体标准为:如果K-S大于40%,模型具有较好的预测功能,发展的模型具有成 ...

  9. 信用评分卡(A卡/B卡/C卡)的模型简介及开发流程|干货

    https://blog.csdn.net/varyall/article/details/81173326 如今在银行.消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户 ...

随机推荐

  1. Odoo Documentation : Fields

    Fields Basic fields class openerp.fields.Field(string=None, **kwargs) The field descriptor contains ...

  2. 系统性能信息模块psutil

    目录 前言 获取系统性能信息 CPU 内存 磁盘 网络信息 其他系统信息 系统进程管理方法 进程信息 popen类 查看系统硬件的小脚本 前言 psutil 是一个跨平台库,能够轻松实现获取系统运行的 ...

  3. VS未能加载文件或程序集“xxx.dll” 设置Build Events

    完整错误信息:"System.IO.FileNotFoundException"类型的未经处理的异常在 未知模块 中发生 未能加载文件或程序集"Ctp.Core.dll& ...

  4. 一维、二维数组 与 常用的返回数组 以及 fetch_all与fetch_row的区别

    一维数组:单行单列的数组. 二维数组:多行多列的数组.       (至少两行两列) 索引数组: fetch_all() 返回所有数组 fetch_row() 返回一行或一列数组  (第二行需要输入两 ...

  5. 关于解码芯片SAA7115及7105的配置 ,FVID与微驱动

    最近因为在做视频处理,所以和解码芯片打交道很多,根据DM642的例程总了一些应该配置的东西. 注:以下的配置均是指AV信号输入,PAL制式输出的条件 (一)关于SAA7115(基于TI的驱动) 结构体 ...

  6. JDBC中DAO+service设计思想

    一.DAO设计思想 a) Data access Object(数据访问对象):前人总结出的一种固定模式的设计思想. 高可读性. 高复用性. 高扩展性. b) JDBC代码实现的增删改查操作是有复用需 ...

  7. java 遍历

    LinkedList倒序遍历 public List<Integer> getNewsFeed(int userId) { List<Integer> res = new Ar ...

  8. 在线模拟http-post请求

    今天,要测试一个post请求的API,找了下,下面的网站可以直接利用起来,mark下 http://www.atool.org/httptest.php

  9. CentOS 6.8 Linux系统U盘制作启动项

    1.下载CentOS 6.8镜像文件: 2.下载地址:http://man.linuxde.net/download/CentOS_6_8 3.准备一个U盘,最好8G的: 4.下载UltraISO盘制 ...

  10. Phone List HDU1671 字典树Trie

    模板题...不过会爆内存,要小心 #include <iostream> #include <cstdio> #include <string.h> #pragma ...