SAS信用评分之逻辑回归的变量选择

关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈。这次的文章我想来讲逻辑回归。你会说逻辑回归就是三个方法:backword
stepword
forward有什么好讲的。如果你这么说,你的模型就只能停留在机器给你什么结果就是什么结果,那就low了哈。

                 
 

  
为什么这么说呢?是因为我发现譬如你输入了300个变量,你设定了sle和sls的显著性水平都是0.05,那么只要是满足“sle和sls的显著性水平都是0.05”的变量就会被筛选出来,这时候就有问题,输入的300个变量中,至少有30个变量是满足上面的显著性水平的条件的,那么你这30个变量难道都要用的模型中吗?

你说可以,你领导都会跟你说不可以,会过拟合,过拟合意味着什么,评分卡在AB两级的客户极少(因为需要满足的条件多),在cde级的客户很多,加入以前100个人来申请,是30个人可以通过的,但是现在你做了模型100个人中只有10个人能通过,那这10个人肯定好的啊。这样子逾期率是降低了,但是批核率也降低了,通过的人少了,老板就问你,你这是让公司怎么赚钱!!!。

那么这时候我们应该做什么,就是精减变量,让只用十几个变量达到30个变量的效果,当然这种30个变量的效果可能很好,但是我们尽量是做到用十几个变量达到30个变量的效果啦。譬如,30个变量达到的ks值是0.326,那么你13个变量可以达到0.316,那也足够拉。

那么现在先贴一个单独的proc logistic 过程。



Ods Output ParameterEstimates=aa ;

proc logistic data=test.RONG_ZX_total12_3 outest=bb ;

model APPL_STATUS_1(event="0")=

woe_N_a_nine_rate

woe_N_t_CREDIT_f

woe_N_ACCOUNT_CREDITCARD

woe_N_q_othree_cnt

woe_N_q_tlttwelve_cnt

woe_N_cq_cc_rate

woe_N_OPERATOR_num_S

woe_N_CREDOO_SCORE_o

woe_N_CALL_PAY_mrate

woe_n_g_MARITAL_P

woe_n_NAME_CITY

woe_n_industry_o

woe_n_EDUCATION

/selection=s sle=0.05 sls=0.05;

output out=pp

   
p=pred_status lower=pi_l upper=pi_u;

run;

proc npar1way data=pp noprint;

     
class APPL_STATUS_1;

     
var pred_status;

     
output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));

run;

 这是我在建模中的一个例子。后面的proc npar1way是计算ks值的。

这里是我随便选了13个变量出来,然后跑了一下ks值,但是这里有个问题就是那我怎么知道这30个变量中到底哪13个,难道我要一直试嘛,这样子很浪费我的时间也。所以我一早上就在纠结这个问题,但是我又百度不到sas中怎么实现C2013随机数的产生。所以我在纠结中就想出以下这种方法,不过要是哪位大神指导C2013
怎么实现还是希望留言区指导,我可以继续学习。

那么接下来就贴下我的代码吧,代码就是以ks为衡量指标,希望找出一种组合的ks是比较高的。

%macro var_namelist(data=,coltype=,tarvar=,dsor=);

    %let
lib=%upcase(%scan(&data.,1,'.'));

    %let
dname=%upcase(%scan(&data.,2,'.'));

    %global
var_list var_num;

    proc sql
;

     
create table &dsor. as

       
select name

       
from sashelp.VCOLUMN

       
where left(libname)="&lib." and
left(memname)="&dname." and
type="&coltype." and
lowcase(name)^=lowcase("&tarvar.") ;

    quit;

%mend;

%macro pub_survey(data,dvar,n,start,end,by);

proc datasets lib=work;

delete result_1;

run;

%do i=&start. %to &end. %by
&by.;

%var_namelist(data=&data.,coltype=num,tarvar=&dvar.,dsor=aa);

proc surveyselect data=aa

out=bb

method =srs

n=&n.

seed =&i.;

run;

data _null_;

set bb;

call symput (compress("var"||left(_n_)),compress(name));

call symput(compress("n"),compress(_n_));

run;

 %put &var1.;

Ods Output ParameterEstimates=gg ;

proc logistic data=&data. outest=bb ;

model &Dvar. (event="0")=

&var1. &var2.
&var3. &var4.
&var5. &var6.
&var7. &var8.
&var9. &var10.
&var11.

&var12. &var13.

/selection=s sle=0.05 sls=0.05;

output out=pp

   
p=pred_status lower=pi_l upper=pi_u;

run;

proc npar1way data=pp noprint;

     
class &Dvar.;

     
var pred_status;

     
output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));

run;

data result;

set ks_1(keep=ks);

length value $500.;

value=compress("&var1."||","||"&var2."||","||"&var3."||","||"&var4."||","||"&var5."||","||"&var6."||","||"&var7."||","||"&var8."||","||"&var9."||","||"&var10."||","||"&var11."||","||"&var12."||","||"&var13.");

run;

Proc append base=result_1 data=result force;run;

%end ;

proc sort data=result_1;by ks;

run;

%mend;



老样子啦,说下这宏怎么用。宏都是我调试过,应该没错,就是你的原数据集,要只留下你要用来循环的变量以及因变量,别的你都不要哈,乖,听我话。

Data:填入的是原数据集;

Dvar:填入因变量

N:填入你想最终模型的个数,建议10-15个吧。

Start:这里填的是seed种子数,次种子出不来.avi哈。建议是4位数以上,不知道sas随机过程中seed的种子数的自行百度。

End:你要种子循环的尽头。尽量设大点,我是建议循环个1000 2000次最好啦。

By:种子循环的区间,就是你是每隔200个数取一个数还是20个数之间取一个数。譬如你设定start=1000,end=1500,by=100,那就是种子等于1000,1100,1200,1300,1400,1500这五个数。再强调一次,输入数据集值保留你要这筛选的变量以及因变量,其余的主键什么的,你别加进去哈。

好的,这时候我要上结果图了:



 这就是结果图。Ks升序排序,可以看到我循环了三次,最好的是第三次,帅选的13个变量里面,ks可以达到0.301,变量value中就是达到ks值的13个变量。但这只是我循环三次的结果啦。我是建议最好循环个1000次2000次。你就下班的时候放着跑,明天上班来收成果就好了,上班时间盯着屏幕。是跑不完的。数据分析师培训

SAS信用评分之逻辑回归的变量选择的更多相关文章

  1. SAS信用评分之模型拟合以及验证的大坑

    SAS信用评分之模型拟合以及验证的大坑 今天的内容是来讲我这段时间被模型拟合和模型验证坑过的那些事.我也是千辛万苦终于是把模型给建出来了.此处应该有掌声.因为模型老是效果不好这件事,我躲在被窝里哭了好 ...

  2. sas信用评分之第二步变量筛选

    sas信用评分之第二步变量筛选 今天介绍变量初步选择.这部分的内容我就只介绍information –value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把. ...

  3. SAS信用评分之番外篇异常值的识别

    SAS信用评分之番外篇异常值的识别 今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在"信用风险评分卡研究"看过,但是代码只能识别一个变量,我将这个代码作了改良,但 ...

  4. WOE:信用评分卡模型中的变量离散化方法(生存分析)

    WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析 在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...

  5. 信用评分卡 (part 5 of 7)

    python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...

  6. 基于Python的信用评分卡模型分析(二)

    上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...

  7. scikit-learn中机器学习模型比较(逻辑回归与KNN)

    本文源自于Kevin Markham 的模型评估:https://github.com/justmarkham/scikit-learn-videos/blob/master/05_model_eva ...

  8. 逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡(AAA推荐)

    sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...

  9. 含有分类变量(categorical variable)的逻辑回归(logistic regression)中虚拟变量(哑变量,dummy variable)的理解

    版权声明:本文为博主原创文章,博客地址:,欢迎大家相互转载交流. 使用R语言做逻辑回归的时候,当自变量中有分类变量(大于两个)的时候,对于回归模型的结果有一点困惑,搜索相关知识发现不少人也有相同的疑问 ...

随机推荐

  1. type元类创建类的方法

    一.代码 class_name='car' dict_name={} bases=(object,) class_body=''' def __init__(self,name): self.name ...

  2. js 当前时间和对比时间的比较

    <!DOCTYPE><html> <head> <meta charset="utf-8" /> <title>功能:当 ...

  3. 杂项-日志:日志(log)

    ylbtech-杂项-日志:日志(log) 1.返回顶部 1. 概述 网络设备.系统及服务程序等,在运作时都会产生一个叫log的事件记录:每一行日志都记载着日期.时间.使用者及动作等相关操作的描述. ...

  4. System.Web.Mvc.HttpDeleteAttribute.cs

    ylbtech-System.Web.Mvc.HttpDeleteAttribute.cs 1.程序集 System.Web.Mvc, Version=5.2.3.0, Culture=neutral ...

  5. System.Web.Mvc.HttpPutAttribute.cs

    ylbtech-System.Web.Mvc.HttpPutAttribute.cs 1.程序集 System.Web.Mvc, Version=5.2.3.0, Culture=neutral, P ...

  6. deployment资源

    目的:用rc在滚动升级之后,会造成服务访问中孤单,于是k8s引入了deploymentziyuan 创建deployment vim k8s_deploy.yml apiVersion: extens ...

  7. MySQL初始化(35-03)

    1, 在MySQL的安装目录下新建个data目录. 2,初始化mysqld --initialize-insecure

  8. 关于vlfeat做vlad编码问题

    这里是官方文档,可以自己查看 在这里,只是想记录一下,我这几天学习vlfeat 做vlad编码的过程,便于以后整理 网上涉及到vlfeat做vlad编码资料较少,而官网上例子又相对简单,主要是那几个参 ...

  9. AWS云管理平台

  10. Python全栈开发:pymysql

    本篇对于Python操作MySQL主要使用两种方式: 原生模块 pymsql ORM框架 SQLAchemy pymsql pymsql是Python中操作MySQL的模块,其使用方法和MySQLdb ...