SAS信用评分之逻辑回归的变量选择

SAS信用评分之逻辑回归的变量选择

关于woe的转化，这一部在之前的这篇文章：sas批量输出变量woe值中已经写了，woe也只是简单的公式转化而已，所以在这系列中就不细究了哈。这次的文章我想来讲逻辑回归。你会说逻辑回归就是三个方法：backword
stepword
forward有什么好讲的。如果你这么说，你的模型就只能停留在机器给你什么结果就是什么结果，那就low了哈。

为什么这么说呢？是因为我发现譬如你输入了300个变量，你设定了sle和sls的显著性水平都是0.05，那么只要是满足“sle和sls的显著性水平都是0.05”的变量就会被筛选出来，这时候就有问题，输入的300个变量中，至少有30个变量是满足上面的显著性水平的条件的，那么你这30个变量难道都要用的模型中吗？

你说可以，你领导都会跟你说不可以，会过拟合，过拟合意味着什么，评分卡在AB两级的客户极少（因为需要满足的条件多），在cde级的客户很多，加入以前100个人来申请，是30个人可以通过的，但是现在你做了模型100个人中只有10个人能通过，那这10个人肯定好的啊。这样子逾期率是降低了，但是批核率也降低了，通过的人少了，老板就问你，你这是让公司怎么赚钱！！！。

那么这时候我们应该做什么，就是精减变量，让只用十几个变量达到30个变量的效果，当然这种30个变量的效果可能很好，但是我们尽量是做到用十几个变量达到30个变量的效果啦。譬如，30个变量达到的ks值是0.326，那么你13个变量可以达到0.316，那也足够拉。

那么现在先贴一个单独的proc logistic 过程。

Ods Output ParameterEstimates=aa ;

proc logistic data=test.RONG_ZX_total12_3 outest=bb ;

model APPL_STATUS_1(event="0")=

woe_N_a_nine_rate

woe_N_t_CREDIT_f

woe_N_ACCOUNT_CREDITCARD

woe_N_q_othree_cnt

woe_N_q_tlttwelve_cnt

woe_N_cq_cc_rate

woe_N_OPERATOR_num_S

woe_N_CREDOO_SCORE_o

woe_N_CALL_PAY_mrate

woe_n_g_MARITAL_P

woe_n_NAME_CITY

woe_n_industry_o

woe_n_EDUCATION

/selection=s sle=0.05 sls=0.05;

output out=pp


p=pred_status lower=pi_l upper=pi_u;

run;

proc npar1way data=pp noprint;


class APPL_STATUS_1;


var pred_status;


output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));

run;

这是我在建模中的一个例子。后面的proc npar1way是计算ks值的。

这里是我随便选了13个变量出来，然后跑了一下ks值，但是这里有个问题就是那我怎么知道这30个变量中到底哪13个，难道我要一直试嘛，这样子很浪费我的时间也。所以我一早上就在纠结这个问题，但是我又百度不到sas中怎么实现C2013随机数的产生。所以我在纠结中就想出以下这种方法，不过要是哪位大神指导C2013
怎么实现还是希望留言区指导，我可以继续学习。

那么接下来就贴下我的代码吧，代码就是以ks为衡量指标，希望找出一种组合的ks是比较高的。

%macro var_namelist(data=,coltype=,tarvar=,dsor=);

    %let
lib=%upcase(%scan(&data.,1,'.'));

    %let
dname=%upcase(%scan(&data.,2,'.'));

    %global
var_list var_num;

    proc sql
;


create table &dsor. as


select name


from sashelp.VCOLUMN


where left(libname)="&lib." and
left(memname)="&dname." and
type="&coltype." and
lowcase(name)^=lowcase("&tarvar.") ;

    quit;

%mend;

%macro pub_survey(data,dvar,n,start,end,by);

proc datasets lib=work;

delete result_1;

run;

%do i=&start. %to &end. %by
&by.;

%var_namelist(data=&data.,coltype=num,tarvar=&dvar.,dsor=aa);

proc surveyselect data=aa

out=bb

method =srs

n=&n.

seed =&i.;

run;

data _null_;

set bb;

call symput (compress("var"||left(_n_)),compress(name));

call symput(compress("n"),compress(_n_));

run;

%put &var1.;

Ods Output ParameterEstimates=gg ;

proc logistic data=&data. outest=bb ;

model &Dvar. (event="0")=

&var1. &var2.
&var3. &var4.
&var5. &var6.
&var7. &var8.
&var9. &var10.
&var11.

&var12. &var13.

/selection=s sle=0.05 sls=0.05;

output out=pp


p=pred_status lower=pi_l upper=pi_u;

run;

proc npar1way data=pp noprint;


class &Dvar.;


var pred_status;


output out=ks_1(keep=_d_ p_ksa rename=(_d_=KS
p_ksa=P_value));

run;

data result;

set ks_1(keep=ks);

length value $500.;

value=compress("&var1."||","||"&var2."||","||"&var3."||","||"&var4."||","||"&var5."||","||"&var6."||","||"&var7."||","||"&var8."||","||"&var9."||","||"&var10."||","||"&var11."||","||"&var12."||","||"&var13.");

run;

Proc append base=result_1 data=result force;run;

%end ;

proc sort data=result_1;by ks;

run;

%mend;

老样子啦，说下这宏怎么用。宏都是我调试过，应该没错，就是你的原数据集，要只留下你要用来循环的变量以及因变量，别的你都不要哈，乖，听我话。

Data：填入的是原数据集；

Dvar：填入因变量

N：填入你想最终模型的个数，建议10-15个吧。

Start：这里填的是seed种子数，次种子出不来.avi哈。建议是4位数以上，不知道sas随机过程中seed的种子数的自行百度。

End：你要种子循环的尽头。尽量设大点，我是建议循环个1000 2000次最好啦。

By：种子循环的区间，就是你是每隔200个数取一个数还是20个数之间取一个数。譬如你设定start=1000，end=1500,by=100,那就是种子等于1000，1100,1200,1300,1400,1500这五个数。再强调一次，输入数据集值保留你要这筛选的变量以及因变量，其余的主键什么的，你别加进去哈。

好的，这时候我要上结果图了：

这就是结果图。Ks升序排序，可以看到我循环了三次，最好的是第三次，帅选的13个变量里面，ks可以达到0.301，变量value中就是达到ks值的13个变量。但这只是我循环三次的结果啦。我是建议最好循环个1000次2000次。你就下班的时候放着跑，明天上班来收成果就好了，上班时间盯着屏幕。是跑不完的。数据分析师培训

SAS信用评分之逻辑回归的变量选择的更多相关文章

SAS信用评分之模型拟合以及验证的大坑
SAS信用评分之模型拟合以及验证的大坑今天的内容是来讲我这段时间被模型拟合和模型验证坑过的那些事.我也是千辛万苦终于是把模型给建出来了.此处应该有掌声.因为模型老是效果不好这件事,我躲在被窝里哭了好 ...
sas信用评分之第二步变量筛选
sas信用评分之第二步变量筛选今天介绍变量初步选择.这部分的内容我就只介绍information –value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把. ...
SAS信用评分之番外篇异常值的识别
SAS信用评分之番外篇异常值的识别今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在"信用风险评分卡研究"看过,但是代码只能识别一个变量,我将这个代码作了改良,但 ...
WOE:信用评分卡模型中的变量离散化方法（生存分析）
WOE:信用评分卡模型中的变量离散化方法 2016-03-21 生存分析在做回归模型时,因临床需要常常需要对连续性的变量离散化,诸如年龄,分为老.中.青三组,一般的做法是ROC或者X-tile等等. ...
信用评分卡 (part 5 of 7)
python信用评分卡(附代码,博主录制) https://study.163.com/course/introduction.htm?courseId=1005214003&utm_camp ...
基于Python的信用评分卡模型分析（二）
上一篇文章基于Python的信用评分卡模型分析(一)已经介绍了信用评分卡模型的数据预处理.探索性数据分析.变量分箱和变量选择等.接下来我们将继续讨论信用评分卡的模型实现和分析,信用评分的方法和自动评分 ...
scikit-learn中机器学习模型比较（逻辑回归与KNN）
本文源自于Kevin Markham 的模型评估:https://github.com/justmarkham/scikit-learn-videos/blob/master/05_model_eva ...
逻辑回归原理_挑战者飞船事故和乳腺癌案例_Python和R_信用评分卡（AAA推荐）
sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程) https://study.163.com/course/introduction.htm?courseId=1005269003&a ...
含有分类变量（categorical variable）的逻辑回归（logistic regression）中虚拟变量（哑变量，dummy variable）的理解
版权声明:本文为博主原创文章,博客地址:,欢迎大家相互转载交流. 使用R语言做逻辑回归的时候,当自变量中有分类变量(大于两个)的时候,对于回归模型的结果有一点困惑,搜索相关知识发现不少人也有相同的疑问 ...

随机推荐

el-upload文件上传组件
一.介绍 element-ui的组件之一,用来点击上传文件官方是使用 before-upload 限制用户上传的图片格式和大小.但是某些浏览器不支持此方法,所以使用on-change来代替. 二.代 ...
hdu多校第二场 1010 （hdu6600）Just Skip This Problem
题意: 给你一个数x,允许你多次询问yi,然后回答你x xor yi 是否等于yi,询问尽量少的次数以保证能求出xi是几,求出这样询问次数最少的询问方案数. 结果mod1e6+3 题解: 队友赛时很快 ...
com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected establishment of connection, message from server: "Too many connections"
报错: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: Data source rejected estab ...
将maven项目打成war包
//修改成war包 <packaging>war</packaging> //plugins中添加新的配置 <build> <plugins> < ...
Maven父子工程配置文件详解
项目骨架搭建成功之后. 因为父工程管理子工程.子工程相当于继承于子工程,所以子工程可以调用父工程里面的东西.那么就可以将jar包对应的配置文件书写到父工程的pom.xml文件中,注意:父工程的打包方式 ...
伪造ip头
x-forwarded-for: 127.0.0.1x-remote-IP: 127.0.0.1x-remote-ip: 127.0.0.1x-client-ip: 127.0.0.1x-client ...
PAT甲级——A1107 Social Clusters
When register on a social network, you are always asked to specify your hobbies in order to find som ...
<数据可视化>Matplotlib（2D+3D）
1.Matplotlib介绍(2D) Matplotlib 是 Python 2D-绘图领域使用最广泛的套件.它能让使用者很轻松地将数据图形化,并且提供多样化的输出格式. pylab 是 matplo ...
Java核心-03 谈谈final、finally、 finalize有什么不同？
今天,我要问你的是一个经典的 Java 基础题目,谈谈 final.finally. finalize 有什么不同? 典型回答 final 可以用来修饰类.方法.变量,分别有不同地意义,final修饰 ...
(转)linux centos 编译luabind-0.9.1 动态库静态库
编译时:virtual memory exhausted: Cannot allocate memory 一.问题当安装虚拟机时系统时没有设置swap大小或设置内存太小,编译程序会出现virtual ...

SAS信用评分之逻辑回归的变量选择

SAS信用评分之逻辑回归的变量选择的更多相关文章

随机推荐

热门专题