SAS信用评分之番外篇异常值的识别
今天想分享给大家的是我早期建模的时候一个识别异常值的办法,也许你在“信用风险评分卡研究”看过,但是代码只能识别一个变量,我将这个代码作了改良,但是我在这里必须声明一点,就是假设你身处的公司数据并不多的话,我不建议你使用这个代码,因为我是简单粗暴的将异常值直接剔除了。

就因为我的数据不多,所以我之前在做建模的时候使用的是先等量分组再最优分段的方式来使变量不用识别异常值,说道这里,我又需要跟大家提醒一下就是关于最优分段的代码,说有过拟合的现象。这里跟大家解释一下就是关于最优分段过拟合,因为最优分段的基础是建立在等量分组的基础上,所以重点就是在等量分组上,假设你领导能接受的最小一组的总数据量的1/20,那么你就在等量分组中分20组,保证在后面的产出至少一组都是1/20以上,以此类推。
进入正题,我来讲这个识别异常值的代码,首先,这个代码只针对连续变量,而且是正态分布或者是接近正态分布的变量,若是双峰或者左偏单峰,或者右偏单峰都不适用这个代码的识别。其实这个代码有很多局限性,所以我写出来之后也不是经常的用到,所以叫做番外篇。
接下来的这个代码分为两部分,第一就是针对缺失值大于30%的变量在业务上可以解释的通的,那这个变量做异常值处理的时候就会去除缺失值做异常值处理。对于缺失值小于30%,就让其变量的缺失值跟其他值一起做异常值处理。第二就是针对判定为异常值观测不会就直接删掉,而是先输出该观测,等到全部的变量做完了异常值检查之后,再判断这个观测出现了几次的异常。这时候你定一个伐值,假设是5次就删掉,那就是只要一个观测在这批变量中出现过5次判断为异常的那就会删掉。基本思路就是这样子啦。那就上代码吧。
*%Extremes(DSin, VarX, IDVar, NSigmas, DSout);
*DSin 填入原数据集;
*VarX 要检查异常的变量;
*IDVar 数据集的主键,用于标识是那条观测;
*NSigmas 在几倍标准差内属于异常值,在后续的执行代码中,我写的是3;
*DSout输出的数据集;
%macro Extremes(DSin, VarX, IDVar, NSigmas, DSout);
proc sort data=&DSin. out=temp(keep=
&VarX. &IDVar.);by
&IDVar;
run;
proc univariate data=temp noprint;
var &VarX;
output
out=temp_u
STD=VSTD Mean=VMean;
run;
data _null_;
set temp_u;
call symput('STD', VSTD);
call symput('Mean', VMean);
run;
%let ULimit=%sysevalf(&Mean
&NSigmas * &STD);
%let LLimit=%sysevalf(&Mean -
&NSigmas * &STD);
data &DSout;
set temp;
if &VarX <
&Llimit or &VarX >
&ULimit;
run;
proc datasets library=work nodetails nolist ;
delete temp temp_u;
quit;
%mend;
%macro Extremes1(DSin, VarX, IDVar, NSigmas, DSout);
proc sort data=&DSin. out=temp(keep=
&VarX. &IDVar.);by
&IDVar;
run;
proc univariate data=temp noprint;
var &VarX;
output
out=temp_u
STD=VSTD Mean=VMean;
run;
data _null_;
set temp_u;
call symput('STD', VSTD);
call symput('Mean', VMean);
run;
%let ULimit=%sysevalf(&Mean
&NSigmas * &STD);
%let LLimit=%sysevalf(&Mean -
&NSigmas * &STD);
data &DSout;
set
temp(where=(&VarX.^=.));
if &VarX <
&Llimit or &VarX >
&ULimit;
run;
proc datasets library=work nodetails nolist ;
delete temp temp_u;
quit;
%mend;
*var_namelist(data=,coltype=,tarvar=);
*data 填入原始数据集;
*coltype 变量的类型,数值是“num”,字符是“char”;
*tarvar 填入你不要做异常值检验的变量,这里只能填一个,理论上填的是主键;
*dsor 输出的数据集;
%macro var_namelist(data=,coltype=,tarvar=,dsor=);
%let
lib=%upcase(%scan(&data.,1,'.'));
%let
dname=%upcase(%scan(&data.,2,'.'));
%global
var_list var_num;
proc sql
;
create table &dsor. as
select name
from sashelp.VCOLUMN
where left(libname)="&lib." and
left(memname)="&dname." and
type="&coltype." and
lowcase(name)^=lowcase("&tarvar.");
quit;
%mend;
*a 填入数据集的名字即可;
%macro ivar(data,tar_var,id);
proc datasets lib=work;
delete kk;
run;
%var_namelist(data=&data.,coltype=num,tarvar="&tar_var.",dsor=score_total_list_1)
data _null_;
set score_total_list_1;
call symput
(compress("var"||left(_n_)),compress(name));
call
symput(compress("n"),compress(_n_));
run;
%do i= 2 %to &n.;
proc sql;
select count(case when
&&Var&i=. then 1
else 0 end)/count(*) into:num&i.
from &data.;
quit;
%if
&&num&i.<0.3
%then %do;
%Extremes(DSin=&data.,
VarX=&&Var&i.,
IDVar=appl_id, NSigmas=4, DSout=aa_&i.);
%end;
%else %do;
%Extremes1(DSin=&data.,
VarX=&&Var&i.,
IDVar=appl_id, NSigmas=4, DSout=aa_&i.);
%end;
proc append base=kk
data=aa_&i.(keep=&id.);
run;
proc datasets lib=work;
delete aa_&i.;
run;
%end;
%mend;
ivar(data,tar_var,id);
data:输入你的数据集。
Tar_var:输入你的因变量。
Id:输入你的主键。
输出的数据集是主键,对其计数就知道他在多少个变量里面表现为异常值,再根据自己判断的伐值进行删除。
我个人觉得这个代码的对于逻辑回归模型的可用性不是太强,因为逻辑回归中对于变量并没与太多的要求,若是你建模用的模型是线性回归估计可能对你有用。那么这次的分享就到这里吧。
SAS信用评分之番外篇异常值的识别的更多相关文章
- SAS信用评分之逻辑回归的变量选择
SAS信用评分之逻辑回归的变量选择 关于woe的转化,这一部在之前的这篇文章:sas批量输出变量woe值中已经写了,woe也只是简单的公式转化而已,所以在这系列中就不细究了哈.这次的文章我想来讲逻辑回 ...
- sas信用评分之第二步变量筛选
sas信用评分之第二步变量筛选 今天介绍变量初步选择.这部分的内容我就只介绍information –value,我这次做的模型用的逻辑回归,后面会更新以基尼系数或者信息熵基础的筛选变量,期待我把. ...
- 【番外篇】ASP.NET MVC快速入门之免费jQuery控件库(MVC5+EF6)
目录 [第一篇]ASP.NET MVC快速入门之数据库操作(MVC5+EF6) [第二篇]ASP.NET MVC快速入门之数据注解(MVC5+EF6) [第三篇]ASP.NET MVC快速入门之安全策 ...
- iOS冰与火之歌(番外篇) - 基于PEGASUS(Trident三叉戟)的OS X 10.11.6本地提权
iOS冰与火之歌(番外篇) 基于PEGASUS(Trident三叉戟)的OS X 10.11.6本地提权 蒸米@阿里移动安全 0x00 序 这段时间最火的漏洞当属阿联酋的人权活动人士被apt攻击所使用 ...
- 给深度学习入门者的Python快速教程 - 番外篇之Python-OpenCV
这次博客园的排版彻底残了..高清版请移步: https://zhuanlan.zhihu.com/p/24425116 本篇是前面两篇教程: 给深度学习入门者的Python快速教程 - 基础篇 给深度 ...
- 可视化(番外篇)——在Eclipse RCP中玩转OpenGL
最近在看有关Eclipse RCP方面的东西,鉴于Gephi是使用opengl作为绘图引擎,所以,萌生了在Eclipse RCP下添加画布,使用opengl绘图的想法,网上有博文详细介绍这方面的内容, ...
- 可视化(番外篇)——SWT总结
本篇主要介绍如何在SWT下构建一个应用,如何安装SWT Designer并破解已进行SWT的可视化编程,Display以及Shell为何物.有何用,SWT中的常用组件.面板容器以及事件模型等. 1.可 ...
- 【重走Android之路】【番外篇】关于==和equals
[重走Android之路][番外篇]关于==和equals 在实际的编程当中,经常会使用==和equals来判断变量是否相同.但是这两种比较方式也常常让人搞得云里雾里摸不着头脑.下面是我个人做的总 ...
- 【重走Android之路】【番外篇】有关于null的一些知识点
[重走Android之路][番外篇]有关于null的一些知识点 1.首先,到底什么是null? null是Java中的一个关键字,用于表示一个空对象引用,但其本身并不是任何类型也不是属于任何对象. ...
随机推荐
- retrying模块的使用
安装模块:pip3 install retrying 使用方式: 使用retrying模块提供的retry模块 通过装饰器的方式使用,让装饰器的函数反复的执行 retry可以传入参数stop_max_ ...
- 901. Online Stock Span [短于线性的时间统计单个元素的Span ]
Span 指这个元素之前连续的小于这个元素的值有多少个 原理: 维护递减栈 这个栈内的元素是递减的序列 新到一个元素x 依次出栈比x小的(也就是这个元素的Span) 这种问题的关键在于 新来的元素如果 ...
- 阿里云应用高可用服务 AHAS 流控降级实现 SQL 自动防护功能
在影响系统稳定性的各种因素中,慢 SQL 是相对比较致命的,可能会导致 CPU.LOAD 异常.系统资源耗尽.线上生产环境出现慢 SQL 往往有很多原因: 硬件问题.如网络速度慢,内存不足,I/O 吞 ...
- jquery全部选是,全部选否。
<div class="col-md-9"> <div class="box box-primary"> <div class=& ...
- 微信小程序示例
http://www.cnblogs.com/ihardcoder/p/6097941.html http://www.wxapp-union.com/ http://blog.csdn.net/li ...
- Laravel-admin之Driver [] is not supported
使用Laravel-admin做项目,原本好好的项目,今天一运行则报错:Driver [] is not supported,截图如下: 翻看百度翻译之后,才知道是不支持驱动器[],但是知道意思还是不 ...
- 读书笔记--Head First JQuery目录
1.JQuery入门 2.选择器与方法 3.JQuery事件与函数 4.JQuery Web页面管理 5.JQuery效果与动画 6.JQuery与JavaScript 7.定制函数停工定制效果 8. ...
- spring cloud深入学习(六)-----熔断监控Hystrix Dashboard和Turbine
Hystrix-dashboard是一款针对Hystrix进行实时监控的工具,通过Hystrix Dashboard我们可以在直观地看到各Hystrix Command的请求响应时间, 请求成功率等数 ...
- LintCode_44 最小子数组
题目 给定一个整数数组,找到一个具有最小和的子数组.返回其最小和. 注意事项 子数组最少包含一个数字 样例 给出数组[1, -1, -2, 1],返回 -3 思路 动态规划解决 C++代码 int m ...
- 一致性Hash算法原理,java实现,及用途
学习记录: 一致性Hash算法原理及java实现:https://blog.csdn.net/suifeng629/article/details/81567777 一致性Hash算法介绍,原理,及使 ...