sas单变量的特征分析

sas单变量的特征分析

大炮，我有个烦恼，我领导最近老叫我单变量结合因变量分析，但是都是分段分析，我总是写proc sql然后group by
,但是这个过程好无聊啊，有木有什么新的代码，让我可以分析的快点啊。

最近写了个宏，刚好可以解决你这个问题，在上代码之前，先来个结果图

詹大炮

这个结果对于分析来说是不好的，因为这个结果没啥实际意义，说白了就是跟因变量没关系，但是这个图我们不是要来讲变量怎么有用，我们要介绍的是这段代码最后呈现的一个结果是怎样的。

代码：

%macro ChcAnalysis(DSin, DVVar, VarX,
NBins, Method, DSChc);

proc sort data=&DSin;

by &VarX;

run;

Data temp;

set &DSin ;

by &VarX;

_Obs=_N_;

keep &DVVAr
&VarX _Obs;

run;

proc sql noprint;

%if &Method=1 %then
%do;

select count(&DVVar)
into :N from temp;

select max(_Obs), min(_Obs) into :Vmax,
:Vmin from temp;

%let
BinSize=%sysevalf((&Vmax)/&Nbins);

%let LB_1=0;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=LB_&NBins and
_obs<=UB_&NBins;

%end;

%else %do ;

select count(&DVVar)
into :N from temp;

select max(&VarX),
min(&VarX) into :Vmax, :Vmin from temp;

%let
BinSize=%sysevalf((&Vmax-&Vmin)/&Nbins);

%let LB_1=&Vmin;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<=&&UB_&i;

%end;

quit;

data &DSChc;

%do i=1 %to &NBins;

Bin=&i;

LowerBound=&&LB_&i;

UpperBound=&&UB_&i;

if
(&&sum_&i =. ) then
N_1=0; else
N_1=&&Sum_&i;

if
&&N_&i=. then
BinTotal=0; else
BinTotal=&&N_&i;

N_0 = BinTotal-N_1;

Percent_1=100*N_1/BinTotal;

Percent_0=100*N_0/BinTotal;

output;

%end;

Run;

proc datasets nodetails nolist
library=work;

delete temp;

run;

quit;

%mend;

詹大炮

还是老样子，分段介绍。

% ChcAnalysis(DSin, DVVar, VarX, NBins,
Method, DSChc);

DSin：填入的是原数据集；

DVVar：填入因变量，这里我们分析的是二元的因变量，所以因变量一定要是二元的，并且必须是数值的0,1。因为在代码中设定的就是这样子的，至于你问我为什么不能是字符，那是因为我还没能耐写字符的。

VarX：你要分析的变量（数值的哈）

NBins：分几段分析。结果的例子是分了5段；

Method：怎么分。1-等高度分，2-等宽度分。我的结果图那个是按2分的。

DSChc：结果数据集的输出名字。

proc sort data=&DSin;by
&VarX;run;

Data temp;

set &DSin ;

by &VarX;

_Obs=_N_;

keep &DVVAr
&VarX _Obs;

run;

将原数据集中的变量排序，后面的分组的时候要用到。然后保留要分析的变量在temp数据集中，产生变量_Obs，作为序号，这是等高度分析的时候要用的。等高度的意思就是每个区间的数量是一样的，等宽度的意思是，区间的的差值是一样的。两个不同的情况，在分析的时候，如果等宽的结果你觉得不是很明显可以分析的话，就换等高，任意切换哈。

temp的数据集是长这样子的：

_obs是观测的序号。

proc sql noprint;

%if &Method=1 %then
%do;

select count(&DVVar)
into :N from temp;

select max(_Obs), min(_Obs) into :Vmax,
:Vmin from temp;

%let
BinSize=%sysevalf((&Vmax)/&Nbins);

%let LB_1=0;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=LB_&i. and
_obs<=UB_&i.;

%end;

%else %do ;

select count(&DVVar)
into :N from temp;

select max(&VarX),
min(&VarX) into :Vmax, :Vmin from temp;

%let
BinSize=%sysevalf((&Vmax-&Vmin)/&Nbins);

%let LB_1=&Vmin;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<&&Ub_&i;

%end;

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
&VarX>=&&Lb_&i
and
&VarX<=&&UB_&i;

%end;

quit;

我知道你肯定要说，这密密麻麻的%
&*我不想看。但是你看下嘛，不难的，我介绍介绍给你看嘛。

首先这段代码需要分成两步来看，第一步是当我们的&Method=1
的情况执行do后面的程序，反之，则是当我们的&Method=2的时候的情况啦。

然后我们来讲&Method=1情况时执行的代码：

select count(&DVVar)
into :N from temp;

select max(_Obs), min(_Obs) into :Vmax,
:Vmin from temp;

第一个select赋值宏是算出全部的观测数。

第二个select是算出最大的那个序号，其实我个人觉得这步有点多
余，你想直接用n也可以的，只是我想跟&Method=2的思路一样，所以就没删。

%let
BinSize=%sysevalf((&Vmax)/&Nbins);

%let LB_1=0;

%do i=1 %to
%eval_r(&Nbins-1);

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

BinSize因为是&Method=1，所以这里BinSize是区间的差值，这里有个宏函数%sysevalf就自己百度下用法吧，这里就不介绍了。%do
i=1 %to
%eval_r(&Nbins-1);这一步就开始循环，这里为什么只循环到倒数第二个呢，是因为倒数第一个直接就是剩下的全部，就不需要再区间限制了。

%let
LB_&i=%sysevalf(&LB_1
(&i-1)*&BinSize);

%let
UB_&i=%sysevalf(&&LB_&i
&BinSize);

这两步是产生这个分组的上下区间，然后用于后面的select语句中的where条件，把该区间的数量统计出来。

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=&&Lb_&i
and
_obs<&&Ub_&i;

%end;

这个过程特别注意的就是sum(&DVVar)，是用sum，这就是我一开始为什么说因变量是二元的，而且要是0,1的情况就是方便这里统计啦。

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

select sum(&DVVar) ,
count(*) into :Sum_&i , :N_&i from
temp

where
_obs>=LB_&i. and
_obs<=UB_&i.;

%end;

这就是第四步啦，

%let
LB_&NBins=%sysevalf(&LB_1
(&NBins-1)*&BinSize);

%let
UB_&NBins=&Vmax;

产生最后的区间，这里的i是5了，其实我一直很不能理解到这步，为什么还可以输出i=5呢，不是i只循环到4吗？但是执行的时候就是这样子的，这个套路是仿照之前的等高度分变量区间的那个代码写的。

我还特地看了日志也循环了：

我觉得应该是sas的处理流程，在pdv层面应该可以解释，跪求大神在留言区解释。万分感激。

那么&Method=2的部分就留给你自己去看啦，还是&Method=1的那种套路，只是等区间变量等量而已。

data &DSChc;

%do i=1 %to &NBins;

Bin=&i;

LowerBound=&&LB_&i;

UpperBound=&&UB_&i;

if
(&&sum_&i =. ) then
N_1=0; else
N_1=&&Sum_&i;

if
&&N_&i=. then
BinTotal=0; else
BinTotal=&&N_&i;

N_0 = BinTotal-N_1;

Percent_1=100*N_1/BinTotal;

Percent_0=100*N_0/BinTotal;

output;

%end;

Run;

然后这部分就是以上产生的宏，拼接成结果数据集。这里应该注意的是，每循环一个，就是产生一条观测之后output到数据集，如此循环之后需知道i=&nbins为止。数据分析师培训

sas单变量的特征分析的更多相关文章

R 单变量重命名与删除
单变量重命名 b = rename(b,c(target="flag")) 单变量删除 b = b[,names(b)!='age'] 或者 b[,"age&quo ...
机器学习之单变量线性回归（Linear Regression with One Variable）
1. 模型表达(Model Representation) 我们的第一个学习算法是线性回归算法,让我们通过一个例子来开始.这个例子用来预测住房价格,我们使用一个数据集,该数据集包含俄勒冈州波特兰市的住 ...
Coursera《machine learning》--（2）单变量线性回归(Linear Regression with One Variable)
本笔记为Coursera在线课程<Machine Learning>中的单变量线性回归章节的笔记. 2.1 模型表示参考视频: 2 - 1 - Model Representation ...
MATLAB 单变量函数一阶及N阶求导
1 对一维函数的求导及求特定函数处的变量值 %%最简单的一阶单变量函数进行求导 function usemyfunArray() %主函数必须位于最上方 clc clear syms x %syms ...
机器学习（二）--------单变量线性回归(Linear Regression with One Variable)
面积与房价训练集 (Training Set) Size Price 2104 460 852 178 ...... m代表训练集中实例的数量x代表输入变量 ...
[数据可视化之一]Pandas单变量画图
Pandas单变量画图 Bar Chat Line Chart Area Chart Histogram df.plot.bar() df.plot.line() df.plot.area() df. ...
Machine Learning 学习笔记2 - linear regression with one variable(单变量线性回归)
一.Model representation(模型表示) 1.1 训练集由训练样例(training example)组成的集合就是训练集(training set), 如下图所示, 其中(x,y) ...
Ng第二课：单变量线性回归(Linear Regression with One Variable)
二.单变量线性回归(Linear Regression with One Variable) 2.1 模型表示 2.2 代价函数 2.3 代价函数的直观理解 2.4 梯度下降 2.5 梯度下 ...
python 单变量线性回归
单变量线性回归(Linear Regression with One Variable)¶ In [54]: #初始化工作 import random import numpy as np imp ...

随机推荐

duilib教程之duilib入门简明教程7.XML基础类
现在大家应该对XML描述界面不那么陌生了,那么我们做进一步介绍. 前面的教程我们写了很多代码,为的是让大家了解下基本流程,其实duilib已经对常用的操作做了很好的包装,正式使用时无需像前面的教程那样 ...
python相关软件安装流程图解——MySQL 8.0.13安装教程(windows 64位)——MYSQL依赖的软件——MYSQL必须的系统DLL插件——MYSQL真正的安装
https://www.mysql.com/https://www.mysql.com/downloads/https://dev.mysql.com/downloads/windows/https: ...
16.ajax_case06
# 抓取华尔街见闻实时快讯 # https://wallstreetcn.com/live/global?from=navbar import requests import json header ...
python列表的常用操作
列表是python的基础数据类型之一 ,其他编程语言也有类似的数据类型.比如JS中的数组, java中的数组等等. 它是以[ ]括起来, 每个元素用' , '隔开而且可以存放各种数据类型: 列表是p ...
【Oracle】如何在查询视图时使用索引
通常我们使用hint来固定查询计划选择走表的索引固定表的连接等等,但是如果第一层查询的是视图呢? yang@rac1>CREATE TABLE TA (ID NUMBER, NAME VARC ...
TKmybatis的框架介绍和原理分析及Mybatis新特性演示
tkmybatis是在mybatis框架的基础上提供了很多工具,让开发更加高效,下面来看看这个框架的基本使用,后面会对相关源码进行分析,感兴趣的同学可以看一下,挺不错的一个工具实现对员工表的增删改查 ...
Nodejs之路（三）—— Nodejs之Express框架
Express 原生的 http 在某些方面表现不足以应对我们的开发需求,所以我们需要使用框架来加快我们的开发效率.框架的目的就是提高效率,让我们的代码更高度统一在Node 中,有很多 Web 开发 ...
JPA默认方法查询遇到转JSON的处理
JPA提供的findAll等查询方法在有关联的对象时比如:在查userInfo @Entity@Table(name = "user_info")public class Use ...
python requests 高级用法 -- 包括SSL 证书错误的解决方案
Session Objects会话对象 Session对象在请求时允许你坚持一定的参数.此外,还坚持由Session实例的所有请求的cookie. 让我们坚持在请求时使用 s = requests.S ...
thinkphp 关联关系
关联关系通常我们所说的关联关系包括下面三种: 大理石平台等级一对一关联 :ONE_TO_ONE,包括HAS_ONE 和 BELONGS_TO 一对多关联 :ONE_TO_MANY,包括HAS_MA ...

sas单变量的特征分析

sas单变量的特征分析的更多相关文章

随机推荐

热门专题