《SAS编程与数据挖掘商业案例》学习笔记之十八
接着曾经的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。
一:数据挖掘综述
衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标。有非常多种方法。仅仅有高效解决商业目标的方法才是最牛的方法。即使是看似简单的方法,仅仅要能高效解决商业目标,我们就觉得是牛的方法;
面对海量的数据,即使是使用了最先进的工具,最复杂的算法。可是假设挖掘出来的知识是没用的,或者挖掘的结果是无法解释的,那这样的挖掘也是失败的。非常多人对数据挖掘都有一个误解。觉得一定要使用复杂的工具和复杂的算法,事实上是一种误导。
数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化
描写叙述分析:对已经发生的现象进行分析。主要分析技术有描写叙述性分析、数据特征化、聚类分析、孤立点分析
因果分析:寻找发生的原因。主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析
分类和预測:
主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等
预測技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析
二:商业目标:
1、评价活动的效果:比較分析
通过开展工作组和控制组进行比对。
2.特征分析
比方要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。
3.市场细分
市场细分由业务主导,而不是技术主导。
细分结果一定要以易于开展营销活动为目的。
4.响应
提高某个营销活动的响应度
5.风险
风险控制指标通常包含:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构
风险模型的建立在技术上类似于响应模型,但对于业务上有非常大的差别,比方定义目标变量上,风险模型可能有非常多因素决定。一个比較常见的定义:拖欠额度超过某一数值。并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0)
6.流失
重点在于流失目标变量的定义;
7.提升销售和交叉销售
数据挖掘商业应用的最高原则是:“效率、效果”
3.需求文档
需求文档包含三部分
项目计划文档(ppt)
商业目标、
技术目标、
计划内容、
项目路线图、给出分析团队怎样实施项目的明白时间表和每一阶段的任务
资源:是每个项目阶段所须要的參与项目人员
方法论设计文档(word)
是解决商业需求的技术文档。是一个解决方式。最核心的内容是组合不同的算法,并给出终于能达到的理论目标
变量需求文档(excel)
4.建模流程图
5.logistic建模及结果具体解释
商业应用领域,logistic回归是应用最广泛的预測模型。神经网络存在过度拟合的嫌疑。而决策树可能存在预測结果的不稳定性,而且在大数据的情况下决策树存在失灵现象。因此logistic回归相对于另外两个是一个适度的模型。再加上输出结果有非常好的解释性。应用非常广泛
logistic变换:logit(p)=ln(p/1-p) 然后再与自变量进行线性拟合
logistic回归中。因变量y服从二项分布或多项分布,而线性回归分析中y是服从正态分布
logistic回归中不存在线性回归中的残差项。
logistic回归採用MLE(最大似然预计)。而线性回归分析採用的是LSE(最小二乘预计)
LSE的原理是如果残差独立同分布。然后构造样本函数。使得因变量的观測值和模型预计值之间的离差平方和最小。
MLE的原理。是构造似然函数,对于二值型的logistic回归来说。服从二点分布,
评价模型好坏的指标:
1)拟合优度
拟合优度是衡量预測值和观測值之间的整体一致性。可是在评价模型时。实际上測量的是预測值和观測值之间的区别,实际上是模型预測的“劣度”,即拟合不佳检验,经常使用的指标是HL(hosmer-lemeshow)和IM(information
measures)
HL是一种类似于皮尔逊-卡方统计量的指标,相应的统计如果H0是预測值概率和观測值之间无显著差异,因而如果HL有较大的P值,则接受原如果,说明统计结果不显著,因而。不能拒绝关于模型拟合数据非常好的如果,即模型非常好的拟合了数据。能够通过调用lackfit选项命令实现
IM指标中比較显著的是AIC和SC,AIC越小标示拟合模型越好。sc是对aic指标的一种修正。与AIC同向作用
2)卡方统计
卡方统计监測的是模型中所包括的自变量对因变量有显著的解释能力,在多元线性回归和ANOVA中。经常使用F检验达到目的。在logistic中用似然比检验,相当于F检验,在sas输出结果中就是likelihood
ratio相应的值。
注:卡方值和拟合优度是两个全然不同的概念,前者度量的是自变量和因变量的ODDS自然对数线性相关。而后者度量的是预測值和观測值之间的一致性,所以,最好是模型卡方统计性显著而拟合优度统计性不显著。
3)预測准确性
预測准确性问题是:检验全部x变量究竟能解释多少Y变量的波动
RSQUARE:Y变异中被解释的比例,
C统计量:度量的是观測值和条件预測概率之间的相对一致性;
指标越高,表示预測概率与观測反应变量之间的关联越密切。
总结例如以下:
|
统计量 |
趋势 |
作用 |
sas命令 |
备注 |
|
C统计量 |
越大越好 |
度量的是观測值和条件预測概率之间的相对一致性 |
自己主动输出 |
|
|
似然比卡方 |
越大越好 |
类似于F检验,度量回归平方和,自变量对因变量的显著解释能力 |
自己主动输出 |
P值越小越好 |
|
AIC |
越小越好 |
类似于多远回归残差平方和 |
自己主动输出 |
|
|
RSQUARE |
越大越好 |
Y变异中被解释的比例 |
RSQ |
|
|
HL统计量 |
越小越好 |
度量观測值与预測值整体的一致性 |
LACKFIT |
P值越大越好 |
商业实战中。一般考虑前两种。由于logistic回归是一个分类模型。目标变量的值仅仅是一个分类标示。因而更关注观測值和预測值之间的相对一致性。而不是绝对一致性,因而分析师更关注于模型预測概率值的排序,而lift图也正是从概率排序结果得到的。
应用举例和输出结果的解释
Proc logistic data=lg.remission desc; *按目标变量降序输入建模数据集
model remiss =cell smear infil li blast temp
/ selection=stepwise
slentry=0.3 slstay=0.35 details lackfit stb; *设置进入阈值和保留阈值,并输出具体结果。输出HL统计量。输出标准化数
据后的模型參数
output out=pred p=phat; *设置预測概率变量为phat
Run;
在输出结果association of predicted probabilities and observed responses中最后一列的C统计量。一般大于0.7以上就能够用该模型
《SAS编程与数据挖掘商业案例》学习笔记之十八的更多相关文章
- 《SAS编程和数据挖掘商业案例》第14部分学习笔记
继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:经常使用全程语句 所谓全程语句.是指能够用在不论什么地方的sas语句,既能够用在data数据步语句里面,也能够用在proc过程步 ...
- 《SAS编程和数据挖掘商业案例》学习笔记# 19
继续<SAS编程与数据挖掘商业案例>学习笔记,本文側重数据处理实践.包含:HASH对象.自己定义format.以及功能强大的正則表達式 一:HASH对象 Hash对象又称散列表,是依据关键 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程
SAS学习笔记之<SAS编程与数据挖掘商业案例>(5)SAS宏语言.SQL过程 1. 一个SAS程序可能包含一个或几个语言成分: DATA步或PROC步 全程语句 SAS组件语言(SCL) ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制
SAS学习笔记之<SAS编程与数据挖掘商业案例>(4)DATA步循环与控制.常用全程语句.输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和E ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理
SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作
SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础
SAS学习笔记之<SAS编程与数据挖掘商业案例>(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始. 数据指针:当前内存缓存区, ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十六
<SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十五
继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 ...
随机推荐
- UVa 12545 Bits Equalizer【贪心】
题意:给出两个等长的字符串,0可以变成1,?可以变成0和1,可以任意交换s中任意两个字符的位置,问从s变成t至少需要多少次操作 先可以画个草图 发现需要考虑的就是 1---0 0---1 ?---0 ...
- 织梦dedecms支持flash的flv文件播放功能代码
1.打开/include/FCKeditor/editor/dialog/dede_media.htm if(playtype=="rm"|| (playtype=="- ...
- POJ-1511 Invitation Cards 往返最短路 邻接表 大量数据下的处理方法
题目链接:https://cn.vjudge.net/problem/POJ-1511 题意 给出一个图 求从节点1到任意节点的往返路程和 思路 没有考虑稀疏图,上手给了一个Dijsktra(按紫书上 ...
- 批量删除harbor中的镜像
一 说明 这个是我第一篇博客,所以我想放上原创的东西,尽管我一直都很担心自己写得太low,但是总要学会尝试,学会改变自己,相信自己.在写这个脚本时,由于我接触LInux不是很多,能力有限,仅仅是为了让 ...
- java 对象 拆箱装箱 编译和反编译的验证
创建对象 package 创建对象的个数; public class main { public static void main(String[] agrs){ Check c1=new Check ...
- Python格式化字符串、占位符、合并数组
合并数组 参考链接:https://www.cnblogs.com/chaihy/p/7243143.html >>> a=[2] >>> b=[3] >&g ...
- Linux初学习
Linux Linux运行与关闭 Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 UNIX 的多用户.多任务.支持多线程和多 CPU 的操作系统. Linux ...
- centos安全配置
http://www.dedecms.com/knowledge/servers/linux-bsd/2012/0819/8506.html 引言: 我们必须明白:最小的权限+最少的服务=最大的安全 ...
- ajax异步刷新
前台js <script type="text/javascript"> function getLands() { $.ajax({ url:"httpse ...
- Java NIO笔记(一):NIO介绍
Java NIO即Java Non-blocking IO(Java非堵塞I/O),由于是在Jdk1.4之后添加的一套新的操作I/O工具包,所以通常会被叫做Java New IO.NIO是为提供I/O ...