《SAS编程与数据挖掘商业案例》学习笔记之十八
接着曾经的《SAS编程与数据挖掘商业案例》,之前全是sas的基础知识,如今開始进入数据挖掘方面笔记,本文主要介绍数据挖掘基本流程以及应用方向,并以logistic回归为例说明。
一:数据挖掘综述
衡量一个数据挖掘模型价值的唯一标准就是商业目标,为达到一个商业目标。有非常多种方法。仅仅有高效解决商业目标的方法才是最牛的方法。即使是看似简单的方法,仅仅要能高效解决商业目标,我们就觉得是牛的方法;
面对海量的数据,即使是使用了最先进的工具,最复杂的算法。可是假设挖掘出来的知识是没用的,或者挖掘的结果是无法解释的,那这样的挖掘也是失败的。非常多人对数据挖掘都有一个误解。觉得一定要使用复杂的工具和复杂的算法,事实上是一种误导。
数据挖掘流程:商业理解、数据收集、数据清洗、数据特征化、数据建模、模型打分、模型验证、模型实施、模型优化
描写叙述分析:对已经发生的现象进行分析。主要分析技术有描写叙述性分析、数据特征化、聚类分析、孤立点分析
因果分析:寻找发生的原因。主要技术有联机分析、相关性分析、回归分析、关联分析、因子分析
分类和预測:
主要分类技术:决策树、判别分析、贝叶斯分类、logistic回归分析、神经网络、支持向量机等
预測技术有:多元线性回归分析、广义线性回归分析、非线性回归分析、神经网络分析
二:商业目标:
1、评价活动的效果:比較分析
通过开展工作组和控制组进行比对。
2.特征分析
比方要分析高价值客户的特征,通过特征化数据(均值、方差、极值)、相关性度量(相关系数、卡方值、基尼系数、熵)、聚类分析、因子分析等发现表面的和潜在的数据特征。
3.市场细分
市场细分由业务主导,而不是技术主导。
细分结果一定要以易于开展营销活动为目的。
4.响应
提高某个营销活动的响应度
5.风险
风险控制指标通常包含:资产负债情况、信用记录、工作稳定性、收入、教育程度、家庭人口结构
风险模型的建立在技术上类似于响应模型,但对于业务上有非常大的差别,比方定义目标变量上,风险模型可能有非常多因素决定。一个比較常见的定义:拖欠额度超过某一数值。并逾期超过3个月的客户作为风险客户(目标变量值为1,其余情况为0)
6.流失
重点在于流失目标变量的定义;
7.提升销售和交叉销售
数据挖掘商业应用的最高原则是:“效率、效果”
3.需求文档
需求文档包含三部分
项目计划文档(ppt)
商业目标、
技术目标、
计划内容、
项目路线图、给出分析团队怎样实施项目的明白时间表和每一阶段的任务
资源:是每个项目阶段所须要的參与项目人员
方法论设计文档(word)
是解决商业需求的技术文档。是一个解决方式。最核心的内容是组合不同的算法,并给出终于能达到的理论目标
变量需求文档(excel)
4.建模流程图
5.logistic建模及结果具体解释
商业应用领域,logistic回归是应用最广泛的预測模型。神经网络存在过度拟合的嫌疑。而决策树可能存在预測结果的不稳定性,而且在大数据的情况下决策树存在失灵现象。因此logistic回归相对于另外两个是一个适度的模型。再加上输出结果有非常好的解释性。应用非常广泛
logistic变换:logit(p)=ln(p/1-p) 然后再与自变量进行线性拟合
logistic回归中。因变量y服从二项分布或多项分布,而线性回归分析中y是服从正态分布
logistic回归中不存在线性回归中的残差项。
logistic回归採用MLE(最大似然预计)。而线性回归分析採用的是LSE(最小二乘预计)
LSE的原理是如果残差独立同分布。然后构造样本函数。使得因变量的观測值和模型预计值之间的离差平方和最小。
MLE的原理。是构造似然函数,对于二值型的logistic回归来说。服从二点分布,
评价模型好坏的指标:
1)拟合优度
拟合优度是衡量预測值和观測值之间的整体一致性。可是在评价模型时。实际上測量的是预測值和观測值之间的区别,实际上是模型预測的“劣度”,即拟合不佳检验,经常使用的指标是HL(hosmer-lemeshow)和IM(information
measures)
HL是一种类似于皮尔逊-卡方统计量的指标,相应的统计如果H0是预測值概率和观測值之间无显著差异,因而如果HL有较大的P值,则接受原如果,说明统计结果不显著,因而。不能拒绝关于模型拟合数据非常好的如果,即模型非常好的拟合了数据。能够通过调用lackfit选项命令实现
IM指标中比較显著的是AIC和SC,AIC越小标示拟合模型越好。sc是对aic指标的一种修正。与AIC同向作用
2)卡方统计
卡方统计监測的是模型中所包括的自变量对因变量有显著的解释能力,在多元线性回归和ANOVA中。经常使用F检验达到目的。在logistic中用似然比检验,相当于F检验,在sas输出结果中就是likelihood
ratio相应的值。
注:卡方值和拟合优度是两个全然不同的概念,前者度量的是自变量和因变量的ODDS自然对数线性相关。而后者度量的是预測值和观測值之间的一致性,所以,最好是模型卡方统计性显著而拟合优度统计性不显著。
3)预測准确性
预測准确性问题是:检验全部x变量究竟能解释多少Y变量的波动
RSQUARE:Y变异中被解释的比例,
C统计量:度量的是观測值和条件预測概率之间的相对一致性;
指标越高,表示预測概率与观測反应变量之间的关联越密切。
总结例如以下:
统计量 |
趋势 |
作用 |
sas命令 |
备注 |
C统计量 |
越大越好 |
度量的是观測值和条件预測概率之间的相对一致性 |
自己主动输出 |
|
似然比卡方 |
越大越好 |
类似于F检验,度量回归平方和,自变量对因变量的显著解释能力 |
自己主动输出 |
P值越小越好 |
AIC |
越小越好 |
类似于多远回归残差平方和 |
自己主动输出 |
|
RSQUARE |
越大越好 |
Y变异中被解释的比例 |
RSQ |
|
HL统计量 |
越小越好 |
度量观測值与预測值整体的一致性 |
LACKFIT |
P值越大越好 |
商业实战中。一般考虑前两种。由于logistic回归是一个分类模型。目标变量的值仅仅是一个分类标示。因而更关注观測值和预測值之间的相对一致性。而不是绝对一致性,因而分析师更关注于模型预測概率值的排序,而lift图也正是从概率排序结果得到的。
应用举例和输出结果的解释
Proc logistic data=lg.remission desc; *按目标变量降序输入建模数据集
model remiss =cell smear infil li blast temp
/ selection=stepwise
slentry=0.3 slstay=0.35 details lackfit stb; *设置进入阈值和保留阈值,并输出具体结果。输出HL统计量。输出标准化数
据后的模型參数
output out=pred p=phat; *设置预測概率变量为phat
Run;
在输出结果association of predicted probabilities and observed responses中最后一列的C统计量。一般大于0.7以上就能够用该模型
《SAS编程与数据挖掘商业案例》学习笔记之十八的更多相关文章
- 《SAS编程和数据挖掘商业案例》第14部分学习笔记
继续<SAS编程与数据挖掘商业案例>学习笔记系列,本次重点:经常使用全程语句 所谓全程语句.是指能够用在不论什么地方的sas语句,既能够用在data数据步语句里面,也能够用在proc过程步 ...
- 《SAS编程和数据挖掘商业案例》学习笔记# 19
继续<SAS编程与数据挖掘商业案例>学习笔记,本文側重数据处理实践.包含:HASH对象.自己定义format.以及功能强大的正則表達式 一:HASH对象 Hash对象又称散列表,是依据关键 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(5)SAS宏语言、SQL过程
SAS学习笔记之<SAS编程与数据挖掘商业案例>(5)SAS宏语言.SQL过程 1. 一个SAS程序可能包含一个或几个语言成分: DATA步或PROC步 全程语句 SAS组件语言(SCL) ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(4)DATA步循环与控制、常用全程语句、输出控制
SAS学习笔记之<SAS编程与数据挖掘商业案例>(4)DATA步循环与控制.常用全程语句.输出控制 1. 各种循环与控制 DO组 创建一个执行语句块 DO循环 根据下标变量重复执行DO和E ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(3)变量操作、观测值操作、SAS数据集管理
SAS学习笔记之<SAS编程与数据挖掘商业案例>(3)变量操作.观测值操作.SAS数据集管理 1. SAS变量操作的常用语句 ASSIGNMENT 创建或修改变量 SUM 累加变量或表达式 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(2)数据获取与数据集操作
SAS学习笔记之<SAS编程与数据挖掘商业案例>(2)数据获取与数据集操作 1. SET/SET效率高,建立的主表和建表索引的查询表一般不排序, 2. BY语句,DATA步中,BY语句规定 ...
- SAS学习笔记之《SAS编程与数据挖掘商业案例》(1)系统简介和编程基础
SAS学习笔记之<SAS编程与数据挖掘商业案例>(1)系统简介和编程基础 1. SAS系统简介 1.1 SAS是先编译后执行的语言,data步标志着编译的开始. 数据指针:当前内存缓存区, ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十六
<SAS编程与数据挖掘商业案例>学习笔记,本次重点:sas宏变量 内容包含:宏变量.宏函数.宏參数.通配函数.字符函数.计算函数.引用函数.宏语句.宏应用 1.宏触发器: %name-to ...
- 《SAS编程与数据挖掘商业案例》学习笔记之十五
继续<SAS编程与数据挖掘商业案例>读书笔记,本次重点:输出控制 主要内容包含:log窗体输出控制.output窗体输出控制.ods输出控制 1.log窗体输出控制 将日志输出到外部文件 ...
随机推荐
- 微信小程序------开发测试
一.注册小程序 注:微信小程序注册的邮箱不能被其他微信公众平台注册,未被微信开放平台注册,未被给人微信号绑定的微信号. 二.注册完小程序后,下载开发者工具 开发者工具的使用: 1.打开开发者工具:用已 ...
- 路飞学城Python-Day8
[11.函数-基本介绍]函数引出问题:如果出现这个需求,需要监控单位的服务器状况,当CPU/MEMORY/DISK等指标使用量超过阀值时,就发邮件报警 while True: if CPU利用率> ...
- Vue项目结合vux使用
引入vux 1.直接安装或者更新: npm install vux --save 或者使用 yarn yarn add vux // 安装 yarn upgrade vux // 更新 2.vux2必 ...
- luogu P3795 钟氏映射(递推)
题意 n<=107 20MB 题解 也就是给n个点,把他们一个分为一组,或两个分为一组,有多少种方法. 空间大点随便做. 我们靠递推. 一个新点,要不自己一组,要不和前面的一个点构成一组. 所以 ...
- tf.slice()解释
转载:https://www.jianshu.com/p/71e6ef6c121b def slice(input_, begin, size, name=None): 其中“input_”是你输入的 ...
- [Luogu]P3338 [ZJOI2014]力(FFT)
题目描述 给出\(n\)个数\(q_i\),给出\(F_j\)的定义如下: \(F_j = \sum_{i<j}\frac{q_i q_j}{(i-j)^2 }-\sum_{i>j}\fr ...
- 北京联通光猫WO-36(HG220GS-U)改为桥接模式
家里弄了个极路由,想在公司里去操作路由器,交换文件.提前下载电影什么的,因此需要光猫改为桥接模式,让路由器拨号 由于WO-36(HG220GS-U)这个型号的光猫固件升级后(我的是3.x)不能用工程账 ...
- hdoj 1429 胜利大逃亡(续) 【BFS+状态压缩】
题目:pid=1429">hdoj 1429 胜利大逃亡(续) 同样题目: 题意:中文的,自己看 分析:题目是求最少的逃亡时间.确定用BFS 这个题目的难点在于有几个锁对于几把钥匙.唯 ...
- LightOJ - 1038 Race to 1 Again 递推+期望
题目大意:给出一个数,要求你按一定的规则将这个数变成1 规则例如以下,如果该数为D,要求你在[1,D]之间选出D的因子.用D除上这个因子,然后继续按该规则运算.直到该数变成1 问变成1的期望步数是多少 ...
- 【RQNOJ】460 诺诺的队列
[题目大意] 求全部数对(i,j)满足随意a[k]<=a[i]且a[k]<=a[j]. 形象地说,就是有一群人站成一列.每一个人有一定的身高,然后问有多少对人能够互相看得到. 把数对(i, ...