SPSS Clementine 数据挖掘入门3

　转摘:http://www.cnblogs.com/dekevin/archive/2012/04/27/2473683.html　

　了解SPSS Clementine的基本应用后，再对比微软的SSAS，各自的优缺点就非常明显了。微软的SSAS是Service Oriented的数据挖掘工具，微软联合SAS、Hyperion等公司定义了用于数据挖掘的web服务标准——XMLA，微软还提供OLE DB for DM接口和MDX。所以SSAS的优势是管理、部署、开发、应用耦合方便。

　　但SQL Server 2005使用Visual Studio 2005作为客户端开发工具，Visual Studio的SSAS项目只能作为模型设计和部署工具而已，根本不能独立实现完整的Crisp-DM流程。尽管MS Excel也可以作为SSAS的客户端实现数据挖掘，不过Excel显然不是为专业数据挖掘人员设计的。
　　PS：既然说到Visual Studio，我又忍不住要发牢骚。大家都知道Visual Studio Team System是一套非常棒的团队开发工具，它为团队中不同的角色提供不同的开发模板，并且还有一个服务端组件，通过这套工具实现了团队协作、项目管理、版本控制等功能。SQL Server 2005相比2000的变化之一就是将开发客户端整合到了Visual Studio中，但是这种整合做得并不彻底。比如说，使用SSIS开发是往往要一个人完成一个独立的包，比起DataStage基于角色提供了四种客户端，VS很难实现元数据、项目管理、并行开发……；现在对比Clementine也是，Clementine最吸引人的地方就是其提供了强大的客户端。当然，Visual Studio本身是很好的工具，只不过是微软没有好好利用而已，期望未来的SQL Server 2K8和Visual Studio 2K8能进一步改进。

所以我们不由得想到如果能在SPSS Clementine中实现Crisp-DM过程，但是将模型部署到SSAS就好了。

首先OLE DB for DM包括了Model_PMML结构行集，可以使用DMX语句“Create Mining Model <Model Name> From PMML <xml string>”将SPSS Clementine导出的PMML模型加入SSAS。

如果我记得没错的话，SQL Server 2005 最初发表版本中Analysis Services是PMML 2.1标准，而Clementine 11是PMML 3.1的，两者的兼容性不知怎样，我试着将一个PMML文件加入SSAS，结果提示错误。

另外，在SPSS Clementine中可以整合SSAS，通过使用SSAS的算法，将模型部署到SSAS。具体的做法是：

在SSAS实例中修改两个属性值。

在Clementine菜单栏选Tools -> Helper Applications。

然后启用SSAS整合，需要选择SSAS数据库和SQL Server RMDBS，RMDBS是用来存储临时数据的，如果在Clementine的流中使用了SAS数据源，但SSAS不支持SAS数据文件，那么Clementine需要将数据源存入临时数据表中以便SSAS能够使用。

启用整合后，就可以在工具栏中看到多出了一类Datebase Modeling组件，这些都是SSAS的数据挖掘算法，接下来的就不用说了……

可惜的是SSAS企业版中就带有9中算法，另外还有大量第三方的插件，但Clementine 11.0中只提供了7种SSAS挖掘模型。

SPSS Clementine 数据挖掘入门3的更多相关文章

SPSS Clementine 数据挖掘入门1
SPSS Clementine是Spss公司收购ISL获得的数据挖掘工具.在Gartner的客户数据挖掘工具评估中,仅有两家厂商被列为领导者:SAS和SPSS.SAS获得了最高ability to e ...
SPSS Clementine 数据挖掘入门2
下面使用Adventure Works数据库中的Target Mail作例子,通过建立分类树和神经网络模型,决策树用来预测哪些人会响应促销,神经网络用来预测年收入. Target Mail数据在SQL ...
SPSS Modeler数据挖掘项目实战（数据挖掘、建模技术）
SPSS Modeler是业界极为著名的数据挖掘软件,其前身为SPSS Clementine.SPSS Modeler内置丰富的数据挖掘模型,以其强大的挖掘功能和友好的操作习惯,深受用户的喜爱和好评, ...
SPSS Modeler数据挖掘：回归分析
SPSS Modeler数据挖掘:回归分析 1 模型定义回归分析法是最基本的数据分析方法,回归预测就是利用回归分析方法,根据一个或一组自变量的变动情况预测与其相关的某随机变量的未来值. 回归分析是研 ...
数据挖掘入门系列教程（二）之分类问题OneR算法
数据挖掘入门系列教程(二)之分类问题OneR算法数据挖掘入门系列博客:https://www.cnblogs.com/xiaohuiduan/category/1661541.html 项目地址:G ...
数据挖掘入门系列教程（三）之scikit-learn框架基本使用（以K近邻算法为例）
数据挖掘入门系列教程(三)之scikit-learn框架基本使用(以K近邻算法为例) 简介 scikit-learn 估计器加载数据集进行fit训练设置参数预处理流水线结尾数据挖掘入门系 ...
数据挖掘入门系列教程（四）之基于scikit-lean实现决策树
目录数据挖掘入门系列教程(四)之基于scikit-lean决策树处理Iris 加载数据集数据特征训练随机森林调参工程师结尾数据挖掘入门系列教程(四)之基于scikit-lean决策树处理 ...
数据挖掘入门系列教程（四点五）之Apriori算法
目录数据挖掘入门系列教程(四点五)之Apriori算法频繁(项集)数据的评判标准 Apriori 算法流程结尾数据挖掘入门系列教程(四点五)之Apriori算法 Apriori(先验)算法关联 ...
数据挖掘入门系列教程（五）之Apriori算法Python实现
数据挖掘入门系列教程(五)之Apriori算法Python实现加载数据集获得训练集频繁项的生成生成规则获得support 获得confidence 获得Lift 进行验证总结参考数据挖 ...

随机推荐

Loadrunner报错“Too many local variablesAction.c”解决方法
问题描述,在Action.c里定义数组时如果数组长度过长,如char a[1024*1024]运行时即会报错: 意思为:太多的局部变量问题原因及解决方法如下: 1. VuGen对于局部变量可以分配的 ...
openssl解析国密X509证书
openssl解析国密X509证书,把公钥拿出来重写一下就行了 x = strToX509(pbCert, pulCertLen);dwRet = getCertPubKey(x, &a ...
layer弹出层的关闭问题
就是在执行添加或修改的时候,需要将数据提交到后台进行处理,这时候添加成功之后最理想的状态是关闭弹出层并且刷新列表的数据信息,之前一直想实现这样,可一直没有成功,今天决定好好弄一弄,在仔细看过layer ...
thinkphp5.0自动加载
概述 ThinkPHP5.0 真正实现了按需加载,所有类库采用自动加载机制,并且支持类库映射和composer类库的自动加载. 自动加载的实现由think\Loader类库完成,自动加载规范符合PHP ...
spring-cloud学习BUG小结
1.com.sun.jersey.api.client.ClientHandlerException: java.net.ConnectException: Connection refused: c ...
[POJ1625]Censored!(AC自动机+DP+高精度)
Censored! Time Limit: 5000MS Memory Limit: 10000K Total Submissions: 10824 Accepted: 2966 Descri ...
java下划线与驼峰命名互转
方式一: 下划线与驼峰命名转换: public class Tool { private static Pattern linePattern = Pattern.compile("_(\\ ...
10.十进制转m进制
时间限制: 1 s 空间限制: 128000 KB 题目等级 : 白银 Silver 题解查看运行结果题目描述 Description 将十进制数n转换成m进制数 m<=16 n<=1 ...
HDU 5656 CA Loves GCD dp
CA Loves GCD 题目连接: http://acm.hdu.edu.cn/showproblem.php?pid=5656 Description CA is a fine comrade w ...
linux下如何启动sybase
isql -Dxxx -Uxxx -P111111 用isql连接数据库发现数据库没有启动. 如何启动sybase数据库? [TA_SYBASE][/home/bta]su - sybase //切 ...

SPSS Clementine 数据挖掘入门3

SPSS Clementine 数据挖掘入门3的更多相关文章

随机推荐

热门专题