用IBM的IM做过一段时间的电信客户挖掘
由于时间不是很长,做的挖掘模型效果还有待提高
应朋友要求简单总结几点(水平有限,也希望经验丰富的朋友给些建议):

1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005属于集成了挖掘模型类的,挖掘算法与SQL数据库产品密不可分,你甚至可以把自己实现的数据挖掘算法跟SQL进行集成,Oracle也类似,DB2的BI功能没怎么用,不是很清楚。

2、数据挖掘过程的重点绝对是数据预处理,一般认为预处理工作会占60%-80%时间不等,为什么预处理会如此重要,大家都知道garbage in garbage out的道理,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是展现,还要做分析和预测(不过现阶段很多BI项目确实只是在做展现,最多加点多维分析)。BI概念提出之初就是辅助战略决策的产物,当然向操作型BI发展的趋势这里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。
(1)如果是基于数据仓库或者数据集市的挖掘,那么可直接在仓库或者数据集市中建立挖掘模型源输入(也可叫临时宽表,这个表是根据挖掘业务需求对其他维度表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没有仓库或集市这一数据基础,那么就需要一个针对挖掘业务需求字段属性的简单ETL过程了。
(2)上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于源数据(临时宽表)里面很多数据是有偏差的,比如空值,错误值,异常值等...这就需要根据每个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数据预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往往会导致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术,但要用好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素。就拿属性归约来将,很多挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但对该数据挖掘模型贡献确是很大的。这样的情况虽说不多,却是值得注意的地方。

3、经过上面两步,挖掘模型数据输入算是初步建立起来了。接下来需要对所应用的挖掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成需要对挖掘模型的专业理解。我保持中庸的观点:如果不是做算法研究的朋友,只是做挖掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益和效率,不像是在实验室,有的是时间让你查资料,折腾进而对模型有个深入全面的理解;但完全黑匣子也是不妥的,一个对该挖掘模型完全不理解的人,指望能利用该模型挖掘出有用知识是不可能的。一是他不可能对挖掘结果有很好的理解;二是参数的调整是最大障碍,挖掘过程本来就是迭代过程,对算法完全不了解的参数设置乱设一通就指望得出较优模型更是天方夜潭。个人认为对挖掘模型大致原理是有必要了解的,再就是每个参数的范围及所代表的意义和对模型所起作用也是需要了解的。

4、数据规模也是个关键因素,训练数据,测试数据,验证数据?训练数据是选连续五个月加起来10万条记录,还是选连续三个月加起来6万条记录;测试数据是选两个月加起来2万条记录还是只选一个月?如果一个月数据就有几十万条记录,那么采取那种方式抽取几万条记录,是随机取还是写个简单选择算法?10万条记录挖掘模型跑了一晚上才出来结果,用5万条记录跑出来效果跟用10万条记录的差异大不大?抽取几千条记录完全可以用统计模型实现,为什么还要抽取上万记录用复杂的挖掘模型呢?这些因素很难说有个统一标准,相信很多人还是相信自己的经验多一点,像我等菜鸟们也只能指望经验丰富的老鸟们多出几本数据挖掘指南了。

5、不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交流是完全必要的。闭们造车的数据挖掘模型是脆弱的...

关于DM的一点总结[ZZ]的更多相关文章

  1. 对数据预处理的一点理解[ZZ]

    数据预处理没有统一的标准,只能说是根据不同类型的分析数据和业务需求,在对数据特性做了充分的理解之后,再选择相关的数据预处理技术,一般会用到多种预处理技术,而且对每种处理之后的效果做些分析对比,这里面经 ...

  2. VC++动态链接库(DLL)编程深入浅出(zz)

    VC++动态链接库(DLL)编程深入浅出(zz) 1.概论 先来阐述一下DLL(Dynamic Linkable Library)的概念,你可以简单的把DLL看成一种仓库,它提供给你一些可以直接拿来用 ...

  3. 那些证书相关的玩意儿(SSL,X.509,PEM,DER,CRT,CER,KEY,CSR,P12等)[zz]

    openssl dgst –sign privatekey.pem –sha1 –keyform PEM –c c:\server.pem 将文件用sha1摘要,并用privatekey.pem中的私 ...

  4. Android2.2快速入门 zz

    http://www.cnblogs.com/over140/archive/2010/09/27/1836567.html 前言 这是前段时间用于公司Android入门培训的资料,学习Android ...

  5. Python 正则表达式指南 zz

    zz http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html 1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一 ...

  6. 財哥面京东dm的经历【帮財哥发的】

        关于面京东,感触仅仅有一个,虐的快吐血了.首先说京东分四个板块,有京东商城.京东金融.京东刚收购的拍拍和海外事业部.我这个职位主要是在金融部数据组做数据挖掘和机器学习,还有推荐系统.面试是在周 ...

  7. DM二维码识别库DMDECODER的使用--MFC例程

    DM码和QR码是当今比较主流的二维码,其中QR码容量大,容量密度为16kb,DM码容量要小一点,可在仅仅25mm²的面积上编码30个数字,但是DM码的容错率更高,所以实际的工业生产中经常使用DM码作为 ...

  8. OSGI引入Spring DM实现对服务对象的管理

    一.异同 熟悉Spring的应该也都了解它的IOC的功能,那么对于在OSGI开发环境下,在使用IOC功能时有什么不同呢?最重要的一点就是Spring上下文对象,每个Spring-Powered Bun ...

  9. UVALive - 6837 Kruskal+一点性质(暴力枚举)

    ICPC (Isles of Coral Park City) consist of several beautiful islands. The citizens requested constru ...

随机推荐

  1. Monkey ‘mk_request_header_process’函数输入验证漏洞

    漏洞名称: Monkey ‘mk_request_header_process’函数输入验证漏洞 CNNVD编号: CNNVD-201308-003 发布时间: 2013-08-22 更新时间: 20 ...

  2. 简单的javascript例子

    <html> <head> <title>hongmaju</title> <link rel="shortcut icon" ...

  3. HDU-4272 LianLianKan

    http://acm.hdu.edu.cn/showproblem.php?pid=4272 据说是状态压缩,+dfs什么什么的,可我这样也过了,什么算法都是浮云 ,暴力才是王道.我也归类为状态压缩, ...

  4. poj 3575 Crosses and Crosses(SG函数)

    Crosses and Crosses Time Limit: 3000MS   Memory Limit: 65536K Total Submissions: 3063   Accepted: 11 ...

  5. JavaScript高级程序设计1.pdf

    第一遍通读的时候对JavaScript一点都不了解翻了一整本书仅仅是眼熟的几个名词,现在会写一些js效果了,对程序有一定的认知,又要在读一遍,再加深一些了解,当然以后还会有第三遍第四遍,等完全啃透了这 ...

  6. spring 学习的开源项目

    http://jinnianshilongnian.iteye.com/blog/1508016 http://jinnianshilongnian.iteye.com/blog/2049092 sp ...

  7. .\Obj\uCOSDemo.axf: Error: L6218E: Undefined symbol LCD_Fast_DrawPoint (refe

    这个问题是 没有定义此函数 解决方法是 定义并声明一下 这个函数!!!

  8. HTML5笔记(一)

    1.HTML5提供了一些新的元素和属性,例如<nav>(网站导航块)和<footer>.这些标签较有利于搜索引擎的索引整理,同时更好的帮助小屏幕装置和视频人士使用,除此之外,还 ...

  9. LogMiner学习笔记

    本文是个实战,没有讲太多理论的东西,如需详细理解Oracle LogMiner,请移步:LogMiner详细讲解 首先介绍一下我的oracle环境: 第一步: 确定LogMiner已经安装. 安装Lo ...

  10. pomelo 服务器之间的通信

    master服务器在启动的时候会启动mater服务,生成一个MasterAgent,作为中心服务器. 然后所有服务器,包括mater服务器,都会启动monitor服务,生成一个MonitorAgent ...