通用数据挖掘[ZZ]】的更多相关文章

一.什么是数据挖掘?许多人认为数据挖掘更像是一门哲学,或数学的组成部分,而不是业务需求的实际解决方案.您可以从采用的各种定义中看出这一点,例如:“数据挖掘是对非常大型的数据进行的研究和分析,采用自动或半自动的程序,找出先前未知的.有趣的.可理解的相关性.”或者“数据挖掘是指对数据中固有的先前未知的潜在有用信息的重要提取.”这些定义都有各自的道理.尽管数据挖掘本身就是一门学科,但它的出现还不到10 年时间,其起源可追溯到二十世纪五十年代人工智能的早期发展.在此期间,模式识别和基于规则推理的发展提供…
编者的话:本文对数据挖掘概念的产生,数据挖掘与常规数据分析的主要区别,所能解决的几大类问题和所应用的领域都有着非常清晰的论述.作者在此篇文章中认为数据挖掘最重要的要素是分析人员的相关业务知识和思维模式.丰富的业务知识是设计有效的相关变量的必要条件,而分析人员的思维模式从另外一个方面也保障了设计变量的结构化和完整性.所以我们在掌握丰富的业务知识同时,如果能够按照正确的思维模式去思考问题,将会发现解决问题并不是很困难的. 一.           数据挖掘的本质 一般来说,比较狭义的观点认为数据挖掘…
一.时间序列数据挖掘 时间序列是数据存在的特殊形式,序列的过去值会影响到将来值,这种影响的大小以及影响的方式可由时间序列中的趋势周期及非平稳等行为来刻画.一般来讲,时间序列数据都具有躁声.不稳定.随机性等特点,对于这类数据的预测方法目前主要有自动回归滑动平均(ARMA)和神经网络等,但这些方法有一些缺点是很难克服的,ARMA包含的是线性行为,对于非线性的因素没有包含;而神经网络的结构需要事先指定或应用启发式算法在训练过程中修正;同时神经网络得到的解是局部最优而非全局最优.比较而言支持向量机( S…
传统数据挖掘/机器学习库存在的问题         缺少一个活跃的技术社区         扩展性差         文档化差,缺少实例         不开源.商业化库         通常由研究机构开发         实施性差 Apache Mahout长处         技术社区活跃         扩展性好         文档化好.实例丰富         100%源码开源         易于使用 Apache Mahout是什么         基于MapReduce开发的数据…
从原理上说,数据挖掘应该可以应用到任何信息存储方式的知识挖掘中,但是挖掘的挑战性和技术会因为源数据的存储类型的不同而不同.特别是,近年来的研究表明数据挖掘所涉及的数据存储类型越来越丰富,除了一些有通用价值的模型.构架等研究外,也开展了一些针对复杂或新型数据存储方式下的挖掘技术或算法的研究.本节将针对一些主要的数据存储类型中的数据挖掘的问题进行介绍. 一个事务数据库是对事务型数据的收集.1993年,当Agrawal等开始讨论数据挖掘问题时,是以购物篮分析(Market Basket Analysi…
“我们把世界看成数学,并且把你也看成数学”——用这句话来说明数据挖掘技术的复合性和应用的广泛性似乎再好不过.如今,虽然一些行业在应用这一技术上仍然缺乏足够的主动,但一个不能阻挡的趋势是:已经有越来越多的人在快乐并有效地使用这一技术,同时不由自主地成为“挖掘”的对象. 禽流感该如何更好地监控?今天你写Blog了吗? 你是否觉得这两个问题连在一起问很无厘头? 事实上,美国一家公司正在试图让这两个事件之间的关系日渐明了.这家公司目前正在通过从全球的Blog网页中挖掘出和禽流感相关的信息,从而建立一个预…
1.什么是关联规则 "尿布与啤酒"的故事大家都有听过,这里就不罗嗦了. 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的.    数据关联是数据库中存在的一类重要的可被发现的知识.若两个或多个变量的取值之间存在某种规律性,就称为关联.关联可分为简单关联.时序关联.因果关联.关联分析的目的是找出数据库中隐藏的关联网.有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度.…
数据挖掘就是在数据库中查找所需数据的过程,它是随着数据库产生的一门学科.近几年,数据库的发展还是非常迅速的,数据挖掘也成为热门技术,学习的人络绎不绝.下面给大家介绍的就是数据挖掘经典书籍及数据挖掘书籍下载,对数据挖掘有兴趣的朋友请看下文. (一)数据挖掘经典书籍 数据挖掘经典书籍之——<数据挖掘导论> <数据挖掘导论>全面介绍了数据挖掘的理论和方法,旨在为读者提供将数据挖掘应用于实际问题所必需的知识.本书涵盖五个主题:数据.分类.关联分析.聚类和异常检测.除异常检测外,每个主题都包…
NO.1 Data Mining 和统计分析有什么不同? 硬要去区分Data Mining和Statistics的差异其实是没有太大意义的.一般将之定义为Data Mining技术的CART.CHAID或模糊计算等等理论方法,也都是由统计学者根据统计理论所发展衍生,换另一个角度看,Data Mining有相当大的比重是由高等统计学中的多变量分析所支撑.但是为什么Data Mining的出现会引发各领域的广泛注意呢?主要原因在相较于传统统计分析而言,Data Mining有下列几项特性: 1.处理…
实验一    分类技术及其应用 实习要求: 基于线性回归模型拟合一个班学生的学习成绩,建立预测模型.数据可由自己建立100个学生的学习成绩. 1)    算法思想: 最小二乘法 设经验方程是y=F(x),方程中含有一些待定系数an,给出真实值{(xi,yi)|i=1,2,...n},将这些x,y值 代入方程然后作差,可以描述误差:yi-F(xi),为了考虑整体的误差,可以取平方和,之所以要平方是考虑到误差可正可负直接相加可以相互抵消,所以记 误差为: e=∑(yi-F(xi))^2 它是一个多元…