从《数据挖掘概念与技术》到《Web数据挖掘》
从《数据挖掘概念与技术》到《Web数据挖掘》
认真读过《数据挖掘概念与技术》的第一章后,对数据挖掘有了更加深刻的了解。数据挖掘是知识发展过程的一个步骤。知识发展的过程可以分为:数据清洗(去噪和去除不一致数据)、数据集成(多个数据源组合在一起)、数据选择(从数据库中提取和分析与任务相关的数据)、数据变换(汇总、聚集,变成统一形式)、数据挖掘(智能方法提取数据模式)、模式评估(根据兴趣度度量、识别代表知识的真正有趣的模式)、知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。数据的基本组成形式包括:数据库数据、数据仓库数据(异构数据源在单个站点以统一的模式组织的存储)、事物数据、其他数据(时间数据挖掘、计算机网络数据、空间数据、文本数据、多媒体数据和Web数据)。数据的可挖掘的模式包括:类/概念描述:特征化与区别、挖掘频繁模式、关联和相关性(频繁模式包括频繁项集、频繁子序列和频繁子结构)、用于预测分析的分类和回归(导出的模型可以用各种形式表示,如分类规则、决策树、数学公式、神经网络)、聚类分析、离群点分析;数据挖掘作为一个交叉学科,设计统计学、机器学习、模式识别、数据库系统与数据仓库、信息检索、算法等;数据挖掘的主要问题包括:挖掘方法、用户交互、有效性与可伸缩性、数据类型的多样性、数据挖掘与社会。
通过对引言部分的总结,发现Web数据可以作为数据挖掘领域的有趣分支进行深入钻研,所以今后的方向打算对《Web数据挖掘》进行深入探讨。
Web数据挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。Web挖掘的任务可以换分为三种:Web结构挖掘(从表征Web结构的超链接中寻找有用的知识,例如找寻重要的网页)、Web内容挖掘(从网页内容中抽取有用的信息和知识,自动进行聚类和分类,例如商品描述、论坛回帖等)、Web使用挖掘(从记录每位用户点击情况的使用日志中挖掘用户的访问模式,例如点击流数据的预处理)。Web挖掘过程中,数据收集是一项艰巨的任务,需要爬取大量的网页。之后就是进行数据预处理、Web数据挖掘和数据后续处理。
算法预备:关联规则
关联规则在网页和纯文本文件中,来找群单词见并发关系和Web的使用模式。
关联规则挖掘是指"给定一个事物集合T,找出T中多有满足支持度和置信度分别高于一个用户指定的最小支持度(T中包含X并Y的事物的百分比)和最小置信度(条件概率函数)"。在大量的关联规则挖掘算法中,尽管效率各不相同(是否对效率进行研究),但是在同样的关联规则定义下,他们的输出结果应该一样。
Apriori算法
Apriori算法分为两步进行;(1)生成所有频繁项目集(一个频繁项目集是一个支持度高于最小支持度的项集)(2)从频繁项目集中生成所有可信关联规则(一个可信关联规则是置信度大于最小置信度的规则)
频繁项集中的难点和重点是合并和剪枝,合并:将两个(k-1)-频繁项目集合并产生一个可能的k-候选项集c。两个频繁项目集f1和f2的前k-2个项目都是相同,只有最后一个项目是不同的。随后c被加入到候选项集集合Ck中。剪枝:从合并步中得到的候选项集集合并不是最终的Ck。需要判断c的所有(k-1)-子集是否都在Fk-1中。如果其中任何一个子集不在Fk-1中,则根据向下封闭原理,c必然不可能是频繁项目集,将c从候选集Ck中剔除。
关联规则生成算法中,需要记住一点,如果 是一条关联规则,那么所有
是一条关联规则,那么所有 也必然是关联规则。
也必然是关联规则。
关联规则的挖掘可以应用在关系数据表上进行,只需要先把表数据转换成事物数据。
从《数据挖掘概念与技术》到《Web数据挖掘》的更多相关文章
- 【读书笔记-数据挖掘概念与技术】数据仓库与联机分析处理(OLAP)
		之前看了认识数据以及数据的预处理,那么,处理之后的数据放在哪儿呢?就放在一个叫“数据仓库”的地方. 数据仓库的基本概念: 数据仓库的定义——面向主题的.集成的.时变的.非易失的 操作数据库系统VS数据 ... 
- 数据挖掘概念与技术15--为快速高维OLAP预计算壳片段
		1. 论数据立方体预计算的多种策略的优弊 (1)计算完全立方体:需要耗费大量的存储空间和不切实际的计算时间. (2)计算冰山立方体:优于计算完全立方体,但在某种情况下,依然需要大量的存储空间和计算时间 ... 
- 利用python实现《数据挖掘——概念与技术》一书中描述的Apriori算法
		from itertools import combinations data = [['I1', 'I2', 'I5'], ['I2', 'I4'], ['I2', 'I3'], ['I1', 'I ... 
- 大数据的常用算法(分类、回归分析、聚类、关联规则、神经网络方法、web数据挖掘)
		在大数据时代,数据挖掘是最关键的工作.大数据的挖掘是从海量.不完全的.有噪声的.模糊的.随机的大型数据库中发现隐含在其中有价值的.潜在有用的信息和知识的过程,也是一种决策支持过程.其主要基于人工智能, ... 
- 你知道吗?Web的26项基本概念和技术
		这是我在网上看到一篇不错的文章,拿出来与大家分享一下:希望有所帮助 作者: 小鱼 来源: 前端里 发布时间: 2014-08-01 22:56 阅读: 10477 次 推荐: 51 原文链 ... 
- Web的26项基本概念和技术
		---恢复内容开始--- Web开发是比较费神的,需要掌握很多很多的东西,特别是从事前端开发的朋友,需要通十行才行.今天,本文向初学者介绍一些Web开发中的基本概念和用到的技术,从A到Z总共26项,每 ... 
- 【JavaScript】你知道吗?Web的26项基本概念和技术
		Web开发是比较费神的,需要掌握很多很多的东西,特别是从事前端开发的朋友,需要通十行才行.今天,本文向初学者介绍一些Web开发中的基本概念和用到的技术,从A到Z总共26项,每项对应一个概念或者技术. ... 
- PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品,产品设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准),具备完备的数据准备、模型构建、模型评估、模型管理、海量数据处理和高纬数据可视化分析能力。
		http://www.meritdata.com.cn/article/90 PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品, ... 
- 20145226夏艺华 网络对抗技术EXP8 WEB基础实践
		20145226夏艺华 网络对抗技术EXP8 WEB基础实践 实验问题回答 1.什么是表单? 表单在网页中主要负责数据采集功能.一个表单有三个基本组成部分: 表单标签:这里面包含了处理表单数据所用CG ... 
随机推荐
- c++ 声明和定义的区别
			从编译原理上来说,声明是仅仅告诉编译器,有个某类型的变量会被使用,但是编译器并不会为它分配任何内存.而定义就是分配了内存. int a;在外面是作为一个语句,这就是定义,会构造对象,定义本身也是声明. ... 
- Hive之 数据存储
			首先,Hive 没有专门的数据存储格式,也没有为数据建立索引,用户可以非常自由的组织 Hive 中的表,只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据. 其次 ... 
- spring下的多线程
			链接 1,http://haidaoqi3630.iteye.com/blog/1920944 2,http://www.importnew.com/27440.html .............. ... 
- 移植wpa_supplicant2.5及界面配置wifi(原创)
			JP5G开发机上需要图形界面配置 wifi网络,为此移植了wpa_supplicant2.5. 1.参考wpa_supplicant-2.5移植与使用l http://blog.csdn.net/hk ... 
- Spring 部署Tomcat 404 错误解决方案
			将Spring项目部署到tomcat后,访问网页出现404错误 HTTP Status 404 – Not Found The origin server did not find a current ... 
- 查看ms SQL Server存储过程,函数的内容
			方法1:最简单的,右键单击要查看的存储过程,选择“修改”: 方法2: SELECT definition FROM solar.sys.sql_modules WHERE [object_id]=(O ... 
- [转]VS2010 常用插件
			本文来自:http://developer.51cto.com/art/201403/432954_all.htm 虽然VS2010IDE功能已经非常强大了,但是在有些地方还是可以优化,或者说有更合适 ... 
- F5 SNAT NAT相关
			SNAT: 跟路由器.防火墙一样,BIG-IP系统提供NAT (Network Address Translation)和SNAT(Secure Network Address Translation ... 
- Thinkphp 联表查询 表名要全名
			我有2个表 表1. 表2 已知表2的user_id 查询满足 表2.wb_id=表1.id 表1的内容 最佳答案 i 2013年11月15日 $result = M()->table(array ... 
- C#调用Oracle带输出数据集的存储过程
			1.创建一个带输出数据集的Oracle存储过程 create or replace procedure PRO_test(in_top in number,cur_out out sys_refcur ... 
