数据仓库的自动ETL研究
但是,在实施数据集成的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各应用系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。
数据仓库的自动ETL研究
数据仓库的建设是为了能支持决策分析。数据质量是数据仓库项目的生命线所在,也关系到数据分析、数据挖掘的质量。在进行决策分析或数据挖掘时,需要全面、正确地集成数据,这些集成的数据不仅包含企业内部各部门的有关数据,而且还要包含企业外部、甚至竞争对手的相关数据。数据仓库的数据集成是解决海量的、异构、多源的、分布式数据集成问题。解决这一问题,ETL(数据抽取、转换、装载)则是主要的一个技术。本文中我们研究了数据仓库的ETL技术。目的是为了提高数据集成的质量,丰富数据挖掘及数据分析。提出了基于语义元数据自动转换的思想和算法,建立了语义元数据模型,提出元数据语义化的规则。首先,根据数据多源的、异构的、分布式存储的特点,建立标准化、规范化的数据接口,以利于数据的集成。通过对源数据进行标准化、规范化处理,构建数据仓库,实现信息的可视化和深度应用;使主动拉取过来的数据是“可读”的。在这一层对异构问题进行削弱;其次,开发了多线程的抽取、校验守护程序。实现主动从外部“拉取”,而不是从内部“推送”。系统获取需处理文件列表后,会启动多个线程对需处理文件依次处理,相应地对数据文件进行抽取及校验的处理;第三,提出了将元数据语义化的思想和方法,不断完善语义元数据模型。第四,提出了基于语义元数据的自动转换的思想和算法。基于本体论思想,面向数据仓库应用,并借鉴本体在AI等信息系统领域的成功经验来研究基于语义元数据的数据转换,提高数据集成的质量,对获取规范、可靠的知识也有着重要的理论意义和实用价值。最后,我们根据电信领域数据仓库的建设,建立了数据仓库的原型系统,将客户资料用于基于语义元数据的自动转换,实践证明语义元数据应用于转换是切实有效可行的。并且对研究在线的、探测式的数据挖掘,提供更加灵活、准确的数据准备。丰富数据挖掘功能。
数据仓库的自动ETL研究的更多相关文章
- 数据仓库系列之ETL中常见的增量抽取方式
		为了实现数据仓库中的更加高效的数据处理,今天和小黎子一起来探讨ETL系统中的增量抽取方式.增量抽取是数据仓库ETL(数据的抽取(extraction).转换(transformation)和装载(lo ... 
- 自动驾驶研究回顾:CVPR 2019摘要
		我们相信开发自动驾驶技术是我们这个时代最大的工程挑战之一,行业和研究团体之间的合作将扮演重要角色.由于这个原因,我们一直在通过参加学术会议,以及最近推出的自动驾驶数据集和基于语义地图的3D对象检测的K ... 
- 数据仓库建模与ETL实践技巧
		数据分析系统的总体架构分为四个部分 —— 源系统.数据仓库.多维数据库.客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了数据大集中的作用.通过数据抽取,把数据从源系统源源不断地抽取出来, ... 
- 为什么建立数据仓库需要使用ETL工具?
		在做项目时是不是时常让客户有这样的困扰: 1.开发时间太长 2.花费太多 3.需要太多资源 4.集成多个事务系统数据总是需要大量人力成本 5.找不到合适的技能和经验的人 6.一旦建立,数据仓库无法足够 ... 
- [转载]DW数据仓库建模与ETL的实践技巧
		一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源S ... 
- 数据仓库建模与ETL的实践
		一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源S ... 
- 数据仓库建模与ETL的实践技巧(转载)
		一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源S ... 
- 数据仓库系列之ETL过程和ETL工具
		上周因为在处理很多数据源集成的事情一直没有更新系列文章,在这周后开始规律更新.在维度建模中我们已经了解数据仓库中的维度建模方法以及基本要素,在这篇文章中我们将学习了解数据仓库的ETL过程以及实用的ET ... 
- 《数据仓库ETL工具箱》读书笔记
		在本书中,你将学习到以下内容: 规划&设计你的ETL系统 从多种可能的架构中选出最合适的 对实施过程进行管理 管理日常的操作 为ETL过程建立开发/测试/生产环境 理解不同的后台数 ... 
随机推荐
- 6、android开发中遇到的bug整理
			1.使用actionProvider时出现的问题 bug复现: 解决方案: //import android.support.v4.view.ActionProvider; import androi ... 
- 【Search Insert Position 】cpp
			题目: Given a sorted array and a target value, return the index if the target is found. If not, return ... 
- HDU 5294 Tricks Device 最短路+最大流
			题目链接: http://acm.hdu.edu.cn/showproblem.php?pid=5294 题意: 给你个无向图: 1.求最少删除几条边就能破坏节点1到节点n的最短路径, 2.最多能删除 ... 
- 【BZOJ】【1052】【HAOI2007】覆盖问题
			二分+贪心 首先二分L,转化成判定问题…… 但是判定不会判啊QAQ orz hzwer,用一个最小的矩形框住所有点后,直接往矩形的角上摆正方形……第二个用同样的方法摆,最后判一下剩下的能否被完全覆盖 ... 
- js获得浏览器页面高宽
			不同的浏览器可能会有一些差别,使用的时候请先进行测试. var s = ""; s += " 网页可见区域宽:"+ document.body.clientWi ... 
- 常用的CSSreset整理
			说道CSSreset,大家又爱又恨,cssreset好处是,覆盖了浏览器的默认样式,使前端攻城狮能更加精确的添加样式,各个浏览器中的界面效果都相同.可是大量的.固定的CSSreset也给网页加载带来一 ... 
- 持久化消息队列memcacheq的安装配置
			MemcacheQ 是一个基于 MemcacheDB 的消息队列服务器. 一.memcacheq介绍 特性: 1.简单易用 2.处理速度快 3.多条队列 4.并发性能好 5.与memcache的协议兼 ... 
- ajax 技术和原理分析
			ajax所包含的技术 大家都知道ajax并非一种新的技术,而是几种原有技术的结合体.它由下列技术组合而成. 1.使用CSS和XHTML来表示. 2. 使用DOM模型来交互和动态显示. 3.使用XMLH ... 
- HDU 1163 Eddy's digital Roots(模)
			HDU 1163 题意简单,求n^n的(1)各数位的和,一旦和大于9,和再重复步骤(1),直到和小于10. //方法一:就是求模9的余数嘛! (228) leizh007 2012-03-26 21: ... 
- (转) C++ static、const和static const 以及它们的初始化
			const定义的常量在超出其作用域之后其空间会被释放,而static定义的静态常量在函数执行后不会释放其存储空间. static表示的是静态的.类的静态成员函数.静态成员变量是和类相关的,而不是和类的 ... 
