但是,在实施数据集成的过程中,由于不同用户提供的数据可能来自不同的途径,其数据内容、数据格式和数据质量千差万别,有时甚至会遇到数据格式不能转换或数据转换格式后丢失信息等棘手问题,严重阻碍了数据在各部门和各应用系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择。

数据仓库的自动ETL研究

下载PDF阅读器

数据仓库的建设是为了能支持决策分析。数据质量是数据仓库项目的生命线所在,也关系到数据分析、数据挖掘的质量。在进行决策分析或数据挖掘时,需要全面、正确地集成数据,这些集成的数据不仅包含企业内部各部门的有关数据,而且还要包含企业外部、甚至竞争对手的相关数据。数据仓库的数据集成是解决海量的、异构、多源的、分布式数据集成问题。解决这一问题,ETL(数据抽取、转换、装载)则是主要的一个技术。本文中我们研究了数据仓库的ETL技术。目的是为了提高数据集成的质量,丰富数据挖掘及数据分析。提出了基于语义元数据自动转换的思想和算法,建立了语义元数据模型,提出元数据语义化的规则。首先,根据数据多源的、异构的、分布式存储的特点,建立标准化、规范化的数据接口,以利于数据的集成。通过对源数据进行标准化、规范化处理,构建数据仓库,实现信息的可视化和深度应用;使主动拉取过来的数据是“可读”的。在这一层对异构问题进行削弱;其次,开发了多线程的抽取、校验守护程序。实现主动从外部“拉取”,而不是从内部“推送”。系统获取需处理文件列表后,会启动多个线程对需处理文件依次处理,相应地对数据文件进行抽取及校验的处理;第三,提出了将元数据语义化的思想和方法,不断完善语义元数据模型。第四,提出了基于语义元数据的自动转换的思想和算法。基于本体论思想,面向数据仓库应用,并借鉴本体在AI等信息系统领域的成功经验来研究基于语义元数据的数据转换,提高数据集成的质量,对获取规范、可靠的知识也有着重要的理论意义和实用价值。最后,我们根据电信领域数据仓库的建设,建立了数据仓库的原型系统,将客户资料用于基于语义元数据的自动转换,实践证明语义元数据应用于转换是切实有效可行的。并且对研究在线的、探测式的数据挖掘,提供更加灵活、准确的数据准备。丰富数据挖掘功能。

数据仓库的自动ETL研究的更多相关文章

  1. 数据仓库系列之ETL中常见的增量抽取方式

    为了实现数据仓库中的更加高效的数据处理,今天和小黎子一起来探讨ETL系统中的增量抽取方式.增量抽取是数据仓库ETL(数据的抽取(extraction).转换(transformation)和装载(lo ...

  2. 自动驾驶研究回顾:CVPR 2019摘要

    我们相信开发自动驾驶技术是我们这个时代最大的工程挑战之一,行业和研究团体之间的合作将扮演重要角色.由于这个原因,我们一直在通过参加学术会议,以及最近推出的自动驾驶数据集和基于语义地图的3D对象检测的K ...

  3. 数据仓库建模与ETL实践技巧

    数据分析系统的总体架构分为四个部分 —— 源系统.数据仓库.多维数据库.客户端(图一:pic1.bmp) 其中,数据仓库(DW)起到了数据大集中的作用.通过数据抽取,把数据从源系统源源不断地抽取出来, ...

  4. 为什么建立数据仓库需要使用ETL工具?

    在做项目时是不是时常让客户有这样的困扰: 1.开发时间太长 2.花费太多 3.需要太多资源 4.集成多个事务系统数据总是需要大量人力成本 5.找不到合适的技能和经验的人 6.一旦建立,数据仓库无法足够 ...

  5. [转载]DW数据仓库建模与ETL的实践技巧

    一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源S ...

  6. 数据仓库建模与ETL的实践

    一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源S ...

  7. 数据仓库建模与ETL的实践技巧(转载)

    一.Data仓库的架构 Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源S ...

  8. 数据仓库系列之ETL过程和ETL工具

    上周因为在处理很多数据源集成的事情一直没有更新系列文章,在这周后开始规律更新.在维度建模中我们已经了解数据仓库中的维度建模方法以及基本要素,在这篇文章中我们将学习了解数据仓库的ETL过程以及实用的ET ...

  9. 《数据仓库ETL工具箱》读书笔记

    在本书中,你将学习到以下内容: 规划&设计你的ETL系统 从多种可能的架构中选出最合适的 对实施过程进行管理 管理日常的操作 为ETL过程建立开发/测试/生产环境 理解不同的后台数 ...

随机推荐

  1. php图形图像处理之生成验证码

    \(^o^)/~ 现在网上越来越离不开验证码了,不知道小伙伴们知不知利用php的GD库就可以生成验证码,Σ(⊙▽⊙"a ...... 首先介绍几个需要用的函数. 1.imagesetpixe ...

  2. ionic 实现双击返回键退出应用功能

    ionic 实现双击返回键退出应用功能 keywords cordova,ngcordova,phonegap,ionic,双击,返回键,退出 例子 准备Toast插件,提示用,用户体验好点,不是必须 ...

  3. Facebook 和 Google 如何激发工程师的创造力

    原文链接:http://kb.cnblogs.com/page/193450/ 今天终于“朝圣”了两个伟大的公司——Facebook和Google,对创造力和驱动力的来源有了更多的理解,尤其是对于典型 ...

  4. mysql查看连接数和状态,设置连接数和超时时间

    1.mysql> show status like '%connect%'; Connections,试图连接到(不管是否成功)MySQL服务器的连接数.   Max_used_connecti ...

  5. C语言预处理命令

    1.#error Directive (C/C++) The #error directive emits a user-specified error message at compile time ...

  6. 【JQuery NoviceToNinja系列】目录

    [JQuery NoviceToNinja系列]目录 [JQuery NoviceToNinja系列]01 开篇 Html页面设计和布局

  7. 《JavaScript高级程序设计》

    第二章在html中使用Javascript2.1<script>在使用<script>嵌入JS代码时,不要再代码中的任何地方出现"</script>&qu ...

  8. asp.net @reqister指令

    @register指令通过声明将自定义 ASP.NET 服务器控件添加到页或用户控件中. 1.@register 指令有两种用法如下 <%@ Register tagprefix="t ...

  9. ASP.NET 应用程序安全

    原文:http://msdn.microsoft.com/zh-cn/magazine/hh708755.aspx 一.跨站点脚本 简介 XSS 攻击是指将脚本恶意注入用户的浏览会话,这通常在用户不知 ...

  10. LINUX下的时间与时区的设置

    在RHEL下,如果只装英文版系统,设置好时区以后(上海时间,UTC) 在命令行下用date命令查看,总是与实际的北京时间差8小时,其实硬件时间都是准确的.会带来视觉不便. 今天下决心解决此问题,不过也 ...