Carlo Batini, Cinzia Cappiello, Chiara Francalanci, and Andrea Maurino. 2009. Methodologies for data quality assessment and improvement. ACM Comput. Surv. 41, 3, Article 16 (July 2009), 52 pages. (gs:173)

这篇论文是关于数据质量方法的综述,全文共52页(其中正文34页,附录18页),对现有的"data quality methodologies"进行了系统比较。

正文首先对这个领域进行了简单介绍(S1),然后介绍了研究数据质量方法(methodology)的六个角度(phases&steps, strategies&techniques, dimensions, costs, types of data, types of information systems) (S2),之后从上述六个角度对现有的一些主流数据质量方法进行了比较分析(S3),最后是总结和open issues。在附录里共介绍了13种data quality methodologies.

以下是论文的一些摘要和笔记:

1. 摘要里提到,当前数据质量领域研究热点在“defining methodologies that help the selection, customization, and application of data quality assessment and improvement techniques”。

2. common phases of DQ methodologies (DQM)(S2.1)
(1) state reconstruction (optional): 收集上下文信息 (DQM中一般不讨论这个步骤)
(2) assessment/measurement: 根据相关的数据维度,度量数据集的质量。
    measurement: “measuring the value of a set of data quality dimensions”
    assessment: “when such measurements are compared to reference values, in order to enable a diagnosis of quality”

(3) improvement: 关于达到数据质量目标而选择的步骤、策略和技术

3. assessment phase的步骤(S2.1):
(1) data analysis: 关心data schemas, data, related architectural and management rules
(2) DQ requirements analysis: 跟数据的用户和管理员确定存在的质量问题和需要达到的目标
(3) identification of critical areas: 选中最重要的databases & data flows,以进行量化评估
(4) process modeling: 数据产生和更新的流程模型
(5) measurement of quality: 选出受第二步识别的质量问题影响的quality dimensions,定义相关的metrics.

在assessment phase,metadata可提供一些数据理解和评估需要的信息。

4. improvement phase的步骤(S2.1):
(1) evaluation of costs
(2) assignment of process responsibilities
(3) assignment of data responsibilities
(4) identification of the causes of errors
(5) selection of strategies and techniques
(6) design of data improvement solutions
(7) process control
(8) process redesign
(9) improvement management
(10) improvement monitoring

5. 主要有两类strategies (S2.2)
data-driven strategies: 通过直接修改数据的值来提高数据质量。
process-driven strateiges: 通过重新设计数据产生与修改的流程来提高质量。

6. data-driven strategies用到的improvement techniques有: (S2.2)
(1) acquisition of new data:获取更高质量的数据来替换原有引起质量问题的数据
(2) standardization(or normalization): 比如使用正式名称来取代昵称或简称
(3) record linkage(记录链结): 识别多个表中存在的可能指向同一个对象的数据
(4) data and schema integration: 对异质数据源的数据提供统一的视图。存在三种类型的异质:
        technological heterogeneities: 原因是使用的产品不同
        schema heterogeneities: 是由于使用了不同的数据模型(比如一个用关系数据库模型,另一个用XML数据模型);或虽然使用了同一种数据模型,但表示方式不一样
        instance-level heterogeneities: 不同源为同一个对象提供了冲突的数据
(5) source trustworthiness: 根据数据质量来选择数据源
(6) error localization and correction: 通过一些规则来发现存在的数据质量问题并予以修正
(7) cost optimization

7. process-driven strategies主要有两种techniques: (S2.2)
(1) process control: 在一些关键点(新数据产生、数据更新、数据被访问等)进行检查和控制
(2) process redesign: 从根源上消除产生低质量数据。

从长远来看,process-driven techniques要比data-driven tehchniques的效果好。

8. (S2.3) 介绍了最终要的六种quality dimension
(1) accuracy: DMQ中考虑的是syntactic accuracy.
(2) completeness: “the degree to which a given data collection includes data describing the corresponding set of real-world objects.”
    在关系数据库领域,null value与completeness比较相关。null的含义包括“不存在”、“存在但缺失”、“不知道是否存在”。
(3) consistency: 是否违法针对数据项集合定义的一套语义规则。在关系型理论中,存在两种inategrity constraints: intra-relation constraints(年龄必须在0-120岁之间),inter-relation constraints
(4) time-related dimensions: currency(当前性?), volatility(易变性) and timeliness(及时性)

9. (S2.4) cost of data quality由两部分组成:
(1) cost of the data quality program: 被认为是一种预防性的成本。
(2) cost associated with poor data quality: process costs(比如由于数据错误导致需要重新执行整个流程引起的成本), opportunity costs(“due to lost and missed revenues”)
要考虑这两部分成本的相互作用:将成本投入到前者有助于减低后者的成本。

10. (S2.5) 介绍了数据的三种类型: structured data,  semistructured data (比如XML), unstructrued data (data quality 领域主要针对前两种数据类型研究)

另一种从制造品的角度对数据进行分类:raw data items、information products、component data items

11. (S2.6) 介绍了information systems的类型(根据系统对数据、流程和管理集成支持的程度来分类,集成的程度越低,能使用的技术就越复杂)
monolithic information system
data warehouse
distributed information system
cooperative information system
Web information system
peer-to-peer infomation system

[论文笔记] Methodologies for Data Quality Assessment and Improvement (ACM Comput.Surv, 2009) (1)的更多相关文章

  1. [论文笔记] Methodologies for Data Quality Assessment and Improvement (ACM Comput.Surv, 2009) (2)

    本篇博文主要对DMQ(S3.7)的分类进行了研读. 1. 这个章节提出了一种DQM的分类法(如下图) 由上图可见,该分类法的分类标准是对assessment & improvement阶段的支 ...

  2. 深度学习论文笔记:Fast R-CNN

    知识点 mAP:detection quality. Abstract 本文提出一种基于快速区域的卷积网络方法(快速R-CNN)用于对象检测. 快速R-CNN采用多项创新技术来提高训练和测试速度,同时 ...

  3. Deep Learning论文笔记之(八)Deep Learning最新综述

    Deep Learning论文笔记之(八)Deep Learning最新综述 zouxy09@qq.com http://blog.csdn.net/zouxy09 自己平时看了一些论文,但老感觉看完 ...

  4. 论文笔记系列-Neural Network Search :A Survey

    论文笔记系列-Neural Network Search :A Survey 论文 笔记 NAS automl survey review reinforcement learning Bayesia ...

  5. Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记

    Deep Reinforcement Learning for Visual Object Tracking in Videos 论文笔记 arXiv 摘要:本文提出了一种 DRL 算法进行单目标跟踪 ...

  6. Self-paced Clustering Ensemble自步聚类集成论文笔记

    Self-paced Clustering Ensemble自步聚类集成论文笔记 2019-06-23 22:20:40 zpainter 阅读数 174  收藏 更多 分类专栏: 论文   版权声明 ...

  7. 【论文笔记系列】AutoML:A Survey of State-of-the-art (下)

    [论文笔记系列]AutoML:A Survey of State-of-the-art (上) 上一篇文章介绍了Data preparation,Feature Engineering,Model S ...

  8. 论文笔记[Slalom: Fast, Verifiable and Private Execution of Neural Networks in Trusted Hardware]

    作者:Florian Tramèr, Dan Boneh [Standford University] [ICLR 2019] Abstract 为保护机器学习中隐私性和数据完整性,通常可以利用可信 ...

  9. 【论文笔记】Learning Fashion Compatibility with Bidirectional LSTMs

    论文:<Learning Fashion Compatibility with Bidirectional LSTMs> 论文地址:https://arxiv.org/abs/1707.0 ...

随机推荐

  1. Dynamic CRM 2013学习笔记(二十五)JS调用web service 实现多条记录复制(克隆)功能

    前面介绍过如何克隆一条当前的记录: Dynamic CRM 2013学习笔记(十四)复制/克隆记录 , 主要是通过界面上加一个字段,单击form上的clone 按钮时,改变这个字段的值以触发插件来实现 ...

  2. Eclipse配置详解(包括智能提示设置、智能提示插件修改,修改空格自动上屏、JDK配置、各种快捷键列表……)

    Eclipse编辑器基本设置 1.添加行号 在边缘处右键 2.改字体 字体的一般配置 3.去掉拼写错误检查 4.Java代码风格 代码格式化 Ctrl + Shift + F 之后点击右边的New按钮 ...

  3. 架构模式对象与关系结构模式之:标识域(Identity Field)

    一:标识域(Identity Field) 标识域(Identity Field)可以理解为主键.使用领域模型和行数据入口的时候,就要使用标识域,因为这两个对象代表的是唯一存在的那个数据记录.事务脚本 ...

  4. Django实现一个相片管理系统01

    有些日子没写笔记,O(∩_∩)O哈哈~实在是肚子没有墨水啦!今天不写数据结构啦!多怀念研究数据结构的日子啊! 可是呢!最近有个项目要搞图像管理方面的,具体内容就不说啦!我们今天来实现一个简单的相册管理 ...

  5. paip.最省内存的浏览器评测 cah

    paip.最省内存的浏览器评测 cah 作者Attilax  艾龙,  EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/at ...

  6. javaweb学习总结(十六)——JSP指令

    一.JSP指令简介 JSP指令(directive)是为JSP引擎而设计的,它们并不直接产生任何可见输出,而只是告诉引擎如何处理JSP页面中的其余部分. 在JSP 2.0规范中共定义了三个指令: pa ...

  7. css解决谷歌,360浏览器默认最小字体为12px问题

    当我们设置前台html页面样式问题字体小于12px;时,会发现不管怎么设置小于12px字体,在谷歌.360浏览器上都不生效. 但在火狐等浏览器上却可以正常设置,当你打开谷歌360的设置后会发现,它们设 ...

  8. How to get blob data using javascript XmlHttpRequest by sync

    Tested: Firefox 33+ OK Chrome 38+ OK IE 6 -- IE 10 Failed Thanks to 阮一峰's blog: http://www.ruanyifen ...

  9. 淘宝开放平台TOP测试环境

    沙箱测试环境 淘宝沙箱环境是淘宝开放平台(TOP)提供给独立软件开发商(ISV)的测试环境.数据完全独立,大部分API已经部署到该环境中供ISV进行API的功能测试,对与APP的调用量无限制,但获取大 ...

  10. Revit2013工具栏工具无法显示BUG

    该BUG在Revit2013版中存在,主要症状就是当你激活某些工具的时候,上部工具栏中本应该显示的上下文工具显示不出来,比如当你选中模型中的风管的时候,正常情况下工具栏应该是这个样子. 但是在Revi ...