[译] 使用Using Data Quality Services (DQS) 清理用户数据
SQL Server 2012 Data Quality Services (DQS) 允许你使用自己的知识库来清洗数据. 在本文中我会展示一个简单示例.
使用DQS清理步骤如下:
A. 建立DQS 知识库
B. 建立DQS项目然后根据知识库清理数据
在SQL Server database中用下面脚本创建样本数据:
CREATE TABLE MyCustomers
(
CustomerID INT,
CustomerName NVARCHAR(255),
City NVARCHAR(32),
Province NVARCHAR(32),
LastUpdate DATETIME
)
INSERT INTO MyCustomers
VALUES (1, 'Consolidate Co Ltd', 'Miami', 'FL','2013-01-01'),
(2, 'Consolidation Company Ltd', 'New York', 'NY','2013-01-01'),
(3, N'什锦的件', 'LA', 'CA','2013-01-01'),
(4, 'Chop-suey Chinese', 'Los Angeles', 'CA', '2013-03-03'),
(5, 'Big Cheese, The', 'Redmond', 'WA', '2013-02-02'),
(6, 'THE BIG CHEESE', 'Chicago', 'Il','2013-02-02'),
(7, 'To Be Filled Later', 'Redmond', 'Wash.', '2013-01-01')
A. 建立DQS 知识库
1. 先运行SQL Server 2014 Data Quality Server Installer 安装DQS
注: DQS只能安装在企业版或者商业智能版的SQL 上

安装完毕以后引擎新增的DQS_MAIN数据库,其中新增了三个Role,如果你要让其他用户访问DQS,那么必须赋予他们其中一个Role才可以访问DQS

2.装好以后启动 Data Quality Client.

3. 点击 New Knowledge Base. Name字段输入 MyCustomerKB, 确定 Domain Management已经被选中,然后点击 Next

4. 点击 Create Domain 图标.

5. 弹出框里面 Domain Name写 CustomerName . 还有一个可选项 Format Output to . 可以选成 Capitalize.

6. 重复相同的步骤创建 City 和 State域(暂且叫域吧,不知道官方翻译成什么) .

7. 选择 City 域, 点击 domain values 标签. 在这个界面,你可以输入所有有效值或者无效值.
- 点击 Add new domain value 图标.输入一个正确值, 比如Los Angeles,然后回车.
- 点击 Add new domain value 图标.输入一个无效值, 比如United States, 点击 Type 列的下拉框,然后选择黄色感叹号(yellow triangle, 无效值) (这里有三个类型. 正确,无效和错误; 无效 (invalid) 表示该值在本域中无效,但是可能在另外一个域中有效. 例如 United States 不是city 域的有效值,但是它是country的有效值 ; 错误(error)则表示完全不正确). 你可以指定正确的值来修正无效或者错误值. 否则这些值会在清理过程中被标记为无效 (invalid).
- 点击 Add new domain value 图标. 输入一个同义词LA,然后按回车. 选中 "LA" 和 "Los Angeles" 右击然后选择设置成同义词 (Set as Synonyms).

注意:默认情况下, DQS 包含一个 DQS_NULL 有效值, 你可以把它的类型改为无效, 比如你想标记缺失值.
接着改变主导值,右击Los Angeles并选择 Set as Leading during .

- city域最终显示如下:

8. 选择 State 域 ,点击 domain values 标签. 在这个步骤.我们用通过表格导入值.
- 从http://www.stateabbreviations.us/获取米国洲的缩写列表. 拷贝前三列到excel然后保存为 csv 文件.
- 点击import values 图标的下拉尖头,选择 import valid values from excel. ..balabala….

- 导入后结果如下. DQS自动把第一列作为主导值,后面的列作为同义词. (这个DQS 一上来就让我看到Bug…我用的是SQL 2014 . 比如说有一行数据MarylandMd.MD 其中Maryland 并没有成为Md. 和MD的主导值)

9. 选择 CustomerName 域,然后点击Term-Based Relations 标签. DQS允许你域值里面定义术语,并使他们标准化. 例如公司名称常包括 “corp”,当出现他的变种(比如 "Microsoft Corp" 或者 "Microsoft Corporation")的时候你可以使用DQS 标准化域值中的术语,在这个步骤中,我们将定义两个术语:
- 点击 Add new relation 图标
- 添加”co”值,并设置正确值为"Company" 回车继续.
- 添加 "ltd" 值,并设置正确值为"Limited" .
- 完成后显示如下,然后点击Finish 按钮 .

10. 点击 Publish 按钮 button继续.

创建自己的DQS知识库有时候需要花费大量精力. 比如地址清理,电话号码清理,建立完整的有效和无效值会花费大量时间. DQS 支持第三方知识库来清理你的数据. 可以查看这篇文章 : how to cleanse Customer Data using Dun & Bradstreet .
B. 创建一个DQS项目,使用知识库来清理你的数据
1. 再 Data Quality Client 首页, Data Quality Projects下面,点击 New Data Quality Project.
2. 项目名称 MyCustomer,并且选择你之前创造的知识库.然后点击Next继续.

3. 映射界面:
选择数据源,数据库以及表. (我们之前创建的 MyCustomers 表)
进行列与域的关联. 入下图,点击Next继续.

4. 在清理界面,点击 Start 开始处理程序,完成后点击Next .

5. Manage and View results 界面:
选择 City 域并点击 Corrected 标签. 你会看大"LA" 被纠正为"Los Angeles"

选择 City 域并点击 New 标签. 你会发现没有知识库中定义的域值清单.点击 Approve all terms 图标继续 (细节可以看下这篇文章 msdn article ). The approved values are now appear under Correct tab.

选择 CustomerName 域并且点击New标签. 你会看到两个客户名已经通过标准数据更新.点击Next 继续.

6. 在Manage and View results 界面, 你可以把结果导出到SQL Server 或 Excel.

在本文中,我介绍了如何建立一个知识库来清理用户数据, 包括使用域值和基本的术语关系. 然后你可以创建数据质量项目用你创建的知识库清理数据. 你可以在多个项目中使用相同的知识库. 同样的你也可以使用SSIS 自动处理. 可以参考 Matt Mason 写的文章: Overview of DQS Transform ,介绍 SSIS DQS Cleansing transform的使用方法
你可能注意到我用的样本数据有些重复记录. 在下一篇文章,我会介绍如何使用匹配策略和重复数据检测来增强你的知识库.
[译] 使用Using Data Quality Services (DQS) 清理用户数据的更多相关文章
- [论文笔记] Methodologies for Data Quality Assessment and Improvement (ACM Comput.Surv, 2009) (1)
Carlo Batini, Cinzia Cappiello, Chiara Francalanci, and Andrea Maurino. 2009. Methodologies for data ...
- OpenCASCADE Application Framework Data Framework Services
OpenCASCADE Application Framework Data Framework Services eryar@163.com 一.概述Overview OpenCASCADE的数据框 ...
- 试图使用未在此报表服务器中注册或此版 Reporting Services 不支持的数据扩展插件“Devart.Data.PostgreSql”
数据源用的是Postgresql 我在Deploy Report的时候出现这条ErrorMessage Error 2 试图使用未在此报表服务器中注册或此版 Reporting Services 不支 ...
- Building Applications with Force.com and VisualForce(Dev401)(十一):Designing Applications for Multiple Users: Proseving Data Quality
Dev401-012:Proseving Data Quality Universal Containers Scenario1.Universal Containers(UC) wants to e ...
- CockroachDB学习笔记——[译]CockroachDB中的SQL:映射表中数据到键值存储
CockroachDB学习笔记--[译]CockroachDB中的SQL:映射表中数据到键值存储 原文标题:SQL in CockroachDB: Mapping Table Data to Key- ...
- Spring Data:企业级Java的现代数据访问技术(影印版)
<Spring Data:企业级Java的现代数据访问技术(影印版)>基本信息原书名:Spring Data:Modern Data Access for Enterprise Java作 ...
- Data Binding(数据绑定)用户指南
1)介绍 这篇文章介绍了如何使用Data Binding库来写声明的layouts文件,并且用最少的代码来绑定你的app逻辑和layouts文件. Data Binding库不仅灵活而且广泛兼容- 它 ...
- 清理8组nodes中表的历史数据,平均每个node中的表有1.5亿条记录,需要根据date_created字段清理8000W数据记录,这个字段没有索引。
清理8组nodes中表的历史数据,平均每个node中的表有1.5亿条记录,需要根据date_created字段清理8000W数据记录,这个字段没有索引. 环境介绍 线上磁盘空间不足,truncate ...
- 17.1.1.8?Setting Up Replication with Existing Data设置复制使用存在的数据
17.1.1.8?Setting Up Replication with Existing Data设置复制使用存在的数据 当设置复制使用存在的数据,你需要确定如何最好的从master 得到数据到sl ...
随机推荐
- poj1966Cable TV Network(无向图最小点割集 ISAP+邻接矩阵)
题目请戳这里 邻接表的ISAP被卡了一天...TLE....终于被卡了...好忧桑啊啊啊... 题目大意:给一张无向图,求最少去掉几个点使图不连通. 题目分析:求无向图的点连通度,拆点建图跑最大流.具 ...
- 全国计算机等级考试二级教程-C语言程序设计_第5章_循环结构
for循环结构的嵌套 外层循环每循环一次,内层循环会完整循环一次. 外层循环是竖. 内层循环是横. for, do...while, while的选择: 如果有固定次数,如阶乘! ,判断素数,用 fo ...
- PHP的优点
1.语法简单 2.学习成本低 3.开发效率高 4.跨平台 5.开发部署方便 6.开源框架非常丰富(如:ThinkPHP) 7.开源CMS系统非常丰富(如:Joomla,Wordpress) 8.开源网 ...
- ActionScript简单实现Socket Tcp应用协议分析器
转自..smark http://www.cnblogs.com/smark/archive/2012/05/15/2501507.html ActionScript简单实现Socket Tcp应用协 ...
- XP用户:消除误解,大胆拥抱Linux
4月23日.知名家评论家Silviu Stahie发表文章.题为"Windows Users and Their Misconceptions About Linux". ...
- 移动端适配:font-size设置的思考
1. 问题的引出 如果html5要适应各种分辨率的移动设备,可以使用rem这样的尺寸单位,针对各个分辨率范围在html上设置font-size的代码: html{font-size:10px} @me ...
- linq to sql简单使用
1.新建一个winform项目. 2.添加一个Linq to Sql 类,命名为Northwind 3.打开服务器资源管理器,将表拖动到linq to sql 类,实体类就由Vs生成了 4.实例化Da ...
- 第001篇——C#学习计划开启
大年三十了,选在今天开启Blog,就是为了克服拖延症! Windows桌面程序,多年的执念,到现在一直不会写,再拖拉谁知道又要拖几年? 特此立下目标: 基本掌握C# winform 半年内可以做出一些 ...
- sqlserver高版本到低版本迁移
从SqlServer2014 备份bak文件,在SqlServer2012中还原时遇到版本不兼容的问题. 经过leader 指导,可尝试以下办法处理数据迁移.共分三个步骤: 一.对需要迁移数据库生成s ...
- JQuery实现 checkbox 全选、反选,子checkbox有没选去掉全选
1. 全选的checkbox选中时,子checkbox全部选中.反之,全部不选 2.子checkbox中,只要有没有被选中的,取消全选checkbox的选中 3.子checkbox的数量和子check ...