开源数据质量管理工具预研--Griffin VS Deequ VS Great expectations VS Qualitis. 概述 ​ 数据质量监控(DQC)是最近很火的一个话题,也是数据治理中最重要的一环.有一句话说得好.数据质量未必是数据治理中最重要的一部分,但是数据质量可能是让数据治理工作全部崩盘的第一步. ​ 所以做好数据质量监控非常重要,废话少说本文将从开源数据质量解决方案预研的角度,带大家了解目前四个比较成熟的数据质量管理工具,希望对大家做技术选型的时候有一些帮助. ​ 对于开…
引入 mock(模拟): 是在项目测试中,对项目外部或不容易获取的对象/接口,用一个虚拟的对象/接口来模拟,以便测试. 背景 前后端分离 前后端仅仅通过异步接口(AJAX/JSONP)来编程 前后端都各自有自己的开发流程,构建工具,测试集合 关注点分离,前后端变得相对独立并松耦合 开发流程 后台编写和维护接口文档,在 API 变化时更新接口文档 后台根据接口文档进行接口开发 前端根据接口文档进行开发 开发完成后联调和提交测试 面临问题 没有统一的文档编写规范,导致文档越来越乱,无法维护和阅读 开…
一个根据数据库链接字符串,sql语句 即可将结果集导出到Excel的工具 分享,支持sqlserver,mysql. 前因 一个月前朋友找到我,让我帮忙做一个根据sql导出查询结果到Excel的工具(之前帮他一个导入Excel然后按其规则统计数据的工具). 然后扔了我一个SQL语句,瞬间懵比.卧槽.这么多列,我特么得定义这么属性,改了还得重新改程序(一直用EF). 于是思考如何忽略列名,进而如何做到通用,做到于我有益,而不是简单的帮个忙. 如何完成这个需求 Q:程序中根据SQL查询出数据而不需要…
质量屋(The House Of Quality),又名HOQ,它是质量功能配置(QFD)的核心.一般QFD的学习会涉及到.同时HOQ也是项目管理十大知识领域领域中质量管理工具中的一种,今天我们就来了解一下. 质量屋概念 质量屋是一种确定顾客需求和相应产品或服务性能之间联系的图示方法.它把很多矩阵和图表组合成一张大的图,像房屋一样.如下图: 质量屋的构造始于分析顾客需求,写在矩阵的行里.矩阵列中是产品或服务的重量特性.矩阵中心和边缘是这组信息的关系,指导新设计的决定. 作为结果,顾客需求被转化为…
Sonar 是一个用于代码质量管理的开放平台.通过插件机制,Sonar 可以集成不同的测试工具,代码分析工具,以及持续集成工具. Sonar 概述 Sonar 是一个用于代码质量管理的开放平台.通过插件机制,Sonar 可以集成不同的测试工具,代码分析工具,以及持续集成工具. 与持续集成工具(例如 Hudson/Jenkins 等)不同,Sonar 并不是简单地把不同的代码检查工具结果(例如 FindBugs,PMD 等)直接显示在 Web 页面上,而是通过不同的插件对这些结果进行再加工处理,通…
一.背景 在企业BI平台建设过程中,数据整合始终是一切的基础,简单BI项目可以通过存储过程来实现,而复杂.全面.多方异构数据来源等就大大增加了复杂性,存储过程的可管理性.可维护性.容错性等就无法很好的跟上企业的BI的发展脚步和需要. 因此,一个完善的.健壮的.可视化的.易于开发和管理的ETL解决方案,就非常重要,而这其中,ETL工具的地位不言而喻,更是重中之重.选择一个优秀的ETL工具,不仅可以加快异构数据整合的能力和效率,更能降低开发成本.人员手工维护等成本,好处多多. 现今的ETL工具很多,…
本篇博客记录NVENC硬编码的预研过程 github:  https://github.com/MarkRepo/NvencEncoder 步骤如下: (1)环境搭建 (2)demo编译,测试,ARGB编码 (3)研究demo源码,阅读API文档 (4)封装so共享库,联调测试多路编码性能 (5)研究内存,显存拷贝方案,尝试解决CPU,GPU消耗过高等性能问题 1. 环境搭建 (1)编译环境,预研中这个环境不是我亲手搭建的,需要CUDAToolKit, NVENC SDK (2)运行环境,需要N…
声明 本文中介绍的非功能性规范均为建议性规范,产品功能无强制,仅供指导. 参考文献 <大数据之路——阿里巴巴大数据实践>——阿里巴巴数据技术及产品部 著. 背景及目的 数据对一个企业来说已经是一项重要的资产,既然是资产,肯定需要管理.随着业务的增加,数据的应用越来越多,企业在创建的数仓过程中对数据的管理也提出了更高的要求,而数据质量也是数仓建设过程不容忽视的环节.本文针对MaxCompute数仓建设过程中如何做数据质量给出规范建议,为实际数据治理提供依据及指导. 数据质量保障原则 评估数据质量…
TPCx-BB是大数据基准测试工具,它通过模拟零售商的30个应用场景,执行30个查询来衡量基于Hadoop的大数据系统的包括硬件和软件的性能.其中一些场景还用到了机器学习算法(聚类.线性回归等).为了更好地了解被测试的系统的性能,需要对TPCx-BB整个测试流程深入了解.本文详细分析了整个TPCx-BB测试工具的源码,希望能够对大家理解TPCx-BB有所帮助. 代码结构 主目录($BENCH_MARK_HOME)下有: bin conf data-generator engines tools…
Charted 是一个让数据自动生成可视化图表的工具.只需要提供一个数据文件的链接,它就能返回一个美丽的,可共享的图表.Charted 不会存储任何数据.它只是获取和让链接提供的数据可视化. 在线演示      插件下载 您可能感兴趣的相关文章 网站开发中很有用的 jQuery 效果[附源码] 分享35个让人惊讶的 CSS3 动画效果演示 十分惊艳的8个 HTML5 & JavaScript 特效 Web 开发中很实用的10个效果[源码下载] 12款经典的白富美型 jQuery 图片轮播插件 本…