很多企业在做BI项目时,一开始的目标都是想通过梳理管理逻辑,帮助企业搭建可视化管理模型与深化管理的精细度,及时发现企业经营管理中的问题. 但在项目实施和验收时,BI却变成了报表开发项目,而报表的需求往往和个人习惯有关,一旦人员发生变动,尤其是新入职的高层,会把前公司的内容搬过来,这就需要重新开发一大堆报表. 如果不从源头进行控制,被动服务模式下的IT不可能满足所有人的报表需求.接下来我们要讲的这个案例就真实反应了这个过程,同时也为大家解析问题产生的原因并找到解决问题的方法,建议所有有计划或已经实…
为了帮助企业用户寻找更为有效.加快Hadoop数据查询的方法,Apache 软件基金会发起了一项名为“Drill”的开源项目.Apache Drill 实现了 Google's Dremel. Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON 文件模型,这使得用户能查询固定架构,演化架构,以及各种格式和数据存储中的模式无关(schema-free)数据.该体系架构中关系查询引擎和数据库的构建是有先决条件的,即假设所有数据都有一个简单的静态架构. Apach…
前言介绍 如果你是一位前端工程师,那你一定不止一次去解决一些顽固的线上问题,你也曾想方设法复现用户的bug,结果可能都不太理想. 怎样定位前端线上问题,一直以来,都是很头疼的问题,因为它发生于用户的一系列操作之后.错误的原因可能源于机型,网络环境,复杂的操作行为等等,在我们想要去解决的时候很难复现出来,自然也就无法解决. 身为一名前端工程师,我每天都要面临很多线上的问题,一时间让我焦头烂额.公司其他的监控系统也有,但是每次解决问题都需要辗转于各种监控系统之间,亦是疲惫不堪.所以,我便为自己(前端…
Apache POI是一个开源的Java读写Excel.WORD等微软OLE2组件文档的项目.目前POI已经有了Ruby版本. 结构: HSSF - 提供读写Microsoft Excel XLS格式档案的功能. XSSF - 提供读写Microsoft Excel OOXML XLSX格式档案的功能. HWPF - 提供读写Microsoft Word DOC97格式档案的功能. XWPF - 提供读写Microsoft Word DOC2003格式档案的功能. HSLF - 提供读写Micr…
Apache Commons Imaging 前身是 Apache Commons Sanselan ,这是一个用来读写各种图像格式的 Java 类库,包括快速解析图片的基本信息(大小.色彩空间.ICC配置等)和元数据.尽管慢点但非常好的可移植性.比起 ImageIO/JAI/Toolkit 更容易使用,支持更多的格式,提供简单访问元数据的方法.javadoc…
提到格里芬-Griffin,大家想到更多的是篮球明星或者战队名,但在大数据领域Apache Griffin(以下简称Griffin)可是数据质量领域响当当的一哥.先说一句:Griffin是大数据质量监控领域唯一的Apache项目,懂了吧. ​ 在不重视数据质量的大数据发展时期,Griffin并不能引起重视,但是随着数据治理在很多企业的全面开展与落地,数据质量的问题开始引起重视. ​ 还是那句话,商用版的解决方案暂时不在本文的讨论范围内,目前大数据流动公众号对于数据治理工具的研究还是在开源方向,希…
DataHub 首先,阿里云也有一款名为DataHub的产品,是一个流式处理平台,本文所述DataHub与其无关. 数据治理是大佬们最近谈的一个火热的话题.不管国家层面,还是企业层面现在对这个问题是越来越重视.数据治理要解决数据质量,数据管理,数据资产,数据安全等等.而数据治理的关键就在于元数据管理,我们要知道数据的来龙去脉,才能对数据进行全方位的管理,监控,洞察. DataHub是由LinkedIn的数据团队开源的一款提供元数据搜索与发现的工具. 提到LinkedIn,不得不想到大名鼎鼎的Ka…
本文为微众银行大数据平台:周可在 nMeetup 深圳场的演讲这里文字稿,演讲视频参见:B站 自我介绍下,我是微众银行大数据平台的工程师:周可,今天给大家分享一下 Nebula Graph 在微众银行 WeDataSphere 的实践情况. 先来说下图数据库应用背景. WeDataSphere 图数据库架构是基于 JanusGraph 搭建,正如邸帅在演讲<NebulaGraph - WeDataSphere 开源介绍>中提及的那样,主要用于解决微众银行数据治理中的数据血缘问题.在使用 Jan…
本文由  网易云发布. 作者:网易/刘勋(本篇文章仅限知乎内部分享,如需转载,请取得作者同意授权.) 面对海量且持续增加的各式各样的数据对象,你是否有信心知道哪些数据从哪里来以及它如何随时间而变化?采用Hadoop必须考虑数据管理的实际情况,元数据与数据治理成为企业级数据湖的重要部分. 为寻求数据治理的开源解决方案,Hortonworks 公司联合其他厂商与用户于2015年发起数据治理倡议,包括数据分类.集中策略引擎.数据血缘.安全和生命周期管理等方面.Apache Atlas 项目就是这个倡议…
大数据发展到今天,扮演了越来越重要的作用.数据可以为各种组织和企业提供关键决策的支持,也可以通过数据分析帮助发现更多的有价值的东西,如商机.风险等等. 在数据治理工作开展的时候,往往会有一个专门负责数据治理工作的负责人,他和大数据的负责人共同保证数据的可靠性,合法合规性.因为只有这样的数据才是有价值的,这也是很多公司追求的目标:在合规的同时,让数据创造价值. ​ DataHub 是一个强大的工具,可帮助企业完成数据治理的工作.下面让我们从负责人的角度深入了解 DataHub 是如何帮助改善大数据…