在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器。

奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集、数据加工、数据治理、数据规范、数据资产、数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台。其主要核心模块包括了数据开发套件、数据治理套件、数据服务引擎、数据智能、数据安全。

1、数据采集

数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理的“存”起来。DataSimba数据采集研发了两套采集工具,一套是批量采集DataX,一套是实时采集DataS。

DataX为批量离线采集工具,支持市面上基本所有的关系型DB、NoSQL等数据库。

DataS为实时的在线采集工具,支持关系型DB的操作日志的实时读取,如MySQL的binlog,也支持网页埋点的服务日志的实时读取。

2、数据开发

数据开发套件作为产品的核心模块,底层是基于hadoop开源生态圈中的Hive、Spark、Flink、Impala为计算引擎,以Hdfs、Hbase、kudu为分布式存储,为数据开发、数据分析、数据挖掘、算法工程师提供了一套可视化开发界面。开发人员可在开发套件上做一站式开发,包括可视化数据同步配置、创建各种开发任务(包括实时任务和离线任务)、数据建模、调度配置、运维监控等,大大地提高了开发人员的开发效率。同时开发套件实时采集了数据表的元信息、表级、字段级的血缘关系,为数据地图提供了丰富的元数据。

3、数据治理

数据治理套件主要围绕开发完成的数据进行一系列的数据质量监控、数据规范定义、数据元信息展示。一方面提供了多种规则模板,监控各个环节任务产出的数据质量,每天定时产出数据质量检测报告,让数据开发对数据的质量做到心中有数,可以及时地修正脏数据;其次提供了元数据管理,形成全局数据地图,分析数据血缘,数据影响,为数据开发与维护提供支撑;最后还帮助开发人员制定一系列的数据标准进行名称、指标、维度的设计规范,统一口径,消除二义性。然后利用数学统计、机器学习、深度挖掘等大数据技术构建企业的标签体系,把原始数据加工成企业可阅读易理解的标签体系,并且应用在不同的业务场合中,帮助企业解决痛点,提升商业价值。

4、数据服务

数据服务引擎打通了应用方和数据的通道,可以让数据紧密的跟业务结合在一起,加速数据业务化过程。传统的数据仓库,通常在已有N个维度中随机挑选几个维度进行大数据量的聚合操作,返回结果集非常缓慢,OLAP引擎可以支持大数据量多维度查询秒级结果返回,大大地提高了工作效率;另一方面传统数仓在报表类数据展示上花费了很大的人力和物力,而且非常难维护开发好的接口,数据API通过可视化模式快速生成接口,并且建立起接口元信息,方便以后的维护,只需要轻松修改下接口元信息即可满足前方业务的变动,而且数据API还提供了接口访问信息的采集与监控,让业务方可以及时地感知到接口的使用情况。

5、数据安全

数据安全可以帮助企业建立数据安全体系。数据安全在数据访问、数据流动、数据运维等几个关键环节中都加入了身份认证和权限访问控制,通过网络传输加密、高可靠的数据存储、敏感数据脱敏、日志审计、事件溯源、高危操作拦截等功能来保障企业数据的稳定性和安全性。

6、数据模型

好的数据模型,是高内聚低耦合的设计,是可以满足未来业务发展的扩展性。当然也不能过度设计,够用的同时兼顾扩展性。

数据模型设计是一套方法论加上对业务的深刻理解,将业务高度抽象成的多维数据模型结构,模型的数量与复杂度与业务强相关,如大家都比较熟悉的电商业务,按业务过程来切分,可设计为流量数据模型、收藏数据模型、加购数据模型、交易数据模型等。

7、业务模型

前面的业务创新智能化提到,围绕节本增效,业务通过融合后的全域数据、算法技术,将业务经验与数据智能相结合,为运营提高决策效率,如智能选品模型;为业务提升经济价值,如智能折扣模型;为后端部门减少成本,如智能排班模型。

DataSimba作为企业级一站式大数据智能服务平台,产品体系和服务能力随着业务场景不断升级迭代,现已在商业综合体、大时尚、医药、酒类等领域投入使用,实现数据化企业运营,帮助企业能够真正盘活数据资产,创造更多的商业价值!

奇点云数据中台技术汇(一) | DataSimba——企业级一站式大数据智能服务平台的更多相关文章

  1. 数据中台技术汇(二)| DataSimba系列之数据采集平台

    继上期数据中台技术汇栏目发布DataSimba——企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台. DataSimba采集平台属于DataSimba的数据计算及服务平台的一部 ...

  2. 奇点云数据中台技术汇(四)| DataSimba系列之流式计算

    你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策?   市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随 ...

  3. 奇点云数据中台技术汇(三)| DataSimba系列之计算引擎篇

    随着移动互联网.云计算.物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代.数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产.如何处理大数据,挖 ...

  4. 奇点云数据中台技术汇(五)| CDP,线下零售顾客运营中台

    顾客数据平台(Customer Data Platform,简称CDP),是近年兴起的一种以顾客为核心.聚焦客群细分与人群洞察的企业数据应用平台. 听上去很互联网啊?跟实体行业和零售营销有什么关系呢? ...

  5. 奇点云COO刘莹应邀出席《APEC SME大数据与人工智能论坛》

    10月24日-25日,由亚太经合组织(APEC).韩国中小型及初创企业管理局(the Ministry of SMEs & Startups of Korea)主办的「APEC SME 大数据 ...

  6. 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计

    中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...

  7. 用数据泵技术实现逻辑备份Oracle 11g R2 数据泵技术详解(expdp impdp)

    用数据泵技术实现逻辑备份 from:https://blog.csdn.net/weixin_41078837/article/details/80618916 逻辑备份概述 逻辑备份时创建数据库对象 ...

  8. 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )

    ETL是什么?为什么要使用ETL?KETTLE是什么?为什么要学KETTLE?        ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的 ...

  9. 1.docker 数据卷的备份和恢复(非大数据量)

    在生产环境中使用 Docker,很多时候需要对数据进行持久化,或者进行容器间的数据共享. 容器中的管理数据主要有两种方式: 数据卷 (Data Volumes): 容器内数据直接映射到本地主机环境: ...

随机推荐

  1. UVA 11584 入门DP

    一开始把它当成暴力来做了,即,从终点开始,枚举其最长的回文串,一旦是最长的,马上就ans++,再计算另外的部分...结果WA了 事实证明就是一个简单DP,算出两个两个点组成的线段是否为回文,再用LCS ...

  2. import torch 报错

    1.进入官网   https://pytorch.org/ 2.复制command到anaconda环境,即可

  3. Python-查找并保存特定字符串后面的字符串

    -- -- 本算法用于查找并存储“特定字符串”后面的字符串. -- 举例: strli = "kaka is li is da is wei !" #用于查找的字符串 sep_li ...

  4. elk常用知识点

    1.让文件每次都从头读取: 当有时候需要重新抽取全日志时候,则需要先删除ES上的索引,然后在logstash上input插件配置sincedb_path => "/dev/null&q ...

  5. Python说文解字_defaultdict

    1. 这个构造函数需要一个函数作为参数,每当访问一个字典中不存在的键时,将会不带参数的调用这个函数,并将结果设定为默认值. 2. 众所周期,如果访问字典中不存在的键时,会引发KeyError异常. 其 ...

  6. RTMP、RTSP

    一.参考网址 1.RTMP.RTSP.HTTP视频协议详解(附:直播流地址.播放软件) 2.海康RTSP流转RTMP并推送至WEB端展示 3.使用FFmpeg将rtsp流摄像头视频转码为rtmp播放 ...

  7. Spring Cloud Alibaba 教程 | Nacos(六)

    集群模式部署 前面我们已经学习了Nacos作为注册中心.配置中心的相关功能,但是我们之前启动Nacos是通过单实例模式启动的,只适合在学习和开发阶段,生产环境需要保证Nacos的高可用,所以今天我们来 ...

  8. 给锚点a标签添加滑动效果

    a标签是前端必用之一,但是a标签点击后马上跳到了href属性值处,有时候要达到滑动效果就要自己添加JavaScript 普通的a标签代码写好之后,在js脚本内加上 $("a").c ...

  9. Spring MVC中防止csrf攻击

    Spring MVC中防止csrf攻击的拦截器示例 https://blog.csdn.net/qq_40754259/article/details/80510088 Spring MVC中的CSR ...

  10. Linux-sys文件系统

    1.sys文件系统本质上和proc文件系统是一样的,都是虚拟文件系统.都在根目录下有个目录(一个是/proc目录,另一个是/sys目录),因此都不是硬盘中的文件,都是内核中的数据结构的可视化接口. 2 ...