奇点云数据中台技术汇(一) | DataSimba——企业级一站式大数据智能服务平台
在这个“数据即资产”的时代,大数据技术和体量都有了前所未有的进步,若企业能有效使用数据,让数据赚钱,这必将成为企业数字化转型升级的有力武器。
奇点云自研的一站式大数据智能服务平台——DataSimba,旨在提供数据采集、数据加工、数据治理、数据规范、数据资产、数据服务等全链路的产品+技术+方法论服务,构建面向业务应用的大数据智能平台。其主要核心模块包括了数据开发套件、数据治理套件、数据服务引擎、数据智能、数据安全。

1、数据采集
数据采集作为数据中台第一个环节,不仅仅是要“采集”,也要将数据合理的“存”起来。DataSimba数据采集研发了两套采集工具,一套是批量采集DataX,一套是实时采集DataS。
DataX为批量离线采集工具,支持市面上基本所有的关系型DB、NoSQL等数据库。
DataS为实时的在线采集工具,支持关系型DB的操作日志的实时读取,如MySQL的binlog,也支持网页埋点的服务日志的实时读取。
2、数据开发
数据开发套件作为产品的核心模块,底层是基于hadoop开源生态圈中的Hive、Spark、Flink、Impala为计算引擎,以Hdfs、Hbase、kudu为分布式存储,为数据开发、数据分析、数据挖掘、算法工程师提供了一套可视化开发界面。开发人员可在开发套件上做一站式开发,包括可视化数据同步配置、创建各种开发任务(包括实时任务和离线任务)、数据建模、调度配置、运维监控等,大大地提高了开发人员的开发效率。同时开发套件实时采集了数据表的元信息、表级、字段级的血缘关系,为数据地图提供了丰富的元数据。
3、数据治理
数据治理套件主要围绕开发完成的数据进行一系列的数据质量监控、数据规范定义、数据元信息展示。一方面提供了多种规则模板,监控各个环节任务产出的数据质量,每天定时产出数据质量检测报告,让数据开发对数据的质量做到心中有数,可以及时地修正脏数据;其次提供了元数据管理,形成全局数据地图,分析数据血缘,数据影响,为数据开发与维护提供支撑;最后还帮助开发人员制定一系列的数据标准进行名称、指标、维度的设计规范,统一口径,消除二义性。然后利用数学统计、机器学习、深度挖掘等大数据技术构建企业的标签体系,把原始数据加工成企业可阅读易理解的标签体系,并且应用在不同的业务场合中,帮助企业解决痛点,提升商业价值。
4、数据服务
数据服务引擎打通了应用方和数据的通道,可以让数据紧密的跟业务结合在一起,加速数据业务化过程。传统的数据仓库,通常在已有N个维度中随机挑选几个维度进行大数据量的聚合操作,返回结果集非常缓慢,OLAP引擎可以支持大数据量多维度查询秒级结果返回,大大地提高了工作效率;另一方面传统数仓在报表类数据展示上花费了很大的人力和物力,而且非常难维护开发好的接口,数据API通过可视化模式快速生成接口,并且建立起接口元信息,方便以后的维护,只需要轻松修改下接口元信息即可满足前方业务的变动,而且数据API还提供了接口访问信息的采集与监控,让业务方可以及时地感知到接口的使用情况。
5、数据安全
数据安全可以帮助企业建立数据安全体系。数据安全在数据访问、数据流动、数据运维等几个关键环节中都加入了身份认证和权限访问控制,通过网络传输加密、高可靠的数据存储、敏感数据脱敏、日志审计、事件溯源、高危操作拦截等功能来保障企业数据的稳定性和安全性。
6、数据模型
好的数据模型,是高内聚低耦合的设计,是可以满足未来业务发展的扩展性。当然也不能过度设计,够用的同时兼顾扩展性。
数据模型设计是一套方法论加上对业务的深刻理解,将业务高度抽象成的多维数据模型结构,模型的数量与复杂度与业务强相关,如大家都比较熟悉的电商业务,按业务过程来切分,可设计为流量数据模型、收藏数据模型、加购数据模型、交易数据模型等。
7、业务模型
前面的业务创新智能化提到,围绕节本增效,业务通过融合后的全域数据、算法技术,将业务经验与数据智能相结合,为运营提高决策效率,如智能选品模型;为业务提升经济价值,如智能折扣模型;为后端部门减少成本,如智能排班模型。
DataSimba作为企业级一站式大数据智能服务平台,产品体系和服务能力随着业务场景不断升级迭代,现已在商业综合体、大时尚、医药、酒类等领域投入使用,实现数据化企业运营,帮助企业能够真正盘活数据资产,创造更多的商业价值!
奇点云数据中台技术汇(一) | DataSimba——企业级一站式大数据智能服务平台的更多相关文章
- 数据中台技术汇(二)| DataSimba系列之数据采集平台
继上期数据中台技术汇栏目发布DataSimba——企业级一站式大数据智能服务平台,本期介绍DataSimba的数据采集平台. DataSimba采集平台属于DataSimba的数据计算及服务平台的一部 ...
- 奇点云数据中台技术汇(四)| DataSimba系列之流式计算
你是否有过这样的念头:如果能立刻马上看到我想要的数据,我就能更好地决策? 市场变化越来越快,企业对于数据及时性的需求,也越来越大,另一方面,当下数据容量呈几何倍暴增,数据的价值在其产生之后,也将随 ...
- 奇点云数据中台技术汇(三)| DataSimba系列之计算引擎篇
随着移动互联网.云计算.物联网和大数据技术的广泛应用,现代社会已经迈入全新的大数据时代.数据的爆炸式增长以及价值的扩大化,将对企业未来的发展产生深远的影响,数据将成为企业的核心资产.如何处理大数据,挖 ...
- 奇点云数据中台技术汇(五)| CDP,线下零售顾客运营中台
顾客数据平台(Customer Data Platform,简称CDP),是近年兴起的一种以顾客为核心.聚焦客群细分与人群洞察的企业数据应用平台. 听上去很互联网啊?跟实体行业和零售营销有什么关系呢? ...
- 奇点云COO刘莹应邀出席《APEC SME大数据与人工智能论坛》
10月24日-25日,由亚太经合组织(APEC).韩国中小型及初创企业管理局(the Ministry of SMEs & Startups of Korea)主办的「APEC SME 大数据 ...
- 2016中国大数据技术大会( BDTC ) 共商大数据时代发展之计
中国大数据技术大会(BDTC)的前身是Hadoop中国云计算大会(HadoopinChina,HiC).从2008年仅60余人参加的技术沙龙发展到当下数千人的技术盛宴,目前已成为国内最具影响力.规模最 ...
- 用数据泵技术实现逻辑备份Oracle 11g R2 数据泵技术详解(expdp impdp)
用数据泵技术实现逻辑备份 from:https://blog.csdn.net/weixin_41078837/article/details/80618916 逻辑备份概述 逻辑备份时创建数据库对象 ...
- 数据层交换和高性能并发处理(开源ETL大数据治理工具--KETTLE使用及二次开发 )
ETL是什么?为什么要使用ETL?KETTLE是什么?为什么要学KETTLE? ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,目前流行的数据进入仓库的 ...
- 1.docker 数据卷的备份和恢复(非大数据量)
在生产环境中使用 Docker,很多时候需要对数据进行持久化,或者进行容器间的数据共享. 容器中的管理数据主要有两种方式: 数据卷 (Data Volumes): 容器内数据直接映射到本地主机环境: ...
随机推荐
- tp5 输入域名即访问指定页面
遇到PC官网类型的项目,经常会遇到隐藏入口文件和输入域名即可打开官网首页的需求.需要修改站点的默认加载文件和伪静态的配置才可以生效. 以下为nginx1.15版本,宝塔面板的修改方式.修改入口文件为w ...
- docker---Dockerfile编写
前言:镜像的定制实际上就是定制每一层所添加的配置文件,如果我们可以把每一层的修改.安装.构建.操作的命令都写入一个脚本,然后用这个脚本来构建.定制镜像,那么镜像构建透明性的问题.体积的问题就会得到解决 ...
- win10查看显卡算力
1.查看笔记本自带算力 运行C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v9.2\extras\demo_suite目录下的deviceQue ...
- MySQL--InnoDB 体系架构
InnoDB 体系架构 后台线程 Master Thread Master Thread 是一个非常核心的后台线程,主要负责将缓冲池中的数据异步刷新到磁盘,保证数据的一致性,包括脏页的刷新.合并插入缓 ...
- 题解【[HAOI2006]受欢迎的牛】
切水题,写题解~ tarjan缩一波点,然后 只有一个出度为0的点:他的size就是答案 有多个初度为0的点:无解,0个 因为是强联通分量,所以肯定有出度为0的点,否则--就是你tarjan写挂了~ ...
- h5-携程页面小案例-伸缩盒子
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
- Ubuntu的man中文包安装
apt-get install manpages-zh vi /etc/manpath.config :,$s#/usr/share/man#/usr/share/man/zh_CN#g 第一个命令: ...
- 损失函数coding
损失函数(Loss Function)和成本函数(Cost Function)之间有什么区别? 在此强调这一点,尽管成本函数和损失函数是同义词并且可以互换使用,但它们是不同的. 损失函数用于单个训练样 ...
- Evaluation metrics for classification
Accuracy/Error rate ACC = (TP+TN)/(P+N) ERR = (FP+FN)/(P+N) = 1-ACC Confusion matrix Precision/Recal ...
- drf中的jwt使用与手动签发token、校验用户
jwt认证 1)session存储token,需要数据库参与,耗服务器资源.低效2)缓存存token,需要缓存参与,高效,不易集群3)客户端存token,服务器存签发与交易token的算法,高效,易集 ...