搞大数据,你不懂这三大数据处理趋势就OUT了

企业数据每年以PB级甚至上百PB爆炸式增长,越来越大的数据量正为扩大分析策略在企业应用软件领域的拓展提供了数据基础,但数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应,而离线分析缺点显然是不能及时地利用数据中所蕴含的深层价值,因此,如何针对海量数据进行毫秒级在线分析,就成为挑战和新兴话题。

占超群,花名(离哲)来自阿里巴巴集团数据库事业部资深技术专家,拥有10年数据处理及分析经验。他表示,最初的数据分析基于OLTP数据库来做,到了2005年大数据开始兴起,2009年hadoop名声大噪。众所周知,Hadoop的设计初衷是存储与分析离线大数据,数据虽然能被处理,但问题也很多,比如太慢,数据不够集中等,而阿里生态足够大,众多商家和广告主一直希望利用数据驱动业务,因此,催生了阿里大规模在线化分析诉求,并且阿里集团绝大部分数据业务都是在线化的;最近三年,他也和客户一起,充分利用阿里云分析型数据库的极速低成本能力,驱动外部的公安、物流、营销、电力等行业客户实现数据分析在线化;也就有了他在2017中国系统架构师大会上的分享,阿里巴巴大数据分析在线化和开放化的实践。
离哲的分享主要有3部分,趋势、案例及解决方案。
目前,数据处理呈现出3大重要趋势,其一是从离线到在线的趋势,圈里现在基本都不怎么提离线分析了,而是在讨论在线分析。第二个趋势是从统计到AI的趋势,用AI技术去做数据处理不再是未来的事儿,而是现在已经正在发生着。第三个趋势是在线分析平台化,支持多样化的数据如文本、Json、图片等,实现数据融合、统一、联合计算。
他认为,这些趋势在未来的5年以内,会在中国乃至全球普及,未来数据分析是开放化、在线化的时代。他还指出,对未来企业业务的改造,怎么样让数据部门不再是企业的负担,而是一种增值,也是个很重要的探索方向。
PB级大数据在线分析对数据计算的要求不仅要面对越来越大的数据量能被在线计算,更要求实时,几秒内返回,还可以被界面交互,并且可以让人人都可以当分析师,同时可以去探索,需要足够的开放性。
目前阿里大数据分析在线化和开放化的实践,主要应用于电商业务、营销业务、O2O、交通、物流、娱乐、金融、征信、安全等几十个场景。涉及营销管理,安全风控,推荐,预测,洞察等多个方面。

  ▲在线分析交通行业应用实践


▲在线分析公安行业应用实践
在阿里强势领域电商的应用就不多说,让人眼睛一亮的是在交通、安全行业的应用。
最后,是演讲中最精华的部分,阿里大数据分析在线化和开放化是怎么应用的,都在典型业务架构图中。

架构图中,我们发现与众不同的是AnalyticDB,这是阿里自研的大规模高性能分析型数据库,其实AnalyticDB并不是个新产品。会后,离哲在接受笔者采访时表示,AnalyticDB在2014年就上云了,主要目标是做极速低成本的PB级实时数据仓库。
AnalyticDB主打三个功能:一、低成本;二、极速分析,包含延迟,并发上做到极速。三、上层提供了足够好的应用性,让用户能像用单机数据库一样,绝大部分语言和工具,都能连接。用户可以通过任何BI工具,甚至excel都能连接上来做分析,其目的是让阿里的在线分析能力能被用户以足够低的成本连接和被使用。

  离哲最后表示,AnalyticDB目标是能让数据价值被发现,通过数据价值的实时性,数据探索的实时性,去驱动商业变革。

搞大数据,你不懂这三大数据处理趋势就OUT了的更多相关文章

  1. 搞大数据,Java 工程师需要掌握哪些知识?

    先看再点赞,给自己一点思考的时间,微信搜索[沉默王二]关注这个有颜值却假装靠才华苟且的程序员.本文 GitHub github.com/itwanger 已收录,里面还有一线大厂整理的面试题,以及我的 ...

  2. 都 2021 年了,竟然有人搞大数据时忽略 JSON 而去研究用 C# 把 XML 转换为 XML 的技术

    在大数据项目开发过程中,ETL(Extract-Transform-Load)是必不可少.即便目前 JSON 非常流行,开发人员也有必定会有对远古系统的挑战,而 XML 格式的数据源作为经典存在浑身上 ...

  3. 【大数据技术】Hadoop三大组件架构原理(HDFS-YARN-MapReduce)

    目前,Hadoop还只是数据仓库产品的一个补充,和数据仓库一起构建混搭架构为上层应用联合提供服务. Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起. ...

  4. 谁说.NET不适合搞大数据,机器学习、人工智能

    SciSharp Stack SciSharp STACK: https://scisharp.github.io/SciSharp/ 基于.NET的开源生态系统,用于数据科学.机器学习和AI. Sc ...

  5. 谈B2B电商平台与大数据

    数据为王,服务为本——谈B2B电商平台与大数据 2013-06-27 11:10:41 作者:B2B行业资讯 标签:                             大数据           ...

  6. 2018年,Java程序员转型大数据开发,是不是一个好选择?

    近日网上有一篇关于Java程序员职场生存现状的文章“2017年 Java 程序员,风光背后的危机”,在Java程序员圈子里引起了广泛关注和热议. 2017年,Java 程序员面临更加激烈的竞争. 不得 ...

  7. 分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)

    热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...

  8. 杂项:大数据 (巨量数据集合(IT行业术语))

    ylbtech-杂项:大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  9. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

随机推荐

  1. Saks就const解释

    In my last column, I discussed one of the reasons why the rules by which a compiler can place data i ...

  2. jeecg Online表单开发中新增自定义按钮

    要求:给表单增加一个“确认”按钮,按钮功能更改选中数据的flag字段为1 点击“自定义按钮”,录入一个“确认”按钮 按钮编码:该编码在一个智能表单配置中唯一,该编码同时是按钮触发的JS函数名.例如:按 ...

  3. ubuntu phpize 安裝

    php 版本 7.2,所以安裝 php7.2的 sudo apt-get install php7.2-dev 參考 Is is possible to install phpize for PHP7 ...

  4. 初始化workbook时可能忽略的问题

    正常情况下解析excel 先初始化workbook,使用文件名称后缀来初始化的. 一般情况下 这种是没有问题的,但是当遇到如果是07版本的 xlsx结尾的文件 改了后缀 为xls后 解析就会发生异常 ...

  5. Android 防止切换横屏闪退

    <?xml version="1.0" encoding="utf-8"?> <manifest xmlns:android="ht ...

  6. DataWorks2.0的“业务流程”与1.0的“工作流”的对比

    DatwWorks终于升级2.0了,心情万分激动之余,又有一丝担忧.因为,没法再创建新的旧版工作流了...新版抛弃了“工作流”这个概念,引入了“业务流程”和“解决方案”两个新的概念.于是,作为团队Le ...

  7. bzoj1007题解

    [题意分析] 给你n个上半平面,求包含这些上半平面的交的上半平面. [解题思路] 按斜率排序,用单调栈维护一个下凸壳即可.复杂度O(nlog2n). [参考代码] #include <cctyp ...

  8. (转) mysql的分区技术 .

    转:http://blog.csdn.net/feihong247/article/details/8100960 一.概述 当 MySQL的总记录数超过了100万后,会出现性能的大幅度下降吗?答案是 ...

  9. npm ERR! missing script: dev 解决方案

    运行命令npm run dev 出现     npm ERR! missing script: dev  的错误 这是因为vue 版本问题,使用 npm run serve 来运行项目

  10. Codeforces 1154B Make Them Equal

    题目链接:http://codeforces.com/problemset/problem/1154/B 题意:给定数组,可以给任意的的元素加上D 或者 减去D,如果能 使数组元素都相等,输出最小的D ...