搞大数据,你不懂这三大数据处理趋势就OUT了

企业数据每年以PB级甚至上百PB爆炸式增长,越来越大的数据量正为扩大分析策略在企业应用软件领域的拓展提供了数据基础,但数据的价值是有时效性的,越早分析越能得到更快的问题反馈或响应,而离线分析缺点显然是不能及时地利用数据中所蕴含的深层价值,因此,如何针对海量数据进行毫秒级在线分析,就成为挑战和新兴话题。

占超群,花名(离哲)来自阿里巴巴集团数据库事业部资深技术专家,拥有10年数据处理及分析经验。他表示,最初的数据分析基于OLTP数据库来做,到了2005年大数据开始兴起,2009年hadoop名声大噪。众所周知,Hadoop的设计初衷是存储与分析离线大数据,数据虽然能被处理,但问题也很多,比如太慢,数据不够集中等,而阿里生态足够大,众多商家和广告主一直希望利用数据驱动业务,因此,催生了阿里大规模在线化分析诉求,并且阿里集团绝大部分数据业务都是在线化的;最近三年,他也和客户一起,充分利用阿里云分析型数据库的极速低成本能力,驱动外部的公安、物流、营销、电力等行业客户实现数据分析在线化;也就有了他在2017中国系统架构师大会上的分享,阿里巴巴大数据分析在线化和开放化的实践。
离哲的分享主要有3部分,趋势、案例及解决方案。
目前,数据处理呈现出3大重要趋势,其一是从离线到在线的趋势,圈里现在基本都不怎么提离线分析了,而是在讨论在线分析。第二个趋势是从统计到AI的趋势,用AI技术去做数据处理不再是未来的事儿,而是现在已经正在发生着。第三个趋势是在线分析平台化,支持多样化的数据如文本、Json、图片等,实现数据融合、统一、联合计算。
他认为,这些趋势在未来的5年以内,会在中国乃至全球普及,未来数据分析是开放化、在线化的时代。他还指出,对未来企业业务的改造,怎么样让数据部门不再是企业的负担,而是一种增值,也是个很重要的探索方向。
PB级大数据在线分析对数据计算的要求不仅要面对越来越大的数据量能被在线计算,更要求实时,几秒内返回,还可以被界面交互,并且可以让人人都可以当分析师,同时可以去探索,需要足够的开放性。
目前阿里大数据分析在线化和开放化的实践,主要应用于电商业务、营销业务、O2O、交通、物流、娱乐、金融、征信、安全等几十个场景。涉及营销管理,安全风控,推荐,预测,洞察等多个方面。

  ▲在线分析交通行业应用实践


▲在线分析公安行业应用实践
在阿里强势领域电商的应用就不多说,让人眼睛一亮的是在交通、安全行业的应用。
最后,是演讲中最精华的部分,阿里大数据分析在线化和开放化是怎么应用的,都在典型业务架构图中。

架构图中,我们发现与众不同的是AnalyticDB,这是阿里自研的大规模高性能分析型数据库,其实AnalyticDB并不是个新产品。会后,离哲在接受笔者采访时表示,AnalyticDB在2014年就上云了,主要目标是做极速低成本的PB级实时数据仓库。
AnalyticDB主打三个功能:一、低成本;二、极速分析,包含延迟,并发上做到极速。三、上层提供了足够好的应用性,让用户能像用单机数据库一样,绝大部分语言和工具,都能连接。用户可以通过任何BI工具,甚至excel都能连接上来做分析,其目的是让阿里的在线分析能力能被用户以足够低的成本连接和被使用。

  离哲最后表示,AnalyticDB目标是能让数据价值被发现,通过数据价值的实时性,数据探索的实时性,去驱动商业变革。

搞大数据,你不懂这三大数据处理趋势就OUT了的更多相关文章

  1. 搞大数据,Java 工程师需要掌握哪些知识?

    先看再点赞,给自己一点思考的时间,微信搜索[沉默王二]关注这个有颜值却假装靠才华苟且的程序员.本文 GitHub github.com/itwanger 已收录,里面还有一线大厂整理的面试题,以及我的 ...

  2. 都 2021 年了,竟然有人搞大数据时忽略 JSON 而去研究用 C# 把 XML 转换为 XML 的技术

    在大数据项目开发过程中,ETL(Extract-Transform-Load)是必不可少.即便目前 JSON 非常流行,开发人员也有必定会有对远古系统的挑战,而 XML 格式的数据源作为经典存在浑身上 ...

  3. 【大数据技术】Hadoop三大组件架构原理(HDFS-YARN-MapReduce)

    目前,Hadoop还只是数据仓库产品的一个补充,和数据仓库一起构建混搭架构为上层应用联合提供服务. Hadoop集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起. ...

  4. 谁说.NET不适合搞大数据,机器学习、人工智能

    SciSharp Stack SciSharp STACK: https://scisharp.github.io/SciSharp/ 基于.NET的开源生态系统,用于数据科学.机器学习和AI. Sc ...

  5. 谈B2B电商平台与大数据

    数据为王,服务为本——谈B2B电商平台与大数据 2013-06-27 11:10:41 作者:B2B行业资讯 标签:                             大数据           ...

  6. 2018年,Java程序员转型大数据开发,是不是一个好选择?

    近日网上有一篇关于Java程序员职场生存现状的文章“2017年 Java 程序员,风光背后的危机”,在Java程序员圈子里引起了广泛关注和热议. 2017年,Java 程序员面临更加激烈的竞争. 不得 ...

  7. 分布式处理与大数据平台(RabbitMQ&Celery&Hadoop&Spark&Storm&Elasticsearch)

    热门的消息队列中间件RabbitMQ,分布式任务处理平台Celery,大数据分布式处理的三大重量级武器:Hadoop.Spark.Storm,以及新一代的数据采集和分析引擎Elasticsearch. ...

  8. 杂项:大数据 (巨量数据集合(IT行业术语))

    ylbtech-杂项:大数据 (巨量数据集合(IT行业术语)) 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞 ...

  9. 大数据框架:Spark vs Hadoop vs Storm

    大数据时代,TB级甚至PB级数据已经超过单机尺度的数据处理,分布式处理系统应运而生. 知识预热 「专治不明觉厉」之“大数据”: 大数据生态圈及其技术栈: 关于大数据的四大特征(4V) 海量的数据规模( ...

随机推荐

  1. php漂亮的分页类

    <?php    /*    * PHP分页类    * @package Page    * @Created 2013-03-27    * @Modify  2013-03-27    * ...

  2. DOM 对象和jQuery对象的转换

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

  3. Codeforces Round #563 (Div. 2) E. Ehab and the Expected GCD Problem

    https://codeforces.com/contest/1174/problem/E dp 好题 *(if 满足条件) 满足条件 *1 不满足条件 *0 ///这代码虽然写着方便,但是常数有点大 ...

  4. 使用vue-cli 脚手架快速搭建单页面组件 -------webpack工具的介绍

    在使用vue-cli时我们先了解一下什么是webpack. Webpack 是当下最热门的前端资源模块化管理和打包工具.它可以将许多松散的模块按照依赖和规则打包成符合生产环境部署的前端资源.还可以将按 ...

  5. Java Swing 窗体屏幕居中

    Java开发桌面程序用AWT或SWING,可以用设置主窗口位置,使主窗口居中一般使用下面的方法: 01.第一种方法              int windowWidth = frame.getWi ...

  6. Go 位运算符

    Go 位运算符 package main import "fmt" func main() { var a uint = 60 /* 60 = 0011 1100 */ var b ...

  7. NOIp2018集训test-10-6/test-10-7 (联考五day1/day2)

    昨天考完月考,明天初赛,dcoi2017级今天终于开始停课准备noip了,大概没有比本弱校停课更晚的学校了吧.本来就够菜了,怕是要凉透哦. DAY1 T1石头剪刀布 据说爆搜随便做,但是我觉得我的O( ...

  8. 隐藏tomcat页面异常显示的版本信息

    1.正常情况下,tomcat遇到404或500会返回版本信息: 2.有时我们不需要暴露版本信息,像这样: 3.只需要修改apache-tomcat-7.0.59的lib目录下的catalina.jar ...

  9. Git 本地仓库管理

    目录 目录 基本概念 配置 配置个人帐号信息 安装 本地版本库 创建 Git 仓库 Git 仓库版本回退 修改管理 基本概念 工作区(Working Directory): 就是你在电脑里能看到的目录 ...

  10. hexo next主题深度优化(十一),next主题中加入scrollReveal.js,让文章随着鼠标的滚动,出现点小动作。

    文章目录 效果 scrollReveal简单介绍以及简单操作 参考文档: next主题中加入scrollReveal 给article标签添加属性 给底部的不蒜子添加属性 本地引入依赖并且编写启动函数 ...