> 风起云涌的大数据战场上,早已迎百花齐放繁荣盛景,各大企业加速跑向“大数据时代”。而我们作为大数据的践行者,在这个“多智时代”如何才能跟上大数据的潮流,把握住大数据的发展方向。

### 前言

大数据起源于2000年左右,也就是互联网高速发展阶段。经过几年的发展,到2008年 Hadoop 成为 Apache 顶级项目,迎来了大数据体系化的快速发展期,到如今 Hadoop 已不单单指一个软件,而成为了大数据生态体系的代名词。

自2014年以来,国内大数据企业层出不穷,可以用“乱花渐欲迷人眼”形容现状,也是在这一年,我国《政府工作报告》首次提出“大数据”,大数据作为一种新兴产业正式登陆中国舞台。之后,又上升至国家战略。自此“大数据”这三个字频繁出现在各大媒体上。

在大数据的发展历程中,互联网企业是布局较早且融合较深的行业之一。因其互联网属性的优势在大数据领域布局较早。

而提到国内互联网大数据企业,就不得不提国内互联网三巨头(百度、阿里、腾讯),三巨头的大数据业务围绕其自身业务发展而成:**百度重算法、阿里重电商、腾讯重社交**,出于自身战略,三巨头在大数据领域的布局方面各有重心,反映出其企业发展方向的战略和思路。
![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_4.jpg)

### BAT的大数据产业

BAT 是我国互联网企业中大数据布局较早也是较具有竞争优势的公司。其中,**阿里布局大数据产业最早,腾讯次之,百度则最晚**。

#### 阿里

阿里大数据发展战略在 2008 年提出,随后围绕电商业务,阿里在数据集群、数据仓库等方面做出了部署。

如今,提到阿里大数据,可以从两方面来作观察:一是以阿里电商业务基础建立起来的阿里数据;二是阿里云。

阿里数据以淘宝、天猫、阿里妈妈等平台为业务线,通过数据采集、数据计算、数据服务、数据应用等环节,形成从数据采集到数据应用的闭环系统

阿里云则主要以在线公共服务的方式,为用户提供云服务器、云数据库、云安全等云计算服以及大数据、人工智能服务、精准定制等基于场景的行业解决方案。创立于 2009年,如今,阿里云已成为全球前三大公共云服务提供商。

另一方面阿里也是十分有远见的,早在15、16年开始做Flink,深耕布局、落地双11、孵化Blink,据称搞了上百人的团队,在国内外的技术会议上不断宣传推广,在2019年开年,阿里以9000万欧元收购了Apache Flink母公司Data Artisans,将Flink收入囊中,目前,Flink 可以称之为 Apache 基金会中最为活跃的项目之一,在 GitHub 上其访问量在 Apache 项目中位居前三。同时,在全球范围内,优步、网飞、微软和亚马逊等国际互联网公司也逐渐开始使用 Apache Flink。

![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_1.jpg)

#### 腾讯

2009 年 1 月,腾讯搭建第一个 Hadoop 集群,标志着腾讯大数据之路正式开启。

与阿里不同,腾讯大数据主要围绕其社交、游戏业务展开。坐拥着海量的用户数据。

基于微信、QQ 等社交工具,通过对移动用户的数据分析,建立用户个人画像(如用户的社会关系、性格禀赋、兴趣爱好等)提供相应的营销服务。

工具,工具主要有腾讯移动推送信息“信鸽”,同样也是围绕腾讯的社交用户数据开发而成,提供向用户推送消息的服务。

腾讯云,起步比阿里云晚几年,目前暂时落后于阿里云,但是云计算市场是一个马拉松赛,起步早是一方面,但最终还是要看谁能坚持到最后。

之前看过一篇资讯,中国IT领袖峰会在深圳举行,在一个对话环节。

李彦宏说:“云计算这个东西不客气一点讲它是新瓶装旧酒,没有新东西。”

马化腾说:"云计算让计算能力、处理能力甚至逻辑组件都能够像水和电一样使用,的确是有想象空间的,但可能你过几百年、一千年后才可能实现,现在还是确实过早了。"

马云大概意思:“云计算这个东西应该好好做,今天就应该做,如果阿里巴巴不做云计算,腾讯、百度会把阿里巴巴赶出电子商务门口。“

从对话中能看出马云的眼光很好。李彦宏和马化腾虽都是技术出身,但没有一个教师出身的马云眼光长远。

另一点,腾讯相比其他巨头在技术方面要低调不少。技术大牛很少出来做报告,更不会向百度、阿里那样主动包装宣传技术大牛。其技术虽然低调,但执行力很强。据腾讯的程序员朋友说封闭开发、集体加班是常有的事情。但配套的重金激励也能跟上。重金之下必有勇夫!

![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_2.jpeg)

#### 百度

BAT 中,百度大数据战略提出时间最晚,但举措频频。

2013 年,百度成立深度学习实验室(IDL),发力人工智能。

2014 年,百度对外宣布开放“大数据引擎”,以开放云、数据工厂和百度大脑三个为核心组件,
通过平台化和接口化的方式,对外开放其大数据存储、分析和智能化处理等核心能力。作为全球首个开放大数据引擎,百度“大数据引擎”已与政府、非政府组织、制造、医疗、金融、零售和教育等传统领域展开合作。

同年 8 月,百度与联合国宣布启动战略合作,共建大数据联合实验室 (bdl),探索利用大数据解决全球
性问题的创新模式。
2017 年 3 月 2 日,百度揭牌深度学习技术及应用国家工程实验室,“国字号”AI实验室落户百度。

可以看出,百度不同于阿里和腾讯基本以自身业务布局大数据,其大数据布局侧重于新方向,在人工智能上尤其突出。不过,梳理百度大数据的数据产品可以发现,其大数据产品涉及数据分析、数据风控、数据营销等,布局较广。

![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_3.jpg)

### 大数据领域分析

大数据技术发展到如今,已经形成了完备的体系结构及应用方向,技术迭代速度非常快,新框架层出不穷,大数据应用方向不断细化,从业人员越来越多。

大数据时代,数据量大,数据源异构多样,数据时效性等特征催生了大量的新技术需求。在这样的需求下,诞生了**规模化并行处理(MPP)** 的分布式计算框架;面向海量的非结构化数据,出现了 Hadoop、Spark等生态体系的**分布式批处理框架**;面对时效性及实时处理的需求,出现了Flink、Spark Streaming等**分布式流处理框架**。

下图为 Apache 生态下的大数据框架:

![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210106.png)

未来在 Apache 中孵化成功的大数据框架会越来越多,大数据生态体系会越来越完善,也意味着大数据的门槛会越来越低,入行的人越来越多。所以为了我们不被时代所淘汰,需要不断学习,前期学习广度,后期专注深度。**潜心一技,练到极致**!

**应用层面**

大数据在应用层面划分了以下几个大类:**金融大数据、营销大数据、交通物流大数据、医疗大数据、教育大数据、文娱大数据**等。

我们接下来以大数据科研及大数据企业两方面进行分析:

#### 1. 大数据科研

自 2012 年大数据广泛实际应用以来,产业界和学术界在大数据技术与应用方面的研究创新不断取得突破,大数据领域的论文发表数量快速增长。

以下为 2012-2020年全球大数据论文发表数量及各国占比:

![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_5.png)

![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_6.png)

数据来源:Web of Science,2020年10月

从上图可以看出,论文发表数量在2018年达到顶峰,是2012年的5.4倍,年增长率为 32.5%,随后2019年论文数量开始下降,2020年全年数量预计较去年还会近一步下滑,这也说明**随着科学研究的不断进展,大数据的相关理论体系逐渐成熟**,未来学术论文发表增长速度或将放缓。

从国家来看,中国和美国仍然是大数据学术研究的核心地带。发表的论文数量遥遥领先于其他国家。未来在大数据领域,应该还是以中国和美国为首,带领大数据技术走向更高的水平。

再来看国内大数据产业的发展状况,根据工业和信息化部发布的数据显示,2019年我国以云计算、大数据技术为基础的平台类技术服务收入2.2万亿元,其中,典型云服务和大数据服务收入达3284亿元,提供服务的企业达2977家,由此可见,大数据产业发展日益壮大。

#### 2. 大数据企业

**大数据企业数量增长统计**
![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_11.png)

数据来源:中国信息通信研究院,2020年10月

从上图可以看出国内大数据企业在 2014 年、2015 年呈现爆发式增长,而在 2016 年
后又有回落,这与大数据在我国的发展状况相对应。**2014 年被称为大数据元年**,随后在国家政策的支持下,各大数据企业应运而生,之后随着创业者的冷静,大数据企业也趋于减少。
***

**是否有国资背景**
![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_7.png)

数据来源:数据观

大数据行业虽然有国家政策的支持,但大部分还是以私企为主,具有国资背景的企业较少,只占总体的 13%。
***

**大数据企业地域分布**
![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_8.png)

数据来源:中国信息通信研究院,2020年10月

由表中数据可以得出,北京是大数据企业的“高发区”,占比为35%,其次是广东(18%),之后是上海(16%),然后是浙江(8%),所以我国大数据企业主要分布在北京、广东、上海、浙江等经济发达省份。
***

**大数据行业应用企业类型分布**
![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_9.png)

数据来源:中国信息通信研究院,2020年10月

从图中可以看出大数据涉及的行业是非常广泛的,其中以金融、医疗健康、政务为大数据行业应用的主要类型。除此之外依次是互联网,教育,交通运输,电子商务等。
***

**大数据获投轮次分布**
![](https://cdn.jsdelivr.net/gh/sunmyuan/cdn/210202_10.png)

数据来源:中国信息通信研究院,2020年10月

从上图看出获 天使轮、A 轮 融资企业较多,说明我国大数据企业数量虽然众多,但大部分处于初级阶段,技术能力、技术落地能力有待提高。另一方面也说明投资机构对大数据市场依然充满信息,对未来估值抱有很大期望。

### 大数据未来发展趋势

> 以下观点来源:中国信息通信研究院

#### 1. 以控制成本为主要理念

大数据自诞生以来始终沿袭着基于Hadoop或者MPP的分布式框架,形成了具备存储、计算、处理、分析等能力的完整平台,**大数据分布式框架采用存储与计算耦合**,使数据在自身存储的节点上完成计算,以降低交互。

但是实际业务中数据存储与计算能力要求不同且各自独立的。**在存储与计算耦合的情况下,当二者之一出现瓶颈时,资源的横向扩展必然导致存储或计算能力的冗余,造成难以避免的额外成本**。

**存储与计算分离有效控制成本**。存储与计算在数据的生命周期中剥离开,形成两个独立的资源集合。两个资源集合之间互不干涉又通力协作,使得单位资源的成本尽量减少,同时兼具充分的弹性以供横向扩展。这种模式应是未来的发展方向。

目前国内外众多厂商已深入进行了存算分离的实践。国内像阿里云使用自身 **EMR+OSS产品代替原生 Hadoop 存储架构**,整体费用预估下降 50% 。华为使用自身 **FusionInsight+EC**,存储利用率从 33% 提升至 91.6%。

国外像 Snowflake 公司提出的**数据仓库服务化(DaaS)**,将分析能力以云服务的形式在AWS等云平台上提供按次计费的服务。

#### 2. 自动化智能化需求紧迫

目前大数据领域的数据管理依赖人工操作,成本巨大。在基于机器学习的人工智能不断进步的情况下,**更加自动化智能化的数据管理平台将会助力数据管理工作高效进行。**

其中以 **数据建模、数据标签、主数据发现、数据标准应用**成为主要的应用方向。

#### 3. 图分析需求旺盛

以社交网络、用户行为、网页链接关系等为代表的数据,往往需要通过“图”的形态以最原始、最直观的方式展现其关联性。

所以**专注于图结构数据的图分析技术成为数据分析技术的新方向**。与图分析相关的技术成为热点的产品方向,其中以**图数据库、图计算引擎、知识图谱**三项技术为主。

根据 DB-Engines 排名分析,图数据库关注热度在2013-2020年间增长了10倍,关注度增长排名第一。国内阿里云、华为、腾讯、百度等厂商及部分初创公司已布局这一领域。

#### 4. 隐私计算技术热度上升

在数据合规流通需求旺盛的环境下,隐私计算技术发展火热,隐私计算为实现安全合规的数据流通带来了可能。

目前隐私计算主要分为**多方安全计算**和**可信硬件**两大流派。其中多方安全计算基于密码学理论;可信硬件依赖对安全硬件的信赖。

此外,还有**联邦学习**、**共享学习**等通过多种技术手段平衡安全性和性能的隐私保护,也为跨企业机器学习和数据挖掘提供新的解决思路。

***
参考来源:中国信息通信研究院[大数据白皮书(2020年)];数据观(www.cbdio.com)

分析 BAT 互联网巨头在大数据方向布局及大数据未来发展趋势的更多相关文章

  1. http://edu.manew.com/ ,蛮牛教育(很少免费),主要是unty3D和大数据方向。适合扫盲

    http://edu.manew.com/ ,蛮牛教育(很少免费),主要是unty3D和大数据方向.

  2. Hadoop! | 大数据百科 | 数据观 | 中国大数据产业观察_大数据门户

        你正在使用过时的浏览器,Amaze UI 暂不支持. 请 升级浏览器 以获得更好的体验! 深度好文丨读完此文,就知道Hadoop了! 来源:BiThink 时间:2016-04-12 15:1 ...

  3. 支付宝openssl漏洞肆虐 互联网巨头称目前已修复

    支付宝openssl漏洞肆虐 互联网巨头称目前已修复 金山毒霸安全专家李铁军表示,这个漏洞使黑客可以远程读取https服务器的随机64KB内存,“只要这个黑客有耐心多捕获多分析那些64KB的数据,用户 ...

  4. 零基础学完Python的7大就业方向,哪个赚钱多?

    “ 我想学 Python,但是学完 Python 后都能干啥 ?” “ 现在学 Python,哪个方向最简单?哪个方向最吃香 ?” “ …… ” 相信不少 Python 的初学者,都会遇到上面的这些问 ...

  5. Data.gov.uk电子政务云,牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践

    牛津大学NIE金融大数据实验室王宁:数据治理的现状和实践 我是牛津互联网研究院的研究员,是英国开放互联网的一个主要的研究机构和相关政策制订的一个机构.今天主要给大家介绍一下英国数据治理的一些现状和实践 ...

  6. 大数据(1)---大数据及HDFS简述

    一.大数据简述 在互联技术飞速发展过程中,越来越多的人融入互联网.也就意味着各个平台的用户所产生的数据也越来越多,可以说是爆炸式的增长,以前传统的数据处理的技术已经无法胜任了.比如淘宝,每天的活跃用户 ...

  7. 为什么互联网巨头们纷纷使用Git而放弃SVN?(内含Git核心命令与原理总结)

    写在前面 最近发现很多小伙伴对于工作中的一些基本工具的使用还不是很了解,比如:Git这个分布式的代码管理仓库,很多小伙伴就不是很了解,或者说不是很熟悉.甚至有些小伙伴都没听说过Git,就只会用个SVN ...

  8. 第十四届智能车队员培训 I/O的使用 数据方向寄存器和数据寄存器的配置 MC9S12D64处理器

    I/O的使用 数据方向寄存器和数据寄存器的配置 I/O输入输出的使用: 数据方向寄存器与数据寄存器 寄存器的概念: 寄存器,是集成电路中非常重要的一种存储单元,通常由触发器组成.在集成电路设计中,寄存 ...

  9. Java-大数据方向学习和已掌握知识点整理

    现在的项目是大数据相关项目,一路走来从最初的 C 开发到 Java 再到 大数据,不容易 大数据方向知识点太多,优先掌握了主流的一些技术并运用到了现在的项目中 另外也整理了一份java开发和项目管理方 ...

随机推荐

  1. Spring Boot 2.x基础教程:实现文件上传

    文件上传的功能实现是我们做Web应用时候最为常见的应用场景,比如:实现头像的上传,Excel文件数据的导入等功能,都需要我们先实现文件的上传,然后再做图片的裁剪,excel数据的解析入库等后续操作. ...

  2. Oracle 模糊查询 优化

    模糊查询是数据库查询中经常用到的,一般常用的格式如下: (1)字段  like '%关键字%'   字段包含"关键字"的记录   即使在目标字段建立索引也不会走索引,速度最慢 (2 ...

  3. 学生成绩管理系统: 统计成绩排序并打印(c++)(内含读取文件.txt及将文件输出excel的方法)

    实验要求:输入30个学生的学号.姓名和5门课程的成绩,计算总分并按照总分排出名次,最后按照学号顺序打印成绩单, 并把成绩单输出为excel文件. txt数据: 2015020981 甲 90 89 9 ...

  4. 《犬夜叉2021》我想通过Binder找到你

    前言 本故事纯属虚构,如有不通顺的逻辑请轻喷.️ <犬夜叉2021> 第一章:我还能找到你吗,阿篱 犬夜叉和奈落大决战之后,四魂之玉.食骨之井消失,谁也不知道去了哪,而犬夜叉和阿篱再次被分 ...

  5. Flutter 基础组件:按钮

    前言 Material组件库中提供了多种按钮组件如RaisedButton.FlatButton.OutlineButton等,它们都是直接或间接对RawMaterialButton组件的包装定制,所 ...

  6. DTCC 2020 | 阿里云李飞飞:云原生分布式数据库与数据仓库系统点亮数据上云之路

    简介: 数据库将面临怎样的变革?云原生数据库与数据仓库有哪些独特优势?在日前的 DTCC 2020大会上,阿里巴巴集团副总裁.阿里云数据库产品事业部总裁.ACM杰出科学家李飞飞就<云原生分布式数 ...

  7. 比较Power BI和Tableau,好比用奔驰对比奥迪

    经常会有人问Power BI和Tableau的区别,好吧,为了非IT专业的能看懂,咱们就用车,奔驰和奥迪来对比一下.因为他们确实有太多相似之处. 所以Power BI VS Tableau,就相当于国 ...

  8. Docker学习笔记之基本命令使用

    测试的环境为Ubuntu1804. 1. search命令搜索镜像 sudo docker search centos 搜索centos相关的镜像,可以看到第一个最多星的的centos是官方的镜像,而 ...

  9. html2canvas canvas webgl 截图透明空🤣

    1. React用这个插件html2canvas完成div截图功能,div里面嵌套canvas,返回base64是透明图片. html2canvas(document.getElementById(& ...

  10. 【Oracle】userenv()函数介绍分析

    说到这个userenv()使用起来还是很有用的 参数   功能 CLINET_INFO                                      返回最高可达64个字节存储的用户会话信 ...