华为云鲲鹏云容器 见证BigData Pro蝶变之旅大数据之路顺应人类科技的进步而诞生,一直顺风顺水,不到20年时间,已渗透到社会生产和人们生活的方方面面,。然而,伴随着信息量的指数级增长,大数据也开始面临存储资源告急、算力吃紧、数据处理效率无法满足业务增长诉求等一系列问题,导致唱衰之声此起彼伏。而近年来兴起的容器技术,以其轻量化、易迁移、扩容快等优势,结合计算存储分离的分布式架构,可以更好地发挥大数据平台在海量数据集、高并发、实时分析等应用场景下的优势。

翩然入世

互联网、汽车、保险、电力、零售等行业,利用海量信息分析用户特征及行为模式,从而制定更贴近用户的服务方案、商业策略,并进行精准推送。目前大部分数据分析都在Hadoop生态中进行,Hadoop也凭借其完善的生态,备受用户欢迎,成为主流的开源大数据平台,也成为了大数据的代名词。

困蛹之境

然而,从2006第一个Hadoop版本发布算起的话,大数据的发展也经历了至少13个年头,当初引以为傲的“计算存储融合”架构以及先进的数据分析理念和实践,也开始遭受挑战:

  1. 计算存储资源耦合,无法灵活调整存算配比,只能按固定比例扩容,导致部分资源浪费;

  2. 数据中心建设成本高,后期运维成本有高,性价比和灵活度均不如公有云方案;

  3. 互联网时代,数据爆炸式增长,现有数据中心资源不足,极易导致作业拥塞,降低计算效率;

  4. 大数据与其它业务资源池无法共享,需分开维护多套,进一步增加运维成本。

此外,AI、机器学习、自然语言处理(NLP)等概念的兴起,也对大数据造成冲击,“大数据已死”的风声开始不绝于耳。

破茧之挣

随着5G+云+AI时代来临,数据变得更多、更复杂、更精细化,大数据不仅没有死,反而对企业变得前所未有的重要。而亟待我们解决的问题是:如何用一种更高效、更实用的解决方案,处理爆炸式增长的数据。围绕这一课题,各大公司也展开了新一轮的技术探索与升级。

首先,基础网络飞速发展,网络传输已不再是瓶颈,许多公司开始在大数据的存储和计算分离方面做尝试,效果如何呢?IDC中国报告指出:“解耦计算和存储在大数据部署中被证明是有用的,它提供了更高的资源利用率,更高的灵活性和更低的成本。”

同时,伴随着容器技术的成熟及在各行业的深入应用,部分企业也着手于平台的容器化改造,希望结合容器的优势,为大数据平台赋予新的力量。

二者结合,我们似乎看到了大数据蜕变的曙光。

化蝶之旅

目前,存算分离的方案相对已经比较成熟,容器化方案还处于探索和小规模应用阶段,以Spark为例,方案大体上分为2种:

一种是Spark Standalone,该方案仅对大数据系统做容器化部署改造,得益于容器轻量化、更细粒度的算力管理、任务隔离等特点,可以将主机划分成更多小颗粒的任务单元,使主机资源利用率更高,同时兼顾用户原有的使用习惯。

但此方案需要提前分配固定的容器数量,并保持容器的持续运行,无法对容器进行动态管理,资源的利用率虽然有所提升,但仍存在浪费。

另一种是Spark On Kubernetes集群方案,该方案使用Kubernetes替代Yarn来进行统一的资源编排和调度,技术上更贴近主流容器解决方案,免去了二层调度,可以进一步提升资源管理效率,相比Standalone方案,实现了对容器资源的动态管理,优化了资源分配。

然而,Kubernetes不属于Hadoop生态组件,与传统Spark on YARN方案相比存在一些劣势,如:缺少任务队列、external shuffle service等特性,且性能较差。因此在应用到生产系统时,还要做大量的功能增强、调度和性能优化,才能保持与传统大数据平台一致。

针对客户容器化过程中的问题,华为云计划推出鲲鹏大数据容器解决方案,该方案与BigData Pro相结合,将提供一套更完善的容器化大数据解决方案。BigData Pro是业界首个鲲鹏大数据解决方案,该方案采用基于公有云的存算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务为统一的存储数据湖,提供“存算分离、极致弹性、极致高效”的全新公有云大数据解决方案,大幅提升了大数据集群的资源利用率,能有效应对当前大数据行业存在的瓶颈,帮助企业应对5G+云+智能时代的全新挑战,实现企业智能化转型升级。

未来可期

2019年全联接大会上,华为云将正式发布鲲鹏大数据容器解决方案,该方案针对大数据业务场景,在功能、调度和性能上有了优化和增强,能为用户提供更原生的大数据服务体验。

华为云鲲鹏大数据容器相比业界主流大数据平台有哪些优势?华为云鲲鹏大数据容器又使用了哪些黑科技?9月18日华为全联接大会,让我们一起拭目以待!

华为云BigData Pro解读: 鲲鹏云容器助力大数据破茧成蝶的更多相关文章

  1. 《一张图看懂华为云BigData Pro鲲鹏大数据解决方案》

    8月27日,华为云重磅发布了业界首个鲲鹏大数据解决方案--BigData Pro.该方案采用基于公有云的存储与计算分离架构,以可无限弹性扩容的鲲鹏算力作为计算资源,以支持原生多协议的OBS对象存储服务 ...

  2. docker容器与大数据组件的冲突点

    1.容器里面安装spark,外面的程序(安装spark主机的容器)会连接不上集群.理由:这个组件用的akka,连接上集群,会提示: akka.ErrorMonitor: dropping messag ...

  3. 如何解读「量子计算应对大数据挑战:中国科大首次实现量子机器学习算法」?——是KNN算法吗?

    作者:知乎用户链接:https://www.zhihu.com/question/29187952/answer/48519630 我居然今天才看到这个问题,天……本专业,有幸听过他们这个实验的组会来 ...

  4. AI加持的阿里云飞天大数据平台技术揭秘

    摘要:2019云栖大会大数据&AI专场,阿里云智能计算平台事业部研究员关涛.资深专家徐晟来为我们分享<AI加持的阿里云飞天大数据平台技术揭秘>.本文主要讲了三大部分,一是原创技术优 ...

  5. 大数据运维尖刀班 | 集群_监控_CDH_Docker_K8S_两项目_腾讯云服务器

    说明:大数据时代,传统运维向大数据运维升级换代很常见,也是个不错的机会.如果想系统学习大数据运维,个人比较推荐通信巨头运维大咖的分享课:https://url.cn/5HIqOOr,主要是实战强.含金 ...

  6. 腾讯云EMR大数据实时OLAP分析案例解析

    OLAP(On-Line Analytical Processing),是数据仓库系统的主要应用形式,帮助分析人员多角度分析数据,挖掘数据价值.本文基于QQ音乐海量大数据实时分析场景,通过QQ音乐与腾 ...

  7. Lambda plus: 云上大数据解决方案

    本文会简述大数据分析场景需要解决的技术挑战,讨论目前主流大数据架构模式及其发展.最后我们将介绍如何结合云上存储.计算组件,实现更优的通用大数据架构模式,以及该模式可以涵盖的典型数据处理场景. 大数据处 ...

  8. 不服跑个分:ARM鲲鹏云服务器实战评测——华为云鲲鹏KC1实例 vs. 阿里云G5实例【华为云技术分享】

    原文链接:https://m.ithome.com/html/444828.htm 今年一月份,华为正式发布了鲲鹏920数据中心高性能处理器,该处理器兼容ARM架构,采用7纳米制造,最高支持64核,主 ...

  9. 性能达到原生 MySQL 七倍,华为云 Taurus 技术解读【华为云技术分享】

    版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/detai ...

随机推荐

  1. vue引入百度地图 --BMap is not defined ,eslint BMap报错

    在mounted初始化地图的时候,因为异步问题会导致BMap is not defined,也就是百度的api还没完全引入或者加载完成,就已经进行地图初始化了 解决方法: 1.创建一个map.js e ...

  2. UiPath之如何打印PDF

    各位小伙伴,大家好,今天写一点基础知识,如何在UiPath中打印PDF. ---小U的QQ群(714733686):小U的订阅号[UiPath8888]--- 当然,我们最希望的就是有一个Activi ...

  3. C语言程序设计100例之(6):数字反转

    例6    数字反转 题目描述 给定一个整数,请将该数各个位上数字反转得到一个新数.新数也应满足整数的常见形式,即除非给定的原数为零,否则反转后得到的新数的最高位数字不应为零(参见样例2). 输入格式 ...

  4. 201871010114-李岩松《面向对象程序设计(java)》第七周学习总结

    项目 内容 这个作业属于哪个课程 https://www.cnblogs.com/nwnu-daizh/ 这个作业的要求在哪里 https://www.cnblogs.com/nwnu-daizh/p ...

  5. Groovy单元测试框架spock基础功能Demo

    spock是一款全能型的单元测试框架. 最近在做单元测试框架的调研和尝试,目前确定的方案框架包括是:spock,Junit,Mockito以及powermock.由于本身使用Groovy的原因,比较钟 ...

  6. Ubuntu18.04.3 LTS初体验

    安装系统 想来虚拟机安装太慢,正好有一台旧电脑,干脆整个乌班图系统. 启动盘工具:UltraISO,老牌工具了. 上官网下载ISO镜像文件: https://cn.ubuntu.com/downloa ...

  7. 深入讲解 Laravel 的 IoC 服务容器

    众所周知,Laravel 控制反转 (IoC) / 依赖注入 (DI) 的功能非常强大.遗憾的是, 官方文档 并没有详细讲解它的所有功能,所以我决定自己实践一下,并整理成文.下面的代码是基于 Lara ...

  8. nyoj 822-画图 (*)

    822-画图 内存限制:64MB 时间限制:1000ms 特判: No 通过数:133 提交数:187 难度:0 题目描述: 计算机画图也挺有趣的哈!那我们就来用计算机画幅图吧... 输入描述: 输入 ...

  9. NetCore基于EasyNetQ的高级API使用RabbitMq

    一.消息队列 消息队列作为分布式系统中的重要组件,常用的有MSMQ,RabbitMq,Kafa,ActiveMQ,RocketMQ.至于各种消息队列的优缺点比较,在这里就不做扩展了,网上资源很多. 更 ...

  10. root权限后,不要忘了还有selinux

    下面的例子运行在中兴android 5.0手机上. 当我们使用root权限的python去创建socket监听端口8088时,selinux向kmsg输出了下面的记录 python-android5 ...