Kubernetes 是用于编排容器化应用程序的云原生系统。最初由 Google 创建，如今由 Cloud Native Computing Foundation（CNCF）维护更新。

Kubernetes 是市面上最受欢迎的集群管理解决方案之一。它自动化容器化应用程序的部署、扩展和管理，允许管理和协调跨多个主机的容器集群，提供容错性和可伸缩性等服务。

简单点说，如果你的应用程序可以容器化（例如，借助 Docker），那么绝对应该使用 Kubernetes 来运行和管理这些应用程序。在 k8s 的支持下，可以大大提高本地或云托管基础架构的利用率，所有计算资源都可以在多个应用程序之间动态而合理地共享。

Kubernetes 负责在整个应用生命周期中调度并自动执行与容器相关的任务，包括部署、运维、服务发现、存储配置、负载均衡、自动扩展、自我治愈实现高可用性等等。

如今，Kubernetes 和更广泛的容器生态系统日益成熟，成为通用的计算平台和生态系统，可与作为现代云基础架构和应用基本构建块的虚拟机 (VM) 一争高下，甚至大有后来居上之势。但是 Kubernetes 本身是一个比较复杂的平台，一个运维或者开发人员如果要说快速精通 Kubernetes 是不可能的，所以这就提高了传统运维开发人员使用其的门槛。

EasyMR 作为一款提供一站式可视化组件安装部署与可观测运维管理能力的大数据计算引擎产品，我们自然也基于 Kubernetes 部署进行了实践探索。

EasyMR 基于 Kubernetes 部署的探索

之前我们讨论的 EasyMR 都是基于主机集群的模式下，需要部署服务就需要先接入主机，然后部署对应产品包服务从而完成应用集群的快速搭建。但是随着云原生相关技术栈(容器、微服务、服务网格等)和 Kubernetes 近些年的流行，传统模式也急需更新换代以适应大趋势的发展。所以我们决定在 EasyMR 原有的基于产品包部署的产品模式基础上，全新打造一个容器化部署的版本。

前面我们说过，由于 Kubernetes 自身的复杂性，一般开发运维人员使用起来是比较费力的，比如控制器（Deployment/Daemonset/Statefulset/Job/CronJob），存储（PVC/PV/StorageClass）等等，所以我们还是将复杂性交给平台去解决，暴露给用户的交互则是通俗易懂的。

在主机集群模式下，部署服务的步骤为下载包->解压缩安装包->配置下发->服务启动，EasyMR 自身的 easyagent 可以做到服务的全生命周期管理。基于 Kubernetes 的架构下，我们再去开发对应版本的 agent 也是可以做到的，但是经过对市面上一些开源服务的调研，我们发现 kubevela 正好可以弥补我们这部分能力。

kubevela 使用 OAM（Open Application Model），本质是根据软件设计的关注点分离原则对负责的 DevOps 流程的高度抽象和封装，一个以应用为中心的 Kubernetes API 分层，这种模型旨在定义云原生应用的标准。

作为 EasyMR 平台，基于 kubevela，我们只需要提供多种可扩展的组件类型，便可以对上层用户屏蔽 Kubernetes 的底层复杂实现逻辑。使用 EasyMR 部署 Kubernetes 服务的用户只需要关注服务类型以及修改应用配置，便可以实现服务的部署，关于 kubevela/OAM 更详细的部分我们会在后面的文章中介绍，本文便不多赘述。

对 EasyMR 而言，部署服务的维度始终是产品包，这点我们并没有去做更改，产品包的核心就是 schema 文件。因此，我们扩展了一些字段以适应 Kubernetes 部署的要求。

上述表格的 workload 表示服务类型，比如说平台内置主从 MySQL 的 workload，那么只需要在产品包中声明服务类型是 MySQL 以及镜像的名称，当执行部署的时候，平台会自动创建 MySQL 的有状态应用 statefulset、配置文件 configmap、服务 service、存储 pv/pvc 等等 Kubernetes 底层资源。大大节省了人力成本，提升了交付效率，后续如果需要扩展组件类型也可以在平台迭代中逐步完善。

EasyMR 云化部署架构如下图所示：

架构图中 vela-core 是核心部署组件，config-reloader 会动态监测 Pod 使用的 configmap 的更新状态从而重启应用 Pod。

EasyMR 基于 Kubernetes 的未来探索

EasyMR 作为基于云原生技术和 Hadoop、Hive、Spark、Flink、Hbase、Presto 等开源大数据组件构建的弹性计算引擎，做到能部署大数据组件只是里程碑中的第一步，未来我们的目标会投向更长远的地方——存算分离：

● 使用 Kubernetes 替代 Yarn 作为调度组件

以 Flink 和 Spark 为代表的分布式流批计算框架的下层资源管理平台逐渐从 Hadoop 生态的 YARN 转向 Kubernetes 生态的 Kubernetes原生 scheduler 以及周边资源调度器，比如 Volcano 和 Yunikorn 等。

● 使用对象存储+缓存加速

随着云计算技术的成熟，企业存储又多了一个选项——对象存储。最早从 AWS 开始，后来所有的云厂商都在向这个方向发展，用对象存储去替换 HDFS。

但是对象存储用于支持 Hadoop 这样复杂的系统，会出现以下问题：文件 Listing 性能较弱；对象存储没有原子 Rename 从而影响任务的稳定性；对象存储数据最终一致性的机制会降低计算过程中的稳定性和正确性。所以我们还需要 Alluxio/Juicefs 这样的缓存加速层来提升我们使用对象存储的性能。

《数栈产品白皮书》：https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址：https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=szbky

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」，交流最新开源技术信息，qun号码：30537511，项目地址：https://github.com/DTStack

利用 Kubernetes 降本增效？EasyMR 基于 Kubernetes 部署的探索实践的更多相关文章

kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析
作者:詹雪娇,腾讯云容器产品经理,目前主要负责腾讯云集群运维中心的产品工作. 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云TKE集群和运维中心开发工作. 引言降本增 ...
kubernetes 降本增效标准指南| 资源利用率提升工具大全
背景公有云的发展为业务的稳定性.可拓展性.便利性带来了极大帮助.这种用租代替买.并且提供完善的技术支持和保障的服务,理应为业务带来降本增效的效果.但实际上业务上云并不意味着成本一定较少,还需适配云上 ...
kubernetes 降本增效标准指南｜理解弹性，应用弹性
弹性伸缩在云计算领域的简述弹性伸缩又称自动伸缩,是云计算场景下一种常见的方法,弹性伸缩可以根据服务器上的负载.按一定的规则.进行弹性的扩缩容服务器. 弹性伸缩在不同场景下的含义: 对于服务运行在自建 ...
Kubernetes 降本增效标准指南 | 基于K8s 扩展机制构建云上成本控制系统
作者王玉君,腾讯云后台高级开发工程师,负责腾讯云原生系统开发及建设. 晏子怡,腾讯云容器产品经理,在K8s弹性伸缩.资源管理领域有丰富的实战经验. 导语 Kubernetes 作为 IaaS 和 P ...
kubernetes 降本增效标准指南｜ProphetPilot：容器智能成本管理引擎
作者田奇,腾讯云高级工程师,专注大规模离在线混部,弹性伸缩,云原生成本优化,熟悉Kubernetes,关注云原生大数据.AI. 王孝威,腾讯云容器产品经理,热衷于为客户提供高效的 Kubernete ...
宙斯盾 DDoS 防护系统“降本增效”的云原生实践
作者 tomdu,腾讯云高级工程师,主要负责宙斯盾安全防护系统管控中心架构设计和后台开发工作. 导语宙斯盾 DDoS 防护系统作为公司级网络安全产品,为各类业务提供专业可靠的 DDoS/CC 攻击防 ...
基于Kubernetes的hpa实现pod实例数量的自动伸缩
Pod 是在 Kubernetes 体系中,承载用户业务负载的一种资源.Pod 们运行的好坏,是用户们最为关心的事情.在业务流量高峰时,手动快速扩展 Pod 的实例数量,算是玩转 Kubernetes ...
基于Kubernetes的WAF集群介绍
Kubernetes是Google开源的容器集群管理系统.它构建Docker技术之上,为容器化的应用提供资源调度.部署运行.服务发现.扩容缩容等整一套功能,可看作是基于容器技术的PaaS平台. 本文旨 ...
白瑜庆：知乎基于Kubernetes的kafka平台的设计和实现
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文首发在云+社区,未经许可,不得转载. 自我介绍我是知乎的技术中台工程师,现在是负责知乎的存储相关组件.我的分享主要基于三个,一个是简单 ...
腾讯基于Kubernetes的企业级容器云平台GaiaStack (转)
GaiaStack介绍 GaiaStack是腾讯基于Kubernetes打造的容器私有云平台.这里有几个关键词: 腾讯:GaiaStack可服务腾讯内部所有BG的业务: Kubernetes:Gaia ...

随机推荐

CentOS 版本选择DVD、Everything、LiveCD、Minimal、NetInstall
CentOS 7.X,主要是下载的时候有很多版本供选择,如何选择? DVD版:这个是常用版本,就是普通安装版了,推荐大家安装.里面包含大量的常用软件,大部分情况下安装时无需再在线下载,体积为4G.Ev ...
Docker镜像介绍
一.Docker镜像介绍镜像是Docker的三大核心概念之一. Docker运行容器前需要本地存在对应的镜像,如果镜像不存在本地,Docker会尝试先从默认的镜像仓库下载(默认使用Docker Hu ...
deepseek+dify工作流实现代码审计
一.登录dify,设置deepseek apikey 登录dify(https://cloud.dify.ai/signin) 设置deepseek apikey 二.创建dify工作流添加工作流应 ...
"油猴脚本""篡改猴"领域的一些基本常识
本文简要介绍本人对"油猴脚本","篡改猴"领域的一些见解,内容注定不可能一步到位和事无巨细,欢迎各位仁人志士对我批评指正,提出意见建议.另外转载前请务必注明作者 ...
Markdown 中如何添加图片
语法 ![alt text](uri "optional title") alt text:可选,图片标签,用来描述的关键词,图片加载错误时候的替代文本,也可用于SEO. uri: ...
postgresql的日期函数
一个to_char干完所有的活.包括日期的转换函数返回类型描述实例 to_char(timestamp, text) text 将时间戳转换为字符串 to_char(current_times ...
nodejs调用shell
shelljs https://github.com/shelljs/shelljs 实例 var shell = require('shelljs'); if (!shell.which('git' ...
kettle介绍-参数变量
ETL中为什么使用参数变量实现ETL的复用 D,Q,P环境不同,使用变量方便发布有的条件需要外部传入增量ETL 灵活性强 kettle中参数变量种类 Environment Variables ...
在Avalonia/C#中使用依赖注入过程记录
前言使用依赖注入可以让我们的程序变得更加好维护与测试. 今天分享的是在Avalonia/C#中使用依赖注入. 我准备了一个简单的不使用依赖注入与使用依赖注入的demo. 该demo已上传至GitHu ...
有的时候，需要利用UserControl占位模板，动态替换的情况，绑定后无法获取DataContext的问题
有的时候,需要利用UserControl占位模板,动态替换的情况,绑定后无法获取DataContext的问题,特此备注下效果如下: 关键的地方是,下面第3行,需要把当前的上下文传递到Content, ...

利用 Kubernetes 降本增效？EasyMR 基于 Kubernetes 部署的探索实践

EasyMR 基于 Kubernetes 部署的探索

EasyMR 基于 Kubernetes 的未来探索

利用 Kubernetes 降本增效？EasyMR 基于 Kubernetes 部署的探索实践的更多相关文章

随机推荐

热门专题