大数据计算引擎 EasyMR：拥抱开源，引领技术创新

身处数字经济时代，随着大数据应用越来越广泛，越来越多的企业和组织开始关注大数据基础平台的建设和运营。在认识到其的重要性之后，如何具体着手搭建或采购大数据基础平台成为下一步需要解决的问题。

在大数据基础平台中，大数据组件是非常重要的一部分，包括数据存储、数据处理、数据分析、数据可视化等。在选择大数据组件时，我们常常在闭源组件和开源组件选择中反复纠结。

本文将从优势、劣势两个维度分析开源组件、闭源组件对大数据基础平台建设的影响，并结合袋鼠云自研的大数据计算引擎 EasyMR 的实践经历进行分享。

开源组件

在大数据领域，开源组件已经成为了构建大数据平台的重要基石。例如 Hadoop、Spark、Hive、HBase、Kafka、Storm、Flink 等开源软件已经成为了大数据处理和分析的主要工具。

这些开源组件不仅提供了高效、可扩展、可靠的大数据处理和存储能力，而且还促进了生态系统的发展，形成了庞大的开发社区和丰富的第三方工具及应用程序。

优势

● 免费

开源组件一般都是免费的，其源代码是公开的，任何人都可以下载、使用、修改和分发，这将极大降低企业的开发和建设成本。

● 灵活性

由于源代码是公开的，企业可以对其进行自定义修改，以适应自身业务需求，增强了灵活性。

● 可扩展性

开源组件通常具有良好的扩展性，可以很容易地集成和升级到其他开源组件。

● 社区支持

开源组件一般拥有庞大的社区，社区成员均可以贡献代码，提供解决方案和支持。这意味着在使用过程中遇到问题，可以得到快速的帮助和解决方案。

开源软件的开发和维护通常由广泛的社区贡献提供，从而形成共同的技术标准和最佳实践，这有助于提高软件质量和安全性，并为企业提供更好的互操作性和可移植性。

劣势

● 依赖社区

开源组件的发展取决于社区的贡献，如果社区贡献较少或者停滞不前，开源组件可能会面临更新缓慢或停止维护的问题。

● 安全性

开源组件的源代码是公开的，这使得黑客和恶意用户可以更轻松地发现和利用其中的漏洞，企业在使用开源组件时，需要进行必要的安全检查和漏洞修复。

商业闭源组件

例如 MapR 公司的 MapR-DB、MapR-ES，IBM 公司的 IBM Streams，Cloudera 公司的 Cloudera Manager、Cloudera Navigator、Cloudera Data Science Workbench 等都是比较主流的大数据闭源组件。

优势

● 技术支持

闭源组件通常由厂商提供技术支持，可以为企业提供更为专业、快速的支持，保障企业的业务稳定性。

● 安全性

商业闭源组件的源代码不公开，使得黑客和恶意用户难以发现和利用其中的漏洞，企业在使用闭源组件时，可以减少安全方面的担忧。

● 定制性

商业闭源组件可以提供定制化的服务，以满足企业的个性化需求。

劣势

● 依赖厂商

商业闭源组件的维护和发展需要依赖厂商的支持，其更新迭代速度比较依赖企业的研发投入，如果厂商出现问题或者停止支持，企业可能需要更换整个组件。

● 价格高昂

商业闭源组件通常需要购买许可证或者按使用量收费，这会极大增加企业的成本。

● 数据生产效率低

商业闭源组件通常会对使用者的自由度和可控性产生限制，如禁止对源代码进行修改等要求。

开源 or 闭源？

开源组件 or 闭源组件，企业究竟应该如何选择？

对比来看，对于需要灵活性和可定制性较高的企业来说，开源组件更为适合；而对于更为注重技术支持和安全性的企业来说，商业闭源组件则更具有优势。

开源组件和商业闭源组件各有优缺点，注定了它们拥有各自的市场需求。但基于 DB-Engines 全球数据管理系统排名来看，开源流行度正在逐年上升，2021年1月开源产品首次超过商业数据库。

开源软件可以降低企业的成本，提高软件产品的通用性，同时促进技术创新和生态系统的发展。

开源软件相比闭源软件的优势主要有两点，一是众人拾材火焰高，通过开源社区的沟通交流，能够更快提高代码质量；二是开源大大提高了软件的推广效率。

可以说，大数据基础平台组件开源，是当前和未来发展的趋势。

EasyMR 的实践之路

袋鼠云大数据计算引擎 EasyMR，作为袋鼠云自研的大数据基础平台，其大数据组件100%基于开源 Hadoop，完全兼容Apache开源生态，与开源社区同步迭代，时刻保持技术的领先性。

在 CDH、HDP 社区版不再更新，国产化信创政策大背景下，袋鼠云支持 CDH/HDP 平滑迁移 EasyMR，助力企业快速实现国产化大数据基础平台的搭建与迁移，真正实现对业务侧不造成任何影响。

袋鼠云作为国内领先的数字化基础软件与应用服务商，十分重视强化产品的基础能力和技术能力，在开源技术的基础上，EasyMR 对 Spark、Flink、Trino、Iceberg 等多个大数据核心组件进行了功能及性能增强。具体优化见下图：

仅在2022年袋鼠云技术同学就完成了上百次的 commit，为 Hadoop 生态的技术发展贡献了属于袋鼠云的力量。

赠人玫瑰手有余香，回馈社区的同时袋鼠云实现了对整个 Hadoop 体系核心代码的完全自主掌握，对于 EasyMR 大数据平台迁移、大数据组件维保、客户培训做到了100%自主可控。

国际环境严峻复杂，袋鼠云深知只有实现关键技术的自主化、国产化，才能真正实现技术创新，攻克“卡脖子”难题。

拥抱开源不止于此

ChunJun 作为袋鼠云重磅打造的批流一体的数据集成大数据开源项目，在袋鼠云及众多开源技术爱好者的协作努力下，目前已进行了5200+commit，拥有3600+star，逐步成为主流的数据集成框架。

今年，EasyMR 将集成 ChunJun 项目，为用户带来更加稳定、高效、易用的批流一体的数据集成解决方案。

基于 EasyMR 的运维管理平台 EasyManager，袋鼠云成功开源一站式全自动化全生命周期运维管家 ChengYing。从开放式统一监控，到定义标准化部署能力，而后引入 Prometheus/Grafana/ 自研 dt-alert 组件，完成统一监控2.0的功能优化，再到多集群管理，帮助企业快速搭建自己的运维管理平台。

EasyMR 的最新版运维管理平台 EasyManager 中的前端组件及样式是基于袋鼠云开源项目 ant-design 的 React UI 组件库、样式库进行打造。袋鼠云 dt- React 组件为使用者提供更丰富的组件库，可以更好的管理组件，减少代码冗余提高前端开发。具体内容将在之后的文章中进行详解。

袋鼠云秉承着开源共享的理念，受益开源的同时积极拥抱世界、拥抱开源，期待与更多开源爱好者一起共建优秀开源产品。

同时，袋鼠云始终坚持自主研发和国产化路线，在技术创新上不遗余力，为企业IT高效、平稳运行保驾护航。

《数据治理行业实践白皮书》下载地址：https://fs80.cn/380a4b

想了解或咨询更多有关袋鼠云大数据产品、行业解决方案、客户案例的朋友，浏览袋鼠云官网：https://www.dtstack.com/?src=szbky

同时，欢迎对大数据开源项目有兴趣的同学加入「袋鼠云开源框架钉钉技术qun」，交流最新开源技术信息，qun号码：30537511，项目地址：https://github.com/DTStack