国内首家!腾讯主导Apache Hadoop新版本发布

 

https://blog.csdn.net/weixin_34194317/article/details/88811258

腾讯也挖了很多大数据的牛人啊..

近日,腾讯主导的Apache Hadoop2.8.4最新版本发布,为国内科技公司迈出了国际开源领域贡献的重要一步。

2006年Apache Hadoop发布,2008年Hadoop成为Apache顶级项目。在那时,中国移动、百度、淘宝等都已经开始使用Hadoop技术。Hadoop现在早已成为Apache软件基金会的金牌项目之一。不仅如此,它还孕育了包括HBase、Hive、ZooKeeper等一系列知名Apache顶级项目,它们一开始都是以Apache Hadoop子项目的形式在社区运作、为开发者熟知的。

这次腾讯主导发布的Apache Hadoop2.8.4版本,涉及20多个大大小小的特性和优化,清单如下:

负责这一版本整体进度的Release Manager,是来自腾讯云产品部大数据及人工智能产品中心的专家研究员堵俊平,他同时也是Apache Hadoop社区PMC的成员。

Apache软件基金会推崇PMC制度,每个开源项目都是一个PMC,即项目管理委员会,可以自行决定技术发展方向和社区运作模式,但需要公开信息,并定期向Apache的董事会汇报,以便董事会监督。

成为PMC的成员可是非常不容易的事,必须要一步步“打怪升级”。要实现从一个普通的Developer到PMC Member的跨越,除了码代码以外,开源社区的组织能力也要强,是不是帅呆了?

堵俊平,腾讯T4大数据技术专家,曾任EMC,VMware资深研发工程师,Hortonworks美国YARN团队负责人。深耕云计算,大数据方向10余年,在多个社区均享有极高知名度,包括Apache Hadoop社区Committer & PMC,并领导hadoop 2.6、2.8等应用非常广泛的社区release。曾领导开发多个Hadoop在云平台上优化与拓展的项目与产品。目前在腾讯致力于领导腾讯云大数据及人工智能产品研发工作。

小编采访了一下这位男神,接下来就让他给大家讲一下,这次新版本发布过程中的小细节吧。

Q:很多人可能听说过“开源”,但了解不多,您可以简单介绍一下吗?

A:开源可以理解为“向公众开放源代码”。近几年来热度不减的大数据,就是由开源的软件来驱动整个产业生态的。这里就不得不提到一个里程碑式的开源产品——hadoop:从谷歌的三篇论文,到雅虎的hadoop,开启了如今的大数据时代。

过去的系统软件主要是由闭源软件来驱动的。虽然像操作系统涌现出Linux这样优秀的软件,但后面的数据库和应用服务器,仍然几乎都是从闭源产品去驱动的。

hadoop诞生后的这十年来,一直都是大数据生态的核心,它改变了以往的软件形式,成为了最主流的开源项目之一。现在基本上各家数据平台团队,都是在hadoop生态系统上小修小改,去支持大数据相关的业务系统,可以认为它是开源的一个标准吧。

Q:与传统的闭源生态相比,开源有什么好处呢?

A:首先是避免“重复发明轮子”的问题,不同的个人和团体可以在公开的代码平台上集体创作,而不是封闭起来做重复的事情。其次是用户不必被绑架在特定的软件平台上,随时可以迁移应用和数据。最后是核心知识产权,比如以前的IOE,不只是没有“中国芯”的问题,上面的应用软件和系统软件可能随时面临被人封锁的危险,而开源就不会有这个问题,它完全公开透明。另外,开源也鼓励公司规划长线的技术投资,而不只是短线的利益操作。

Q:腾讯这次主导阿帕奇社区hadoop新版本的发布,在国内算是首次吗?

A:对,以前都是由微软、Hortonworks和Cloudera等国外大数据厂家轮流坐庄,而这个版本是第一次完全由国内的公司来支持的。从技术号召力或者对整个开源社区的影响力来说,可以鼓励国内的开发者和公司更积极地参与开源项目贡献,勇于承担更大的责任,更多地回馈开源社区。

Q:给整个社会也带来了哪些积极的影响呢?

A:首先,大数据软件属于基础技术,这次平台是由腾讯做技术主导的,在国内算是一个突破。其次,对于开发者社区来说,也是比较可靠的一个社区、最热门的项目。最后,对于普通人来说,也是可以从中受益的。因为基础平台能力的提高,也伴随着数据处理能力的提高,可以让大家的生活更方便。大数据时代到来之前,可能没有那么多面向数据的业务,比如地图业务、O2O业务、智能推荐系统等等。包括现在极具话题性的AI人工智能,如果没有大数据平台的进步,也是发展不起来的。

Q:之前是有技术难关的限制吗?

A:过去十年,中国的互联网公司发展很快,大家都以追求业务为主,在技术或开源方面做得不够,这是我们相较西方的短板。国内很多公司其实也尝试过开源,但它只有开源的代码,没有开源的社区,也就是自己觉得某个产品做得不错,就把源代码开放出来而已。

源代码的开放和开源社区是两回事,区别就是你这个开源的代码,其它第三方(尤其是你的生态合作伙伴)有没有能力来参与。

现在整个大数据的热潮,其实就是被几款开源的核心软件所推动的。中国的这些大公司在具备了经济实力之后,也开始以开源为手段想要构造一个更好的生态。这可能需要一个过程,但大家已经慢慢意识到这些基础软件跟开源结合的重要性了。

[转帖]2018年的新闻: 国内首家!腾讯主导Apache Hadoop新版本发布的更多相关文章

  1. 国内首家!腾讯云正式成为 FinOps 基金会顶级会员

    11月24日,腾讯云正式宣布加入FinOps基金会,作为国内首家FinOps基金会顶级会员,腾讯云将联合FinOps基金会,全面推进对FinOps标准和最佳实践的贡献,为企业提供云财务管理的最佳解决方 ...

  2. 国内首家VR虚拟现实主题公园即将在北京推出

    近期,美国“The VOID”.澳洲“Zero Latency”两大虚拟现实主题乐园让许多爱好者兴奋至极,门票据说都已经预约到明年2月!在如此巨大的商机面前,谁将抢到国内VR虚拟现实主题公园第一块蛋糕 ...

  3. OneAlert:国内首家 SaaS 模式的云告警平台

    随着互联网行业的高速发展,企业 IT 应用环境日趋复杂.几分钟的故障就会严重到用户体验,那么如何有效降低IT故障带来的影响呢?权威数据表明,86%的企业认为建立有效的监控系统和告警系统.提升 IT 的 ...

  4. 国内首家MR头显公司于CES惊艳亮相

    在刚刚过去的CES2017大会上,我们看到了许多较为优秀的VR产品,而在这里面,有一家名不见经传的中国公司易瞳发布了一款兼具VR和AR功能的头显VMG-MARK.它的外观与联想VR和骁龙VR820等产 ...

  5. VR外包团队—国内首家VR虚拟现实主题公园即将在北京推出

    期,美国“The VOID”.澳洲“Zero Latency”两大虚拟现实主题乐园让许多爱好者兴奋至极,门票据说都已经预约到明年2月!在如此巨大的商机面前,谁将抢到国内VR虚拟现实主题公园第一块蛋糕? ...

  6. 巨杉数据库入选Gartner数据库报告,中国首家入选厂商

    SequoiaDB巨杉数据库入选Gartner数据库报告,成为国内首批入选Gartner报告的数据库厂商. “SequoiaDB, 总部位于中国广州,是一款分布式.多模型(Multimodel).高可 ...

  7. 比MySQL快6倍 深度解析国内首个云原生数据库POLARDB的“王者荣耀”

    随着移动互联网.电子商务的高速发展,被使用最多的企业级开源数据系统MySQL面临着巨大挑战——为迎接“双11"的高并发要提前做好分库分表;用户不断激增要将读写分离才能应对每天上亿次的访问,但 ...

  8. 深度解析国内首个云原生数据库POLARDB的“王者荣耀”

    随着移动互联网.电子商务的高速发展,被使用最多的企业级开源数据系统MySQL面临着巨大挑战--为迎接"双11"的高并发要提前做好分库分表;用户不断激增要将读写分离才能应对每天上亿次 ...

  9. 【百度地图API】——国内首款团购网站的地图插件

    原文:[百度地图API]--国内首款团购网站的地图插件 摘要: 本文介绍了一款应用在团购网站上的地图插件,适用于目前非常流行的团购网站.使用这款地图插件,无需任何编程技术,你就把商家的位置轻松地标注在 ...

随机推荐

  1. JavaWeb_(Hibernate框架)Hibernate中重要的api

    Hibernate中重要的api Configuration SessionFactory Session(重点) Transaction 在Dao层中UserDao.java使用Hibernate向 ...

  2. Android_(控件)使用ListView显示Android系统中联系人信息

    使用ListView显示手机中联系人的姓名和电话号码 父类布局activity_main.xml,子类布局line.xml(一个文件的单独存放) 运行截图: (避免泄露信息对部分地方进行了涂鸦O(∩_ ...

  3. 快速查找 js 插件

    我们是否为一个插件找半天找不到而烦恼 BootCDN 现在不用了,我们可以在 https://www.bootcdn.cn/ 中查找我们想要的任何插件,然后点进去,一直到点进去文件,我们便可以得到 这 ...

  4. CentOS7 磁盘管理

    一.磁盘查看 查看所有磁盘 ll /dev/sd* 不带数字的为磁盘,带数字的为磁盘的分区 查看所有磁盘的分区情况 fdisk -l 结果 WARNING: fdisk GPT support is ...

  5. java单例模式实现

    1.最基本的单例模式 /** * @author LearnAndGet * @time 2018年11月13日 * 最基本的单例模式 */ public class SingletonV1 { pr ...

  6. pandas.DataFrame 中的insert(), pop()

    pandas.DataFrame 中的insert(), pop() 在pandas中,del.drop和pop方法都可以用来删除数据,insert可以在指定位置插入数据. 可以看看以下示例. imp ...

  7. leetcode315 计算右侧小于当前元素的个数

    1. 采用归并排序计算逆序数组对的方法来计算右侧更小的元素 time O(nlogn): 计算逆序对可以采用两种思路: a. 在左有序数组元素出列时计算右侧比该元素小的数字的数目为 cnt=r-mid ...

  8. C#产生随机验证码的代码

    using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.We ...

  9. Zabbix - LINUX下CPU,硬盘,流量,内存监控

    转载自:https://blog.csdn.net/jxzhfei/article/details/47191431 1.LINUX下zabbix客户端安装 [root@mongodb114 ~]# ...

  10. android手机使用Fiddler

    Fiddler是一款免费的抓包.调试工具,比Wireshark要小巧,更简洁,这里介绍如何通过WIFI来抓取Android手机的HTTP和HTTPS包. 一.手机端配置 电脑配置WIFI后,手机需要设 ...