专访周金可:我们更倾向于Greenplum来解决数据倾斜的问题
周金可,就职于听云,维护MySQL和GreenPlum的正常运行,以及调研适合听云业务场景的数据库技术方案。
听云周金可
9月24日,周金可将参加在北京举办的线下活动,并做主题为《GreenPlum在听云大数据实时分析的实践》的分享。值此,他分享了PG、工作上的一些经历和经验。
免费报名链接:http://click.aliyun.com/m/6101/
正文:
周金可刚参加工作时是做系统运维的,后来慢慢接触了各种数据库,开始对数据库感兴趣,经过一段时间的积累后转向了DBA。
“在我加入听云时,恰好是业务快速增长的阶段,后端我们的应用以及数据库经受了比较大的考验。去年大多数时间是在做扩容,我们的MySQL集群由最开始的数台实例扩展到现在的数百台实例。”他经历了听云业务量的爆发式增长。
而正是这种增长,让周金可和PG有了亲密接触:“某个模块的单表数据量达百亿级,MySQL Shared方式已经无法保证查询性能,所以又采用了GreenPlum MPP的方案来解决性能问题。”
“整个过程中分拆扩容的工作量是比较大的。而且在数据量巨大的情况下,MySQL Shared造成的数据倾斜问题给我们造成了比较大的困扰。目前我们对MySQL的中间件做了一次定制,支持将指定的某个用户的数据路由到一个单独的实例上,然后垂直扩展该实例的配置。但现在我们更倾向于Greenplum的方案,合理的涉及distribution key是可以完全避免数据倾斜的问题。”
因此,他本次分享的就是GreenPlum在听云大数据实时分析的实践,内容涉及具体应用场景GreenPlum选型,以及迁移至GreenPlum架构后与原来MySQL架构的性能对比。
除此之外,周金可也谈了自己为什么喜欢Golang的编程风格、听云内部的数据库管理平台的经历,以及对上段时间Uber从PG切换为MySQL一事的看法。
更为具体的内容,请查看以下完整采访:
云栖社区:请介绍下你以及所从事的工作。
周金可:我叫周金可,目前就职于听云。听云是一家在APM领域深耕10年的公司。我是在15年初加入听云,有幸经历了听云业务量的爆发式增长。
听云后端当前的数据库架构主要是MySQL分布式集群,也有一部分数据是采用GreenPlum的方案。而我们即将发布的CDN Controller产品后端,则采用的是Postgresql+Citus分布式方案。
目前主要的工作内容就是维护MySQL和GreenPlum的正常运行,以及调研适合听云业务场景的数据库技术方案。
云栖社区:你是怎么走上DBA道路的?目前工作中有哪些亮点?
周金可:刚参加工作的时候是做系统运维的,后来慢慢的接触了各种数据库,开始对数据库感兴趣,经过一段时间的积累后转向了DBA。
在我加入听云时,恰好是听云的业务快速增长的阶段,后端我们的应用以及数据库经受了比较大的考验,去年大多数时间是在做扩容,我们的MySQL集群由最开始的数台实例扩展到现在的数百台实例。
今年我们主要是做了一些优化的工作,比如使用ToKuDB存储引擎替换线上MySQL实例的InnoDB实例,大幅压缩数据并提升性能。将原来放在MySQL上的一部分业务数据迁移到Greenplum上,查询性能提升几百倍。当然这只是在我们的场景中,单节点MySQL跟Greenplum集群的对比,MySQL还是很优秀的DB。
云栖社区:你提到,比较喜欢Golang的编程风格,能聊下原因吗?你还使用Golang开发了听云内部的数据库管理平台,请介绍下这个平台,以及开发中一些记忆犹新的事吧。
周金可:Golang语法比Python简单,编程风格趋于脚本化但功能比shell强大很多,原生的并发变成模型和跨平台特性让我觉得Golang可以作为日常运维工作中的一把利剑。
数据库集群规模比较大,不可能每天对数百节点做人肉巡检,后来接触到了Golang的Web框架Beego,所以决定写一个数据库管理平台。这个平台会对MySQL集群中数百节点的数据量、qps、tps、慢sql等指标进行收集,然后在页面上以曲线图的形式展现,还会有一些汇总的报表数据,比如每月每个业务库的数据增量情况以及每天慢sql数量top12的实例列表。对慢sql做分析汇总,支持查看慢sql执行计划。
数据查询提取的窗口,支持数据的查询并以excel格式导出。还有一些我们自动维护表分区的一些监控。
云栖社区:作为国内较大的应用性能检测平台,听云在数据库上的演变过程是什么样的?都遇到哪些挑战,以及怎么解决的?
周金可:听云数据库经历了由MySQL单机到MySQL分库分表分布式架构的演变,后来数据量继续膨胀,又使用压缩引擎对数据进行压缩。某个模块的单表数据量达百亿级,MySQL Shared方式已经无法保证查询性能,所以又采用了GreenPlum MPP的方案来解决性能问题。
整个过程中分拆扩容的工作量是比较大的。而且在数据量巨大的情况下,MySQL Shared造成的数据倾斜问题给我们造成了比较大的困扰。目前我们对MySQL的中间件做了一次定制,支持将指定的某个用户的数据路由到一个单独的实例上,然后垂直扩展该实例的配置。但现在我们更倾向于Greenplum的方案,合理的涉及distribution key是可以完全避免数据倾斜的问题。
云栖社区:你是什么时候接触GreenPlum方案和PG的?目前在应用上积累了哪些经验?
周金可:接触Greenplum和PG有几个月的时间了,目前GreenPlum刚刚上生产,在前期调研的时候积累了一些使用场景的经验,对于GPDB维护上的经验,正在积累的过程中。
云栖社区:接下来,你还将如何拥抱PG?
周金可:我们一个新产品后端DB使用到postgresql新版本的jsonb特性,兼顾性能和运维的成本考虑。目前来看,除了PG暂时没有可替代的方案,所以我们到时候会采用citus+postgresql的方案。
云栖社区:在本期线下沙龙,你分享的内容将包括哪些内容?作为一个刚接触PG的技术人,你对与会者有什么寄语吗?
周金可:主要分享的是GreenPlum在听云大数据实时分析的实践,会从分享一下我们具体应用场景GreenPlum选型,以及迁移至GreenPlum架构后与原来MySQL架构的性能对比。
Postgresql发展还是挺迅速的,而且国内越来越多的公司也开始尝试使用Postgresql。PG的一些特性也确实很多吸引力,希望越来越多的使用者分享使用经验,让PG社区变得越来越好。
云栖社区:最后:作为一个MySQL DBA,你对上段时间Uber从PG切换为MySQL一事怎么看?
周金可:Uber的做法可能会对大众在DB的选型上产生一些误导,互联网公司在不同的阶段随着架构的演变会有技术的迭代,往往都会寻求新的技术方案来解决当下的一些痛点问题,所以还是那句话适合自己的就是最好的。
MySQL有可能更适合Uber现阶段的业务场景,据说Uber之前曾从MySQL迁移到PG,所以也很难说不是Uber DBA的个人情怀。
但这篇文章带来的影响还是很糟糕的。
周可金将在9月24日在开源数据库企业应用实践的会议上与大家面对面交流Greenplum技术,欢迎大家免费报名参会、
专访周金可:我们更倾向于Greenplum来解决数据倾斜的问题的更多相关文章
- Greenplum 调优--数据倾斜排查(二)
上次有个朋友咨询我一个GP数据倾斜的问题,他说查看gp_toolkit.gp_skew_coefficients表时花费了20-30分钟左右才出来结果,后来指导他分析原因并给出其他方案来查看数据倾斜. ...
- Greenplum 调优--数据倾斜排查(一)
对于分布式数据库来说,QUERY的运行效率取决于最慢的那个节点. 当数据出现倾斜时,某些节点的运算量可能比其他节点大.除了带来运行慢的问题,还有其他的问题,例如导致OOM,或者DISK FULL等问题 ...
- 打开APP 04 | 网络通信:RPC框架在网络通信上更倾向于哪种网络IO模型? 2020-02-26 何小锋
打开APP 04 | 网络通信:RPC框架在网络通信上更倾向于哪种网络IO模型? 2020-02-26 何小锋
- Cordova 讲义 1 – 周金根
讲义下载地址见: http://www.zhoujingen.cn/blog/7905.html 最后下载链接 移动应用形成了iOS.Android和windows phone三大阵营: ...
- 17级-车辆工程-周金霖 计算机作业 MP4音乐网站
- poj 3735 Training little cats(矩阵快速幂,模版更权威,这题数据很坑)
题目 矩阵快速幂,这里的模版就是计算A^n的,A为矩阵. 之前的矩阵快速幂貌似还是个更通用一些. 下面的题目解释来自 我只想做一个努力的人 @@@请注意 ,单位矩阵最初构造 行和列都要是(猫咪数+1) ...
- FIREDAC连接MSSQL 2000报不能支持连接MSSQL2000及更低版本的解决办法
FIREDAC连接MSSQL 2000的时候会报错,原因是MSSQL CLIENT11或MSSQL CLIENT10客户端驱动程序已经不支持连接MSSQL2000及更低版本的数据库. 解决办法: 设置 ...
- Mysql 查询当天、昨天、近7天、一周内、本月、上一月等的数据(函数执行日期的算术运算)
注:where语句后中的字段last_login_time 替换成 时间字段名 即可 #查询昨天登录用户的账号 ; #查询当天登录用户的账号 ; #查询所有last_login_time值在最后1天内 ...
- 企业实践 | 如何更好地使用 Apache Flink 解决数据计算问题?
业务数据的指数级扩张,数据处理的速度可不能跟不上业务发展的步伐.基于 Flink 的数据平台构建.运用 Flink 解决业务场景中的具体问题等随着 Flink 被更广泛的应用于广告.金融风控.实时 B ...
随机推荐
- Python绑定方法与非绑定方法
绑定方法 绑定方法(绑定给谁,谁来调用就自动将它本身当作第一个参数传入): 绑定到类的方法:用classmethod装饰器装饰的方法,类在使用时会将类本身当做参数传给类方法的第一个参数(即便是对象来调 ...
- J05-Java IO流总结五 《 BufferedInputStream和BufferedOutputStream 》
1. 概念简介 BufferedInputStream和BufferedOutputStream是带缓冲区的字节输入输出处理流.它们本身并不具有IO流的读取与写入功能,只是在别的流(节点流或其他处理流 ...
- Visual Studio 2015中使用gdb远程调试linux程序
VS的debug功能非常强大,相比而言linux上的图形化调试一直不是很好用. 如果可以使用VS来调试linux程序,应该是一件比较愉快的事情. 这在2015中变得可能,因为从2015开始VS支持An ...
- java数据结构之二叉树遍历的非递归实现
算法概述递归算法简洁明了.可读性好,但与非递归算法相比要消耗更多的时间和存储空间.为提高效率,我们可采用一种非递归的二叉树遍历算法.非递归的实现要借助栈来实现,因为堆栈的先进后出的结构和递归很相似.对 ...
- Python基础语法——(引号、字符串、长字符串、原始字符串、Unicode)
一.单引号字符串和转义引号 当字符串中出现单引号'时,我们可以用双引号""将该字符串引起来:"Let's go!" 而当字符串中出现双引号时,我们可以用单引号' ...
- Fiddler Web Debugger的代理功能(图文详解)
不多说,直接上干货! Fiddler的大部分功能都是在其作为本地代理的基础上实现的,如上面介绍的原理图一样,如果想实现数据包截断功能必须要设置为代理,它的代理功能设置比较简单,Fiddler版本2以后 ...
- 软件魔方制作系统启动盘并安装win7系统
不多说,直接上干货! 推荐软件:软件魔方 http://mofang.ruanmei.com/ 这里,我想说的是,这个软件来制作系统盘,是真的方便和好处多多.具体我不多说,本人也是用过其他的如大白菜等 ...
- 机器学习--集成学习(Ensemble Learning)
一.集成学习法 在机器学习的有监督学习算法中,我们的目标是学习出一个稳定的且在各个方面表现都较好的模型,但实际情况往往不这么理想,有时我们只能得到多个有偏好的模型(弱监督模型,在某些方面表现的比较好) ...
- java-forkjoin框架的使用
ForkJoin是Java7提供的原生多线程并行处理框架,其基本思想是将大任务分割成小任务,最后将小任务聚合起来得到结果.fork是分解的意思, join是收集的意思. 它非常类似于HADOOP提供的 ...
- FindBugs:Java 静态代码检查
在使用 Jenkins 构建 Java Web 项目时候,有一项叫做静态代码检查,是用内置的 findBugs 插件,对程序源代码进行检查,以分析程序行为的技术,应用于程序的正确性检查. 安全缺陷检测 ...