背景 ClickHouse 作为开源 OLAP 引擎,因其出色的性能表现在大数据生态中得到了广泛的应用.区别于 Hadoop 生态组件通常依赖 HDFS 作为底层的数据存储,ClickHouse 使用本地盘来自己管理数据,官方推荐使用 SSD 作为存储介质来提升性能.但受限于本地盘的容量上限以及 SSD 盘的价格,用户很难在容量.成本和性能这三者之间找到一个好的平衡.JuiceFS 的某个客户近期就遇到了这样的难题,希望将 ClickHouse 中的温冷数据从 SSD 盘迁移到更大容量.更低成本…
01- 大数据运营的挑战 & 升级思考 大数据运营面临的挑战 中国电信大数据集群每日数据量庞大,单个业务单日量级可达到 PB 级别,且存在大量过期数据(冷数据).冗余数据,存储压力大:每个省公司都有自己的集群,以及多个收集全国各省级业务信息的集团大数据集群,导致数据分散冗余,省集群与集团集群数据无法共享,跨地域任务延迟高. 电信早在 2012 年就开始创建各种集群,内部集群由各个厂商或其他内部团队部署,承载的业务由各个厂商运营,运维团队也是由各个厂商提供,因此集群涉及的版本非常多,包括 Apac…
Hadoop 的诞生改变了企业对数据的存储.处理和分析的过程,加速了大数据的发展,受到广泛的应用,给整个行业带来了变革意义的改变:随着云计算时代的到来, 存算分离的架构受到青睐,企业开开始对 Hadoop 的架构进行改造. 今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构方案,他们的利弊各有哪些,希望可以给正在存算分离架构改造的企业一些参考和启发. Hadoop 存算耦合架构回顾 2006 年 Hadoop 刚发布,这是一个 all-in-one 的套装,最早有三个核…
​引言 随着大数据技术架构的演进,存储与计算分离的架构能更好的满足用户对降低数据存储成本,按需调度计算资源的诉求,正在成为越来越多人的选择.相较 HDFS,数据存储在对象存储上可以节约存储成本,但与此同时,对象存储对海量文件的写性能也会差很多. 腾讯云弹性 MapReduce(EMR) 是腾讯云的一个云端托管的弹性开源泛 Hadoop 服务,支持 Spark.Hbase.Presto.Flink.Druid 等大数据框架. 近期,在支持一位 EMR 客户时,遇到典型的存储计算分离应用场景.客户使…
随着网络性能提升,云端计算架构逐步向存算分离转变,AWS Aurora 率先在数据库领域实现了这个转变,大数据计算领域也迅速朝此方向演化. 存算分离在云端有明显优势,不但可以充分发挥弹性计算的灵活,同时集中的托管存储可以提供更大的容量和更低的成本,避免了云端大量自建存储集群的维护代价. 一.问题和挑战 对象存储是广泛使用的云端非结构化数据存储解决方案,越来越多的非结构化数据聚集于对象存储的数据湖中,随之而来的是对这些海量数据的分析需求. 然而对大数据分析的存储系统来说,HDFS 接口是事实标准,…
个推作为国内第三方推送市场的早期进入者,专注于为开发者提供高效稳定的推送服务,经过9年的积累和发展,服务了包括新浪.滴滴在内的数十万APP.由于我们推送业务对并发量.速度要求很高,为此,我们选择了高性能的内存数据库Redis.然而,在实际业务场景中我们也遇到了一些Redis大key造成的服务阻塞问题,因此积累了一些应对经验.本文将对大key的发现.解决大key删除造成的阻塞做相应的介绍. Redis大key的一些场景及问题 大key场景 Redis使用者应该都遇到过大key相关的场景,比如: 1…
个推作为国内第三方推送市场的早期进入者,专注于为开发者提供高效稳定的推送服务,经过9年的积累和发展,服务了包括新浪.滴滴在内的数十万APP.由于我们推送业务对并发量.速度要求很高,为此,我们选择了高性能的内存数据库Redis.然而,在实际业务场景中我们也遇到了一些Redis大key造成的服务阻塞问题,因此积累了一些应对经验.本文将对大key的发现.解决大key删除造成的阻塞做相应的介绍. Redis大key的一些场景及问题 大key场景 Redis使用者应该都遇到过大key相关的场景,比如: 1…
摘要:高斯Redis,计数的最佳选择! 一.背景 当我们打开手机刷微博时,就要开始和各种各样的计数器打交道了.我们注册一个帐号后,微博就会给我们记录一组数据:关注数.粉丝数.动态数-:我们刷帖时,关注每天的热搜情况,微博需要为每个热搜记录一组搜索量.在这一串数据后面,是一个个计数器在工作. 计数器可以分为常规计数器和基数计数器,对于常规计数器,只需要对计数器进行简单的增减即可:对于基数计数器,需要对元素进行去重,比如统计搜索量时,需要保证每个用户的多次搜索只统计一次.对于这两种需求,Redis…
摘要:在KV数据库领域,"强一致性"不仅是一个技术名词,它更是业务与运维的重要需求. 清明刚过,五一假期就要来了.大好春光,不如去婺源看油菜花吧!小云迅速打开APP刷出余票2张,赶紧下单!唉,怎么又没抢到!转念一想倒也能理解:从勾选乘车人到正式下单,起码要10秒,真若是"见者有份",恐怕这两个座位大家要挤挤共用了!每逢节假日,全国几百万小伙伴同时查票订票,12306是如何保证余票显示准.车票不超卖的? 于是,按捺不住好奇心,笔者进行了一番深入研究.原来,问题背后隐藏…
摘要:IDC认为,目前阶段来看,企业亟待解决的是数字化能力提升,包括:与业务的深入结合能力:数据处理和挖掘能力:以及IT技术运营和管理能力.特别是数据处理和挖掘能力,因为数字化转型推进企业从以流程为核心向以数据为核心转型,对海量.异构.多类型的数据处理和挖掘能力是释放数据价值的前提,对数据全生命周期的管控治理是释放数据价值的保障.可以看出,数据库作为数据的承载,企业的要求不再只是简单的存储功能了. GaussDB(for Mongo)是华为云自主研发兼容MongoDB4.0接口的文档数据库.基于…