微信全景监控平台介绍

微信全景监控平台,是微信的多维指标 OLAP 监控以及数据分析平台。支持自定义多维度指标上报,海量数据实时上卷下钻分析,提供了秒级异常检测告警能力。

项目高效支撑了视频号、微信支付、搜一搜等等业务快速迭代,已覆盖微信各产品线,峰值数据达到 30+亿条/min,3万亿+条/天。微信全景监控平台架构如下图所示:

全景监控平台的指标数据使用 Druid 引擎,Druid 引擎通将 CHDFS 作为其 DeepStorage 来进行数据存储和查询。

什么是 Druid

Druid 是一个分布式的、支持实时多维 OLAP 分析的数据处理系统。它既支持高速的数据实时摄入处理,也支持实时且灵活的多维数据分析查询。因此 Druid 最常用的场景就是大数据背景下、灵活快速的多维 OLAP 分析。

Druid 节点可以分为以下几类:

Master节点:Overlord、Coordinator

实时数据处理节点:MiddleManager、Peon

存储节点:Historical(数据分片)、HDFS(DeepStorage)(数据分片)、MetaDataStorage(数据表结构等)、Zookeeper(IndexingTask信息)

数据访问节点:Broker、Router

Druid 与 CHDFS 完美结合

CHDFS(Cloud HDFS)是提供标准 HDFS 访问协议和分层命名空间的高性能分布式文件系统,由腾讯云存储团队自研的云原生数据存储产品。通过 CHDFS,可以实现计算与存储分离,极大发挥计算资源灵活性,同时实现存储数据永久保存,降低大数据分析资源成本。

在和 Druid 系统结合过程中,CHDFS 起到了两个重要的作用:

  1. 实时节点 (Peon) 和历史节点 (Historical) 数据交流的重要中转。

  2. 全量数据分片,Historical 负载均衡和容灾的基石。

整体数据流转架构:

Overlord 节点将任务分配给若干个 MiddleManager 节点。

MiddleManager 节点创建 Peon 节点,Peon 节点拥有独立的端口和 JVM,作为基本 Worker 进行数据消费和处理。

Peon 节点处理数据,打包分片,达到任务周期时间后,将分片发布到 DeepStorage 中。

Coordinator 协调 Historical 节点从 CHDFS 中下载 Segment。

Historical 下载完成,一次实时分片任务完成,Historical 接管这个分片的数据查询,Peon 销毁。

实时任务分片是从 Peon -> CHDFS(DeepStorage) -> Historical,其中 Overlord 作为实时任务的总 Master 节点负责调度实时任务并且下发任务 MiddleManager,MiddleManager 顾名思义:中间管理者,它接收 Overlord 的调度,并且作为「监工」生产 Worker(Peon) 并且同步任务状态。

Segment 容灾

如果一个 Historical 节点宕机或者处于不可用状态,Coordinator 将会感知到并且认为这个 Historical 中的数据分片都丢掉了。

但是 Coordinator 不会立刻让其它的 Historical 从 CHDFS 中加载这些 Segments,会有一个过渡期的数据结构,存储这些丢掉的 Segments 信息,如果这个 Historical 又回来了,那么它还是会对外提供服务,不会有分片转移,如果 Historical 宕机超过一定时间,Coordinator 会调度其它的 Historical 从 DeepStorage 中加载分片。

Segment 负载均衡

为了确保 Segment 在 Historical 节点中均匀分布,Coordinator 会自动检查所有的 Historical 的分片分布情况,并且调度利用率最低的 Historical 从 CHDFS 中加载分片,并且让利用率最高的 Historical 丢弃分片,从而完成负载均衡。

轻松配置 CHDFS 为 Druid DeepStorage

1、创建 CHDFS,创建权限组、权限规则和挂载点;

2、下载 CHDFS jar GitHub - tencentyun/chdfs-hadoop-plugin: the hadoop plugin for chdfs(下载链接:https://github.com/tencentyun/chdfs-hadoop-plugin);

3、将上述 jar 文件拷贝至extensions/druid-hdfs-storage 和hadoop-dependencies/hadoop-client/x.x.x ;

4、在 Druid 的 conf/druid/_common/common.runtime.properties 下,添加CHDFS 配置:

// segment存储
druid.storage.type=hdfs
druid.storage.storageDirectory=ofs://xxx.chdfs.ap-shanghai.myqcloud.com/usr/xxx/druid/segments

// indexer日志
druid.indexer.logs.type=hdfs
druid.indexer.logs.directory=ofs://xxx.chdfs.ap-shanghai.myqcloud.com/usr/xxx/druid/indexing-logs

conf/druid/_common/ 下添加 core-site.xml 和 hdfs-site.xml

5、配置 hadoop 环境配置 core-site.xml 和 hdfs-site.xml ;

// core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<!--chdfs 的实现类-->
<property>
<name>fs.AbstractFileSystem.ofs.impl</name>
<value>com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter</value>
</property>
<property>
<name>fs.ofs.impl</name>
<value>com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter</value>
</property>
<property>
<name>fs.ofs.tmp.cache.dir</name>
<value>/home/xxx/data/chdfs_tmp_cache</value>
</property>
<!--appId-->
<property>
<name>fs.ofs.user.appid</name>
<value>00000000</value>
</property>
</configuration>


// hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.AbstractFileSystem.ofs.impl</name>
<value>com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter</value>
</property>
<property>
<name>fs.ofs.impl</name>
<value>com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter</value>
</property>
<!--本地 cache 的临时目录, 对于读写数据, 当内存 cache 不足时会写入本地硬盘, 这个路径若不存在会自动创建-->
<property>
<name>fs.ofs.tmp.cache.dir</name>
<value>/home/qspace/data/chdfs_tmp_cache</value>
</property>
<!--appId 用户需要换成自己的 appid,可前往 https://console.cloud.tencent.com/cam/capi 获取-->
<property>
<name>fs.ofs.user.appid</name>
<value>00000</value>
</property>
</configuration>

6、通过 Indexer 日志可以看到,数据已经成功写入 HDFS,并且可以被 Historical 节点下载。

整体效果

当前,微信监控通过 CHDFS 存储了百 TB 级别,共计百万级别的文件,稳定运行没有故障。

相比于原 HDFS 依赖运维手动部署、维护,CHDFS 开箱即用,无运维、裁撤等问题,真正解决了业务的一大痛点。

CHDFS 产品非常稳定,微信监控共使用 百 TB 的存储空间、百万级别的文件,上线至今稳定运行无故障。后续,微信指标监控会逐步将所有的存储 DeepStorage 迁移至 CHDFS,总量达 PB 级别。

腾讯云 CHDFS 助力微信秒级异常检测的更多相关文章

  1. tomcat、腾讯云主机和微信

    腾讯云主机和微信 申请一个腾讯云上的服务器(在这里我是申请的Linux系统,里面自己事先装好了tomcat.jdk等所需要用到的工具,注意做好必要的配置工作) 连接服务器和部署项目时必要的步骤:1.将 ...

  2. 腾讯云 CHDFS — 云端大数据存算分离的基石

    随着网络性能提升,云端计算架构逐步向存算分离转变,AWS Aurora 率先在数据库领域实现了这个转变,大数据计算领域也迅速朝此方向演化. 存算分离在云端有明显优势,不但可以充分发挥弹性计算的灵活,同 ...

  3. EasyNVR结合阿里云/腾讯云CDN实现微信/小程序直播的方案

    背景需求: 许多客户有这样的需求:微信公众号做为平台来对摄像机进行直播:可以让用户随时随地打开公共号就可以观看:保证画面的流畅性:保证视频的并发访问量等. 问题分析: 虽然需求看似很简单,其实真正实现 ...

  4. 磊哥测评之数据库SaaS篇:腾讯云控制台、DMC和小程序

    本文由云+社区发表 作者:腾讯云数据库 随着云计算和数据库技术的发展,数据库正在变得越来越强大.数据库的性能如处理速度.对高并发的支持在节节攀升,同时分布式.实时的数据分析.兼容主流数据库等强大的性能 ...

  5. 为 “超级大脑”构建支撑能力,腾讯云聚焦AI技术落地

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 5月24日,以"无界数据.无限智能"为主题的2018腾讯"云+未来"峰会AI大数据分论坛在广州拉开帷 ...

  6. 腾讯云分布式高可靠消息队列服务CMQ架构

    在分布式大行其道的今天,我们在系统内部.平台之间广泛运用消息中间件进行数据交换及解耦.CMQ是腾讯云内部自研基于的高可靠.强一致.可扩展分布式消息队列,在腾讯内部包括微信手机QQ业务红包.腾讯话费充值 ...

  7. 腾讯云数据库团队:浅谈如何对MySQL内核进行深度优化

    作者介绍:简怀兵,腾讯云数据库团队高级工程师,负责腾讯云CDB内核及基础设施建设:先后供职于Thomson Reuters和YY等公司,PTimeDB作者,曾获一项发明专利:从事MySQL内核开发工作 ...

  8. 腾讯云AI平台张文杰:构建一站式机器学习服务平台

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 5月24日,以"无界数据无限智能"为主题的腾讯"云+未来"峰会AI大数据分论坛在广州拉开帷幕.此次分 ...

  9. 万物智联,腾讯云 IoT 边缘计算揭秘——云+未来峰会开发者专场回顾

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 背景:现在是万物互联的时代,智能穿戴设备,智能家居,无人商业,改变了我们的生活方式.预计到2021年,全球物联网设数将达到150亿,超过手机 ...

  10. 腾讯云+社区开发者大会开启报名,WeGeek 邀你一起聊聊小程序

    刚满 2 岁的微信小程序,正给我们带来一种全新轻便的生活方式. 内测时的青涩还历历在目,到现在,小程序生态已日渐成熟.超过 150 万开发者在这里找到了自己的新天地,打磨出超过 100 万个小程序. ...

随机推荐

  1. VMWARE 客户机 ARP 问题一则

    最近测试自定义的 linux 镜像,会在 vmware 里面反复安装.测试过程中,发现一个奇怪的现象,就是刚装好的虚拟机,要主动往外ping一下,才能被网络上其他主机连接上.否则就算是同一子网下的宿主 ...

  2. Android Qcom USB Driver学习(一)

    该系列文章总目录链接与各部分简介: Android Qcom USB Driver学习(零) USB接口类型 Android终端上常用的USB接口:TypeC(现在的主流),MicroB(以前的设备) ...

  3. 形参和实参的区别 and 联系

    联系:形参和实参是赋值关系,是按照值传递的,简单数据直接传递值,形参和实参的改变互不影响,因为形参和实参是两个变量,是两个数据(栈内存): 引用数据传递的是地址,结果就是一个数据,两个地址同时指向一个 ...

  4. 017 Python 流程控制之 if 判断

    博客配套视频链接: https://space.bilibili.com/383551518?spm_id_from=333.1007.0.0 b 站直接看 配套 github 链接:https:// ...

  5. 2024年开源API工具盘点,覆盖API全生命周期

    2024年经济持续低迷,本文整理一些免费的开源工具,旨在帮助企业组织降低工具的支出成本,能用免费的何必用付费的呢(狗头)? 如何高效地管理API的全生命周期--从设计.开发.测试.部署到监控和优化,已 ...

  6. TiDB集群安装维护

    TIDB安装操作文档-https://docs.pingcap.com/zh/tidb/stable/production-deployment-using-tiup 1.环境准备(每台) 1-查看系 ...

  7. 云原生周刊:Istio 1.19 发布 | 2023.9.11

    开源项目推荐 Timoni Timoni 是 Kubernetes 的软件包管理器,由 CUE 提供支持,灵感来自 Helm. Timoni 项目致力于改善编写 Kubernetes 配置的用户体验. ...

  8. 欢迎来到IoT解忧杂货铺

    这是一间特殊的杂货铺 门面不大,却包罗万物 如果你也遇到一些烦恼 欢迎来到,IoT解忧杂货铺 解忧秘方·工业 厂里的几十台设备真让人头疼 协议种类太多太复杂 设备没法全联网 产线故障了也不知道 自己出 ...

  9. RocketMQ 在小米的多场景灾备实践案例

    本文作者:邓志文.王帆 01为什么要容灾? 在小米内部,我们使用 RocketMQ 来为各种在线业务提供消息队列服务,比如商城订单.短信通知甚至用来收集 IoT 设备的上报数据,可以说 RocketM ...

  10. Linux运行时动态库搜索路径优先级

    Windows运行时动态库搜索路径优先级: 在Windows运行时,动态库(通常指DLL文件)的搜索路径遵循一定的优先级顺序,以确保程序能够正确地加载所需的动态库.以下是对Windows运行时动态库搜 ...