调试与优化：一次数据中心看板 T+1 改 T+0 优化过程

翁智华 2024-10-09 20:07:32 原文

背景

团队目前在做一个用户数据看板（下面简称看板），基本覆盖用户的所有行为数据，并生成分析数据，用户行为数据来源于多个数据源（餐饮、生活日用、充值消费、交通出行、通讯物流、交通出行、医疗保健、住房物业、运动健康...），基于对大量数据的任意请求、排序和统计，没有办法对原生表（原生多表查询相对复杂）直接进行数据采用，所以我们在当日的凌晨获取前一天数据，并将数据做成Json对象保存在Mongo数据库中。

所以看板最初采用得是T+1的策略，这样就减少了实时数据计算的过程，另一方面能够保证数据的准确性。但是目前很多人反馈，希望能够实时的获取到看板最新的数据，而且每月月底辉有消费数据核对，消费数据按照看板统计得出并核对，如果等到第二天（也就是次月1号）再输出数据报表，这种体验就太差了。

优化方案

针对看板的原型需求和数据呈现形式，形成了类似（数据(Mongo)服务 - 接口服务 - 前端展示页面）的架构模式，以T+1的策略提供数据，

来保障用户可以高效的浏览到自己的行为数据结构，并给出具体得数据分析和建议。

原有流程：通过设计开发控制台调度服务，并部署到中心服务器上，调度配置每天凌晨一点做服务启动，会根据用户新增和修改的日志做数据增量。

优化目标：改成每次用户行为数据的修改、删除和保存都采用消息队列形式实时的通知到服务去消费，服务消费之后立刻把Mongo的行为数据做好。

T+0 服务概要设计

核心功能实现设计

1、用户行为数据保存后实时发送MQ消息通知，解耦行为数据保存和看板数据生产的强关联。

2、开发独立服务消费MQ，同步聚合看板数据、输出用户行为数据报表，并推送通知消息给用户进行查看。

数据服务生成流程

时序图/流程图说明

1、原有是独立服务每天凌晨进行数据计算，改成每次用户行为完成修改之后发送MQ

2、服务端程序监听MQ，消费到数据，则调用调度服务进行处理

3、调度服务根据配置好的调度规则，进行控制台服务启动，并将对应的数据增量拉取到内存中，进行数据的筛选、排序、整合，合并成目标mongo文档，并保存到mongo集群中

4、调度服务数据处理完成之后，同步聚合看板数据、输出用户行为数据报表，并推送通知消息给用户进行查看。

数据聚合过程说明

所有的用户行为模块都遵循这个规则，最后实现数据T+0 实时聚合的目标

调试与优化：一次数据中心看板 T+1 改 T+0 优化过程的更多相关文章

基于ETL技术的数字化校园共享数据中心设计
摘要:数据的抽取.转换与加载(ETL)是数据整合的核心过程.在分析高校信息化建设现状基础上,以建立数字化校园.整合数据资源.实现数据共享为目标,提出以ETL为基础建立共享数据中心实现数据整合的方案.介 ...
原生Redis跨数据中心双向同步优化实践
一.背景公司基于业务发展以及战略部署,需要实现在多个数据中心单元化部署,一方面可以实现多数据中心容灾,另外可以提升用户请求访问速度.需要保证多数据中心容灾或者实现用户就近访问的话,需要各个数据中心拥 ...
Google数据中心B4网络具体实现
① 背景介绍 Google的网络有两种,一种是数据中心内部网络,另外一种是WAN网,其中WAN网又分为两种:一是数据中心之间的互联网络,属于内部网络(G-Scale Network),另外一种是面向I ...
SDN与NFV技术在云数据中心的规模应用探讨
Neo 2016-1-29 | 发表评论编者按:以云数据中心为切入点,首先对SDN领域中的叠加网络.SDN控制器.VxLAN 3种重要技术特点进行了研究,接下来对NFV领域中的通用服务器性能.服务链 ...
[转载] Google数据中心网络技术漫谈
原文: http://www.sdnlab.com/12700.html?from=timeline&isappinstalled=0#10006-weixin-1-52626-6b3bffd ...
怎样打造一个分布式数据库——rocksDB, raft, mvcc，本质上是为了解决跨数据中心的复制
摘自:http://www.infoq.com/cn/articles/how-to-build-a-distributed-database?utm_campaign=rightbar_v2& ...
H3C数据中心虚拟化解决方案技术白皮书
缩略语清单: 缩略语英文全名中文解释 IDC Internet Data Center 互联网数据中心 VRF Virtual Router Forwarding 虚拟路由器转发 SMP Symm ...
Alibaba Cluster Data 开放下载：270GB 数据揭秘你不知道的阿里巴巴数据中心
打开一篇篇 IT 技术文章,你总能够看到“大规模”.“海量请求”这些字眼.如今,这些功能强大的互联网应用,都运行在大规模数据中心上,然而,对于大规模数据中心,你又了解多少呢?实际上,除了阅读一些科技文 ...
用Python下载美国国家气候数据中心（NCDC）的气候数据
美国国家气候数据中心的官网地址是https://www.ncdc.noaa.gov/ 气候数据的下载地址是: 长格式:ftp://ftp.ncdc.noaa.gov/pub/data/noaa/,这种 ...

随机推荐

CTF-WeChall-第四天上午
2020.09.12 08:24 哈哈,go on!
python获取倒数第k个结点
思路:定义快慢两个指针,快指针走k步后慢指针开始走,当快指针走到链表尾时快慢指针距离相隔k,倒数第K个结点就是慢指针所指的结点 # -*- coding:utf-8 -*- # class ListN ...
Python实现自动生成小学四则运算题目
Github地址: https://github.com/guoyuyi/gyy.github.io/blob/%E4%BD%9C%E4%B8%9A1/zy1.py 题目描述: 通过python语言编 ...
Druid实现数据库连接用户密码加密
使用ConfigFilter ConfigFilter的作用包括: 从配置文件中读取配置从远程http文件中读取配置为数据库密码提供加密功能 1 配置ConfigFilter 1.1 配置文件从本 ...
Spring系列之新注解配置+Spring集成junit+注解注入
Spring系列之注解配置 Spring是轻代码而重配置的框架,配置比较繁重,影响开发效率,所以注解开发是一种趋势,注解代替xml配置文件可以简化配置,提高开发效率你本来要写一段很长的代码来构造一个 ...
方法区（Method Area）基础知识
堆.栈.方法区堆关系概述方法区与堆区一样,是各个线程共享的内存区域方法区在JVM启动时就会被创建,并且它的实际的物理内存空间中和Java堆区一样都可以是不连续的方法区的大小,跟堆空间一样,可以 ...
趣图：这是拿offer极高的面试经验
扩展阅读趣图:面试谈薪资就要这种底气趣图:IT培训出来找工作趣图:这是招聘超神级别的程序员?
Java源码赏析（五）再识 String 类
在 Java源码赏析(三)初识 String 类中,我们已经大概理解了String的接口,接下来我们描述一下String的常用工具方法. /** * 为了精简的String结构,之前提到的方法省 ...
python安装和首次使用
安装: 1.安装python环境: 首先打开python官网,下载配置环境:www.python.org 点击上方downloads, 根据系统选择python环境下载找到 windows x86- ...
前端er，你真的会用 async 吗？
async 异步函数不完全使用攻略前言现在已经到 8012 年的尾声了,前端各方面的技术发展也层出不穷,VueConf TO 2018 大会也发布了 Vue 3.0的计划.而在我们(我)的日常 ...