storm实战:基于storm,kafka,mysql的实时统计系统

公司对客户开放多个系统，运营人员想要了解客户使用各个系统的情况，在此之前，数据平台团队已经建设好了统一的Kafka消息通道。

为了保证架构能够满足业务可能的扩张后的性能要求，选用storm来处理各个应用系统上传到kafka中的埋点数据并在Mysql中汇聚。

埋点数据上报的格式为json，会上报类似如下的数据

{

    "account": "001",

    "accountName": "旺财宝",

    "subaccount": "001",

    "subaccountName": "caller001",

    "timestamp": 1474625187000,

    "eventType": "phone",

    "eventTags": [

        {

            "name": "incoming",

            "value": 1

        },

        {

            "name": "missed",

            "value": 1

        },

        {

            "name": "edited",

            "value": 1

        }

    ]

}

最终通过Storm,在Mysql中汇聚成如下格式

account	account_name	subaccount	subaccount_name	event_type	event_tag	start_time	end_time	count
001	旺财宝			phone	incoming	2016/9/23 18:00:00	2016/9/23 18:59:59	53
001	旺财宝			phone	missed	2016/9/23 18:00:00	2016/9/23 18:59:59	53

通过web包装sql语句来作各个业务场景的查询:如某账号一段时间内某事件发生的次数，所有账号一段时间的各个事件发生的次数，或者某事件高发的时间段等等。

之前考虑了最终结果存到哪里：有这样几个待选，Redis，HBase，MongoDB，Mysql。经过估算发现一年的数据量可能不到一千万，在这个数量级，Mysql可以横着走了。

storm实战:基于storm,kafka,mysql的实时统计系统的更多相关文章

六、Kafka 用户日志上报实时统计之分析与设计
一.项目整体概述简述项目的背景背景:用户行迹企业运营分析项目的目的通过对项目的分析,可以初步得到以下目的: •实时掌握用户动态 •根据实时统计结果,适度推广 •统计分析效果,快速合理的调整二 ...
七、Kafka 用户日志上报实时统计之编码实践
一.数据生产实现 1.配置数据生产模块项目基础配置所包含的内容,如下所示: •项目工程的文件配置 •集群连接信息配置 •开发演示 2.实现 Flume 到 Kafka 模块实现 Flume 到 K ...
五、Kafka 用户日志上报实时统计之应用概述
一.kafka 回顾 1.简介 Kafka 的业务业务场景: 解除耦合增加冗余提高可扩展性 Buffering 异步通信 2.介绍 Kafka 的应用场景 Push Message Websit ...
Storm实战：在云上搭建大规模实时数据流处理系统（Storm+Kafka）
在大数据时代,数据规模变得越来越大.由于数据的增长速度和非结构化的特性,常用的软硬件工具已无法在用户可容忍的时间内对数据进行采集.管理和处理.本文主要介绍如何在阿里云上使用Kafka和Storm搭建大 ...
[转]基于Storm的实时数据处理方案
1 文档说明该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分. 关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析. ...
《storm实战-构建大数据实时计算读书笔记》
自己的思考: 1.接收任务到任务的分发和协调 nimbus.supervisor.zookeeper 2.高容错性各个组件都是无状态的,状态 ...
Storm 实战：构建大数据实时计算
Storm 实战:构建大数据实时计算(阿里巴巴集团技术丛书,大数据丛书.大型互联网公司大数据实时处理干货分享!来自淘宝一线技术团队的丰富实践,快速掌握Storm技术精髓!) 阿里巴巴集团数据平台事业部 ...
Kafka实战－Storm Cluster
1.概述在<Kafka实战-实时日志统计流程>一文中,谈到了Storm的相关问题,在完成实时日志统计时,我们需要用到Storm去消费Kafka Cluster中的数据,所以,这里我单独给 ...
基于Flume+Kafka+ Elasticsearch+Storm的海量日志实时分析平台（转）
0背景介绍随着机器个数的增加.各种服务.各种组件的扩容.开发人员的递增,日志的运维问题是日渐尖锐.通常,日志都是存储在服务运行的本地机器上,使用脚本来管理,一般非压缩日志保留最近三天,压缩保留最近1 ...

随机推荐

mysql和oracle jdbc连接
加载驱动. Class.forName("oracle.jdbc.driver.OracleDriver"); 1 创建连接. Connection con = DriverMan ...
Java就业指导
想要成为合格的Java程序员或工程师到底需要具备哪些专业技能,面试者在面试之前到底需要准备哪些东西呢?本文陈列的这些内容既可以作为个人简历中的内容,也可以作为面试的时候跟面试官聊的东西,你可以把这些内 ...
[moka同学笔记]Yii2中多表关联查询（join、joinwith) (摘录)
表结构现在有客户表.订单表.图书表.作者表, 客户表Customer (id customer_name) 订单表Order (id order_name cu ...
Android开发跳槽、简历和面试的那些事
年后不久,就迎来了一年一度的招聘旺季,尤其,对于互联网行业来说,近些年的3月份被视为换工作的最高峰,已经没什么可以争议的了. 至今为止,在小组Android开发招聘这块,已经面试有近30人了.最后得出 ...
七个结构模式之享元模式(Flyweight Pattern)
定义: 运用共享技术对大量细粒度对象的复用,这要求这些对象都很相似,状态变化很小.将这些对象的内部状态和外部状态进行区分,对于内部状态相同的只存储一个对象,而对不同的外部状态则采用不同的操作. 结构图 ...
linux常用命令之查阅文件
CAT cat – concatenate print files 连续的输出文件内容用法 cat [-nbA] file 选项 -n line number 输出行号 -b line number ...
使用Yeoman快速启动AngularJS项目开发
本博客停止更新,请访问新个人博客:owenchen.net 前言博客迁移到了BAE上,http://owenchen.net/,以后的文章会首发在自己的博客上,随后在博客园发布. 很久没有写文章了, ...
require.js的一些了解
想了解一下的可以轻轻点开链接,想了解的可以点开链接,http://mp.weixin.qq.com/s?__biz=MzIxMTQyNzExNw==&mid=100000042&idx ...
[deviceone开发]-企业OA项目开源分享
一.简介是一个真实的企业OA项目改造的开源项目,几乎涵盖了所有常用的组件,包括环信实现在线聊天等功能,类似微信的朋友圈功能,自定义的智能搜索等,而且这个是真实的通过Http链接后台web服务,里面很 ...
js实现标准无缝滚动
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...

storm实战:基于storm,kafka,mysql的实时统计系统

storm实战:基于storm,kafka,mysql的实时统计系统的更多相关文章

随机推荐

热门专题