一.项目整体概述 简述项目的背景 背景:用户行迹企业运营 分析项目的目的 通过对项目的分析,可以初步得到以下目的: •实时掌握用户动态 •根据实时统计结果,适度推广 •统计分析效果,快速合理的调整 二.Producer 模块分析 分析生产数据来源 在用户上报日志中,每条日志记录代表用户的一次活动状态,示例数据如下: 121.40.174.237 yx12345 [21/July/2015 13:25:45 +0000] chrome appid_5 "http://www.***.cn/sort…
1.概述 本课程的视频教程地址:<Kafka实战项目之分析与设计>  本课程我通过一个用户实时上报日志案例作为基础,带着大家去分析Kafka这样一个项目的各个环节,从而对项目的整体设计做比较合理的规划,最终让大家能够通过本课程去掌握类似Kafka项目的分析与设计.下面,我给大家介绍本课程包含的课时内容,如下图所示: 接下来,我们开始第一课时的学习:<项目整体概述>. 2.内容 2.1 项目整体设计 项目整体概述主要讲解一个项目产生的背景,以及该项目背后的目的,从而让大家更好的去把握…
一.数据生产实现 1.配置数据生产模块 项目基础配置所包含的内容,如下所示: •项目工程的文件配置 •集群连接信息配置 •开发演示 2.实现 Flume 到 Kafka 模块 实现 Flume 到 Kafka 模块所包含的内容,如下所示: •Flume 集群信息配置 •数据收集 •数据收集演示 二.数据消费实现 1.配置数据消费模块 配置数据消费模块信息所包含的内容,如下所示: •Storm 集群信息配置 •依赖文件配置 •操作演示 2.实现 Kafka 到 Storm 模块 实现 Kafka…
一.kafka 回顾 1.简介 Kafka 的业务 业务场景: 解除耦合 增加冗余 提高可扩展性 Buffering 异步通信 2.介绍 Kafka 的应用场景 Push Message Website Tracking 日志收集中心 3.实时统计平台搭建注意事项 实时统计平台搭建注意事项: HA特性 核心文件配置 启动步骤 集群演示 二.项目简要 简述项目整体流程 整体流程预览如下图所示: 数据生产介绍 数据源生产介绍,如下图所示: 数据消费介绍 数据源消费介绍,如下图所示: 三.Kafka…
1.概述 本课程的视频教程地址:<Kafka实战项目之应用概述> 本课程是通过一个用户实时上报日志来展开的,通过介绍 Kafka 的业务和应用场景,并带着大家搭建本 Kafka 项目的实战开发环境.下面我们来看看本课程有哪些课时,如下图所示: 接下来,我们开始第一课时的学习:<Kafka 回顾>. 2.内容 2.1 Kafka 回顾 本课时简述 Kafka 平台部署的注意事项,以及 Kafka 在企业中的业务场景和应用场景.让大家了解 Kafka 在企业中的使用. 本课时主要包含以…
1.概述 本课程的视频教程地址:<Kafka实战项目之编码实践>  该课程我以用户实时上报日志案例为基础,带着大家去完成各个KPI的编码工作,实现生产模块.消费模块,数据持久化,以及应用调度等工作, 通过对这一系列流程的演示,让大家能够去掌握Kafka项目的相关编码以及调度流程.下面,我们首先来预览本课程所包含的课时,他们分别有: 接下来,我们开始第一课时的学习:<数据生产实现> 2.内容 2.1 数据生产实现 本课时主要给大家演示Kafka数据生产的代码实现,在前面搭建好的集群环…
公司对客户开放多个系统,运营人员想要了解客户使用各个系统的情况,在此之前,数据平台团队已经建设好了统一的Kafka消息通道. 为了保证架构能够满足业务可能的扩张后的性能要求,选用storm来处理各个应用系统上传到kafka中的埋点数据并在Mysql中汇聚. 埋点数据上报的格式为json,会上报类似如下的数据 { "account": "001", "accountName": "旺财宝", "subaccount&q…
Spark Streaming可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志.文件.网络端口等,常常也有这种需求,那就是实时分析处理MySQL中的增量数据.面对这种需求当然我们可以通过JDBC的方式定时查询Mysql,然后再对查询到的数据进行处理也能得到预期的结果,但是Mysql往往还有其他业务也在使用,这些业务往往比较重要,通过JDBC方式频繁查询会对Mysql造成大量无形的压力,甚至可能会影响正常业务的使用,在基本不影响其他Mysql正常使用的情况下完成对增量数据的处理,那就…
每个公司想要进行数据分析或数据挖掘,收集日志.ETL都是第一步的,今天就讲一下如何实时地(准实时,每分钟分析一次)收集日志,处理日志,把处理后的记录存入Hive中,并附上完整实战代码 1. 整体架构 思考一下,正常情况下我们会如何收集并分析日志呢? 首先,业务日志会通过Nginx(或者其他方式,我们是使用Nginx写入日志)每分钟写入到磁盘中,现在我们想要使用Spark分析日志,就需要先将磁盘中的文件上传到HDFS上,然后Spark处理,最后存入Hive表中,如图所示: 我们之前就是使用这种方式…
CentOS安装按进程实时统计流量情况工具NetHogs笔记 一.概述 NetHogs是一款开源.免费的,终端下的网络流量监控工具,它可监控Linux的进程或应用程序的网络流量.NetHogs只能实时监控进程的网络带宽占用情况.NetHogs支持IPv4和IPv6协议,支持本地网卡以及PPP链接. 本博客其他随笔参考: Centos安装流量监控工具iftop笔记 网站日志实时分析工具GoAccess使用 工作中常用Linux命令--服务器运维 CentOS下使用Iptraf进行网络流量的分析笔记…