《OD学storm》20160828
一、Storm项目
1. 架构
javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs
-> kafka -> storm -> hbased
kafka吞吐量达,可以被不同的消费者重复消费
2. 项目需求
电商
用户提交订单并且成功支付
收集订单详情
分析:
(1)每天(每小时、每分钟)电商网站的总销售额、订单笔数
(2)基于地域(国家、省份、城市)、时段
(3)从客户角度,统计客户消费情况
(4)客户在电商网站消费行为,客户流失趋势
3. 技术框架
Storm Trident
准确度,批次
4. 实现
1)从kafka上读取数据
Trident kafkaspout
TransactionalTridentKafkaSpout:
消息处理失败重试:只能在之前的批次内进行重试,而且如果一直不成功,将会挂起Storm任务应用程序
OpaqueTridentKafkaSpout:
提供容错机制
处理失败的消息可以在其他批次内进行重试,但是只会被成功处理一次。
exactly-once 有且只有一次。
select sum(price), count(1), date
from 订单记录表
group by date
分组统计:
(1)直接进行全局统计(跨网络数据传输)
(2)先在同一批次个分区内进行局部统计(不需要进行跨网络传输),然后对局部统计好的结果进行全局统计。
group by
partitionAggregate 局部统计
persistentAggregate 全局统计
5. 使用HBase数据库进行存储统计结果状态
rowkey value:
NON-TRANSACTIONAL 统计值
TRANSACTIONAL BATCH_ID 统计值
OPAQUE TRANSACTIONAL BATCH_ID 统计值,上个批次的统计值
作业:
从客户角度,统计客户消费情况
使用trident,统计分析订单记录,求出客户每天、每小时的消费总额,消费笔数(要求使用HBase存储统计结果,能够通过drpc客户端查询)。
拓展学习:
JStorm
二、回顾
storm两条线
storm
Topology
Trident
Tuple 数据流格式 Tuple keyvalue对的集合
Storm流计算本质: 对Tuple进行各种转换操作
普通Storm,转换操作写在Bolt中,msgtimeout 30秒
Trident 抽象成各种operation
Tuple Tree:启用消息可靠性保障机制后才会产生。
Spark: RDD RDD弹性分布式数据集 集合
cloudera manager 如何安装
8 6 6 20G内存
8 4 4
旅游数据离线分析 3天
scala
spark 5天 项目3天
《OD学storm》20160828的更多相关文章
- 《OD学storm》20160827
http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/2 ...
- 《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
- 《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售 数据商城:以卖数据为公司的核心业务 2. 数据分析 百度统计 友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
- 《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
- 《OD学Oozie》20160807Oozie
一.引入 MapReduce Job Hive 脚本任务 同一个业务:先后.定时调度 工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架 专门定义与调度Map ...
- 《OD学Flume》20160806Flume和Kafka
一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信 ...
- 《OD学spark》20160924scala基础
拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> ...
- 《OD学HBase》20160820
一.案例 微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户 查看关注用户的微博内容 微博数据存储: 响应时间 秒级 无延迟 (1)mysql分布式 (2)hbase数据库 使用HBase数 ...
- 《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...
随机推荐
- 不要试图用msvc来编译ffmpeg
出于学习目的,想建一个vs2010工程来编译ffmpeg(http://www.ffmpeg.org/),但是由于意义不大,并且工作量太大放弃了.原因如下: 1.一些unix平台相关的头文件.库的依赖 ...
- FFMPEG实现的转码程序
本例子是由FFEMPG的doc/example例子transcode.c修改而来,可以根据需求任意转换音视频的编码. 原来的例子的作用更类似于remux,并没有实现转码的功能,只是实现了格式转换,比如 ...
- Oracle中spool命令实现的两种方法比较
---恢复内容开始--- 要输出符合要求格式的数据文件只需在select时用字符连接来规范格式.比如有如下表 SQL>; select id,username,password from myu ...
- Maven 将jar导入本地maven仓库
目录 环境变量配置maven 执行一下命令即可 诚邀访问我的个人博客:我在马路边 更好的阅读体验点击查看原文:Maven将jar倒入本地maven仓库 原创博客,转载请注明出处 @ 在Java项目开发 ...
- 【QT】对Qt项目开发中遇到的问题的总结
1. QMessageBox中文乱码 这里的中文乱码是指只有QMessageBox才出现中文乱码,其他都可以正常使用的情况.有些博客中提到使用QString::fromUtf8()函数, 实测有些情况 ...
- pytorch--cpu与gpu load时相互转化
pytorch------cpu与gpu load时相互转化 torch.load(map_location=)学习 将gpu改为cpu时,遇到一个报错:RuntimeError: Attemptin ...
- BZOJ1217:[HNOI2003]消防局的设立
我对贪心的理解:https://www.cnblogs.com/AKMer/p/9776293.html 题目传送门:https://www.lydsy.com/JudgeOnline/problem ...
- 完美前向保密PFS
===========来自网友=========== “前向安全性”应当是叫做“forward security”.该定义最早是由Mihir Bellare和Sara K. Miner在 CRYPTO ...
- ceph-deploy mon add 失败
ceph-deploy mon add 失败 标签(空格分隔): ceph-deploy 运维 问题描述: 现有集群只有一个mon,需要通过ceph-deploy mon add添加两个mon.在ad ...
- Java类的生命周期(转)
引言 最近有位细心的朋友在阅读笔者的文章时,对java类的生命周期问题有一些疑惑,笔者打开百度搜了一下相关的问题,看到网上的资料很少有把这个问题讲明白的,主要是因为目前国内java方面的教材大多只是告 ...