《OD学storm》20160828

一、Storm项目

1. 架构

javasdk -> nginx -> 日志文件 -> flume agent(collector) -> hdfs

　　　　　　　　　　　　　　　　　　　　　　　　　　　　-> kafka -> storm -> hbased

kafka吞吐量达，可以被不同的消费者重复消费

2. 项目需求

电商

用户提交订单并且成功支付

收集订单详情

分析：

（1）每天（每小时、每分钟）电商网站的总销售额、订单笔数

（2）基于地域（国家、省份、城市）、时段

（3）从客户角度，统计客户消费情况

（4）客户在电商网站消费行为，客户流失趋势

3. 技术框架

Storm Trident

准确度，批次

4. 实现

1）从kafka上读取数据

Trident kafkaspout

TransactionalTridentKafkaSpout：

消息处理失败重试：只能在之前的批次内进行重试，而且如果一直不成功，将会挂起Storm任务应用程序

OpaqueTridentKafkaSpout：

提供容错机制

处理失败的消息可以在其他批次内进行重试，但是只会被成功处理一次。

exactly-once 有且只有一次。

select sum(price), count(1), date

from 订单记录表

group by date

分组统计：

（1）直接进行全局统计（跨网络数据传输）

（2）先在同一批次个分区内进行局部统计（不需要进行跨网络传输），然后对局部统计好的结果进行全局统计。

group by

partitionAggregate 局部统计

persistentAggregate 全局统计

5. 使用HBase数据库进行存储统计结果状态

rowkey value：

NON-TRANSACTIONAL 统计值

TRANSACTIONAL BATCH_ID 统计值

OPAQUE TRANSACTIONAL BATCH_ID 统计值，上个批次的统计值

作业：

从客户角度，统计客户消费情况

使用trident，统计分析订单记录，求出客户每天、每小时的消费总额，消费笔数（要求使用HBase存储统计结果，能够通过drpc客户端查询）。

拓展学习：

JStorm

二、回顾

storm两条线

storm

Topology

Trident

Tuple 数据流格式 Tuple keyvalue对的集合

Storm流计算本质：对Tuple进行各种转换操作

普通Storm，转换操作写在Bolt中，msgtimeout 30秒

Trident 抽象成各种operation

Tuple Tree：启用消息可靠性保障机制后才会产生。

Spark： RDD RDD弹性分布式数据集集合

cloudera manager 如何安装

8 6 6 20G内存

8 4 4

旅游数据离线分析 3天

scala

spark 5天项目3天

《OD学storm》20160828的更多相关文章

《OD学storm》20160827
http://www.cnblogs.com/lujinhong2/p/4686512.html http://blog.csdn.net/paul_wei2008/article/details/2 ...
《OD学hive》第四周0717
一.Hive基本概念.安装部署与初步使用 1. 后续课程 Hive 项目:hadoop hive sqoop flume hbase 电商离线数据分析 CDH Storm:分布式实时计算框架 Spar ...
《OD学hadoop》20160903某旅游网项目实战
一.大数据的落地点 1.数据出售数据商城:以卖数据为公司的核心业务 2. 数据分析百度统计友盟 GA IBM analysis 3.搜索引擎 4. 推荐系统 mahout 百分比 5.精准营销 ...
《OD学HBase》20160821
一.HBase性能调优 1. JVM内存调优 MemStore内存空间,设置合理大小 memstore.flush.size 刷写大小 134217728 = 128M memstore.mslab. ...
《OD学Oozie》20160807Oozie
一.引入 MapReduce Job Hive 脚本任务同一个业务:先后.定时调度工作流: 定义工作流程 activity jbpm oozie: 大数据工作流定义与调度框架专门定义与调度Map ...
《OD学Flume》20160806Flume和Kafka
一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信 ...
《OD学spark》20160924scala基础
拓展: Hadoop 3.0 NameNode HA NameNode是Active NameNode是Standby可以有多个 HBase Cluster 单节点故障? HBaster -> ...
《OD学HBase》20160820
一.案例微博: 微博内容: 关注用户和粉丝用户: 添加或移除关注用户查看关注用户的微博内容微博数据存储: 响应时间秒级无延迟 (1)mysql分布式 (2)hbase数据库使用HBase数 ...
《OD学HBase》20160814
一.HBase引入 http://hbase.apache.org/ 大数据的数据库 1. 概述 Hadoop生态系统中的一个分布式.可拓展.面向列.可伸缩,具有自动容错功能的数据库. NoSQL数据 ...

随机推荐

vue2.0项目实战使用axios发送请求
在Vue1.0的时候有一个官方推荐的 ajax 插件 vue-resource,但是自从 Vue 更新到 2.0 之后,官方就不再更新 vue-resource. 关于为什么放弃推荐? -> 尤 ...
[原]NYOJ-字符串替换-113
大学生程序代写 /*http://acm.nyist.net/JudgeOnline/problem.php?pid=113 字符串替换时间限制:3000 ms | 内存限制:65535 KB ...
ACM学习历程—HDU5423 Rikka with Tree（搜索）
Problem Description As we know, Rikka is poor at math. Yuta is worrying about this situation, so he ...
[转]django 日志logging的配置以及处理
http://davidbj.blog.51cto.com/4159484/1433741 日志在程序开发中是少不了的,通过日志我们可以分析到错误在什么地方,有什么异常.在生产环境下有很大的用途.在J ...
MaCrea Lit Sphere maps
http://www.zbrushcentral.com/showthread.php?92157-MaCrea-Material-Creation-Tool 这边提供几个可以获取MatCap贴图的网 ...
centos 6.7 （UDEV,、etc/hosts）安装 RAC 11.2.0.4 报错处理
环境说明: db 11.2.0.4 os: centos 6.7 UDEV管理ASM 没有配置DNS服务器,采用/etc/hosts报错: 1. CVU(Cl ...
NetScaler VPX在Azure上的部署（二）
本文是Citrix的工程师协助完成.主要是Citrix的VPX的配置. 导入License 进入NetScaler 中点击管理许可导入后将有提示,请确认重启. 配置Azure HA 由于 ...
三 Flask web开发快速入门
1:会话: from flask import Flask, url_for, request, render_template, session from werkzeug.utils import ...
Python数据结构与算法设计（总结篇）
的确,正如偶像Bruce Eckel所说,"Life is short, you need Python"! 如果你正在考虑学Java还是Python的话,那就别想了,选Pytho ...
17_点击事件第四种写法_布局文件添加onclick属性
尽量不要用第四种点击事件的写法.在一万多行代码中发现了一个没被调用的代码 public void call(View v){//第四种写法参数一定是View v //public void call( ...

《OD学storm》20160828

《OD学storm》20160828的更多相关文章

随机推荐

热门专题