1、环境:

1.1、cassandra 集群: 用于日志数据存储

1.2、spark集群: 用户后期的实时计算及批处理

1.3、codis 集群: 用于缓存一些基本数据如IP归属地,IP经纬度等,当日志上来,对日志进行补全

1.4、postgres数据库: 1、用于存储维度表 2、存储统计结果

1.5、消息队列 如:rabbitmq、apollo 或者kafka,用于接收产品日志数据。当日志数据低于5000条/s时,可以考虑使用rabbitmq。高于此值。建议换成apollo或者kafka。消息队列不建议留太长时间的数据,建议保留时间:15天~1月

部署说明:

spark 和cassandra 采用一对一部署,以保证后期计算时的数据本地性

codis集群:视具体情况而定,建议不少于3组,每组2个节点

postgres:开启自动vacuum

2、数据收集

日志数据直接发送到消息队列(可以考虑在消息队列前加上Nginx)。

3、数据补全与拆分 外加原始数据存储

使用日志数据时,我们可能会有一些期望,比如,

A: 后期需要按区域进行产品统计,热力图。这时可以将IP地址解析为国家、省、市、和经纬度。

B: 日志需要分发不同部门,日志记录需要唯一标识 如:添加长整型日期戳+进程标识

数据进行补全后,A:根据产品等拆分成topic后,扔回队列,供实时计算,B:并存储一份到cassandra作为原始数据,同时供离线计算

4、实时计算

spark streaming 根据需要,订阅topic,进行实时计算

5、数据仓库

根据实际业务,订阅拆分后的topic,生成数据仓库。维度表放在postgres中,事实表放在Cassandra中.

请注意以下几点:

A、维度表

  A1:采用Long作为主键,以增快后期Join效率。

  A2:同时为避免过于频繁读写关系数据库,可以使用codis缓存维度数据,设置ttl,如8小时。

B、事实数据,切忌放在关系数据库中。过于频繁的读写操作会对关系数据库造成过大压力。

C、如果精力、资源有限,可以先对核心日志类型做数据仓库,比如,订单。至于客户点击、浏览历史可以之后再做。

6、离线计算

6.1 spark 作业可以读取Cassandra中的原始数据,进行历史数据的离线计算。详见spark cassandra connector的使用

6.2 每日对事实表进行简单聚合后,与维度表进行join,join后的数据另外存储。供核心业务使用。

  6.2.1 由于每日join,刚好按日做了缓慢变化。若需要进行历史统计可以直接用。若需要按照最新维度信息对历史数据进行统计,各个业务自行与维度表join

  6.2.2 由于事实表join个所有维度表,字段比较多。但是实际使用时,各个业务只会取其中的十个八个字段,甚至更少,此时,强烈建议使用列存储,并启用压缩。

     建议使用parquet存储(详见:为什么我们使用parquet),而不用rc或者orc file,原因1:spark 原生支持parquet。原因2:即使你用hive,hive也完全支持parquet

7、计算结果

选择计算结果的存储位置,需要事先预估结果的记录数。切勿只考虑一天,至少要考虑一年。以每年3000W为门坎,

若小于3000W,可以考虑存储到关系数据库。

若大于3000W,需要使用NOSQL数据库。您可以选择cassandra、hbase、mongodb等

8、结果展现

结果展现时,请考虑以下因素

数据导出:大数据的计算结果未必会是小数据,因此数据导出一定要分页。在第7步选择哪种NOSQL,要先调研好分页实现。

可视化展现:千里之堤,溃于蚁穴。数据已经计算出来了,一定要在展现上把数据的价值体现出来。可以考虑使用折线图、柱状图、饼图、热力图、地图等,推荐使用Echarts

spark + cassandra +postgres +codis 大数据方案的更多相关文章

  1. 低调、奢华、有内涵的敏捷式大数据方案:Flume+Cassandra+Presto+SpagoBI

    基于FacebookPresto+Cassandra的敏捷式大数据 文件夹 1 1.1 1.1.1 1.1.2 1.2 1.2.1 1.2.2 2 2.1 2.2 2.3 2.4 2.5 2.6 3 ...

  2. 量化派基于Hadoop、Spark、Storm的大数据风控架构--转

    原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人 ...

  3. 双汇大数据方案选型:从棘手的InfluxDB+Redis到毫秒级查询的TDengine

    双汇发展多个分厂的能源管控大数据系统主要采用两种技术栈:InfluxDB/Redis和Kafka/Redis/HBase/Flink,对于中小型研发团队来讲,无论是系统搭建,还是实施运维都非常棘手.经 ...

  4. 一个大数据方案:基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎

    网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...

  5. 大数据计算新贵Spark在腾讯雅虎优酷成功应用解析

    http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等 ...

  6. 大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

    第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...

  7. 大数据学习:Spark是什么,如何用Spark进行数据分析

    给大家分享一下Spark是什么?如何用Spark进行数据分析,对大数据感兴趣的小伙伴就随着小编一起来了解一下吧.     大数据在线学习 什么是Apache Spark? Apache Spark是一 ...

  8. 大数据(13) - Spark的安装部署与简单使用

    一 .Spark概述 官网:http://spark.apache.org 1.        什么是spark Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校 ...

  9. 大数据的前世今生【Hadoop、Spark】

      一.大数据简介 大数据是一个很热门的话题,但它是什么时候开始兴起的呢? 大数据[big data]这个词最早在UNIX用户协会的会议上被使用,来自SGI公司的科学家在其文章“大数据与下一代基础架构 ...

随机推荐

  1. Google浏览器提示用户要允许网站允许flash!

    开发的flash播放器,在谷歌浏览器上播放不了,需要提示用户手动开启允许网站运行flash: <script type="text/javascript"> if (w ...

  2. 微信小程序 --- 绘画

    cavans及context详解 绘画API的使用 游戏的制作

  3. 110道python题+理解(不断更新)

    此篇题目在网上已经广为流传,但好多都不做解释,所以我想着自己一道一道的做一遍,并将相关涉及的做个补充,个人知识毕竟片面,有不足的地方还请大家多多指正 一.请用一行代码实现1-100之和 >> ...

  4. centos7 安装后,出现Please make your choice from above ['q' to quit | 'c' to continue | 'r' to refresh]

    PS:出现以上信息,是要求你阅读或者接收协议: Initial setup of CentOS Linux 7 (core)解决步骤如下: 1,输入[1],按Enter键阅读许可协议,2,输入[2], ...

  5. EasyUI +MVC +EF实现增删改查

    OA项目的框架已经搭建好了,接下来就是在这个框架下完成相应的业务的编码,接下来实现UserInfo页面的增删改查. 1.首先先谈一下遇到的一个框架上的问题:提示EF版本不一致之类的问题,主要是解决方案 ...

  6. Information:java: Errors occurred while compiling module 'spring'

    IntellJ Idea遇到Errors occurred while compiling module的解决方法 - sully2008的专栏 - CSDN博客 https://blog.csdn. ...

  7. JSON_CONTAINS

    select * from tb    where info->'$.name' = '特价促销'  or JSON_CONTAINS(info->'$[*].name', '" ...

  8. Qt::QWindow多窗口争抢置顶状态解决方案

    有时候我们会有这种需求,自己的桌面程序需要置顶,但是程序包含了很多窗口,可能我们要求窗口1,2都在其它桌面程序之上,但是窗口1必须随时在窗口2之上. Qt提供的置顶方式是在windowsflags上增 ...

  9. Python开发【笔记】:“~” 按位取反运计算方法

    按位取反: 要弄懂这个运算符的计算方法,首先必须明白二进制数在内存中的存放形式,二进制数在内存中是以补码的形式存放的 原码 原码(true form)是一种计算机中对数字的二进制定点表示方法.原码表示 ...

  10. Python开发【笔记】:探索Python F-strings

    F-strings 在python3.6.2版本中,PEP 498 提出一种新型字符串格式化机制,被称为“字符串插值”或者更常见的一种称呼是F-strings(主要因为这种字符串的第一个字母是f) 简 ...