spark + cassandra +postgres +codis 大数据方案

1、环境：

1.1、cassandra 集群：用于日志数据存储

1.2、spark集群：用户后期的实时计算及批处理

1.3、codis 集群：用于缓存一些基本数据如IP归属地，IP经纬度等，当日志上来，对日志进行补全

1.4、postgres数据库： 1、用于存储维度表 2、存储统计结果

1.5、消息队列如：rabbitmq、apollo 或者kafka，用于接收产品日志数据。当日志数据低于5000条/s时，可以考虑使用rabbitmq。高于此值。建议换成apollo或者kafka。消息队列不建议留太长时间的数据，建议保留时间：15天~1月

部署说明：

spark 和cassandra 采用一对一部署，以保证后期计算时的数据本地性

codis集群：视具体情况而定，建议不少于3组，每组2个节点

postgres：开启自动vacuum

2、数据收集

日志数据直接发送到消息队列（可以考虑在消息队列前加上Nginx）。

3、数据补全与拆分外加原始数据存储

使用日志数据时，我们可能会有一些期望，比如，

A: 后期需要按区域进行产品统计，热力图。这时可以将IP地址解析为国家、省、市、和经纬度。

B: 日志需要分发不同部门，日志记录需要唯一标识如：添加长整型日期戳+进程标识

数据进行补全后，A：根据产品等拆分成topic后，扔回队列，供实时计算，B：并存储一份到cassandra作为原始数据，同时供离线计算

4、实时计算

spark streaming 根据需要，订阅topic，进行实时计算

5、数据仓库

根据实际业务，订阅拆分后的topic，生成数据仓库。维度表放在postgres中，事实表放在Cassandra中.

请注意以下几点：

A、维度表

　　A1：采用Long作为主键，以增快后期Join效率。

　　A2：同时为避免过于频繁读写关系数据库，可以使用codis缓存维度数据，设置ttl，如8小时。

B、事实数据，切忌放在关系数据库中。过于频繁的读写操作会对关系数据库造成过大压力。

C、如果精力、资源有限，可以先对核心日志类型做数据仓库，比如，订单。至于客户点击、浏览历史可以之后再做。

6、离线计算

6.1 spark 作业可以读取Cassandra中的原始数据，进行历史数据的离线计算。详见spark cassandra connector的使用

6.2 每日对事实表进行简单聚合后，与维度表进行join，join后的数据另外存储。供核心业务使用。

　　6.2.1 由于每日join，刚好按日做了缓慢变化。若需要进行历史统计可以直接用。若需要按照最新维度信息对历史数据进行统计，各个业务自行与维度表join

　　6.2.2 由于事实表join个所有维度表，字段比较多。但是实际使用时，各个业务只会取其中的十个八个字段，甚至更少，此时，强烈建议使用列存储，并启用压缩。

　　建议使用parquet存储（详见：为什么我们使用parquet），而不用rc或者orc file,原因1:spark 原生支持parquet。原因2：即使你用hive，hive也完全支持parquet

7、计算结果

选择计算结果的存储位置,需要事先预估结果的记录数。切勿只考虑一天，至少要考虑一年。以每年3000W为门坎，

若小于3000W，可以考虑存储到关系数据库。

若大于3000W，需要使用NOSQL数据库。您可以选择cassandra、hbase、mongodb等

8、结果展现

结果展现时，请考虑以下因素

数据导出：大数据的计算结果未必会是小数据，因此数据导出一定要分页。在第7步选择哪种NOSQL，要先调研好分页实现。

可视化展现：千里之堤，溃于蚁穴。数据已经计算出来了，一定要在展现上把数据的价值体现出来。可以考虑使用折线图、柱状图、饼图、热力图、地图等，推荐使用Echarts

spark + cassandra +postgres +codis 大数据方案的更多相关文章

低调、奢华、有内涵的敏捷式大数据方案：Flume+Cassandra+Presto+SpagoBI
基于FacebookPresto+Cassandra的敏捷式大数据文件夹 1 1.1 1.1.1 1.1.2 1.2 1.2.1 1.2.2 2 2.1 2.2 2.3 2.4 2.5 2.6 3 ...
量化派基于Hadoop、Spark、Storm的大数据风控架构--转
原文地址:http://www.csdn.net/article/2015-10-06/2825849 量化派是一家金融大数据公司,为金融机构提供数据服务和技术支持,也通过旗下产品“信用钱包”帮助个人 ...
双汇大数据方案选型：从棘手的InfluxDB+Redis到毫秒级查询的TDengine
双汇发展多个分厂的能源管控大数据系统主要采用两种技术栈:InfluxDB/Redis和Kafka/Redis/HBase/Flink,对于中小型研发团队来讲,无论是系统搭建,还是实施运维都非常棘手.经 ...
一个大数据方案：基于Nutch+Hadoop+Hbase+ElasticSearch的网络爬虫及搜索引擎
网络爬虫架构在Nutch+Hadoop之上,是一个典型的分布式离线批量处理架构,有非常优异的吞吐量和抓取性能并提供了大量的配置定制选项.由于网络爬虫只负责网络资源的抓取,所以,需要一个分布式搜索引擎, ...
大数据计算新贵Spark在腾讯雅虎优酷成功应用解析
http://www.csdn.net/article/2014-06-05/2820089 摘要:MapReduce在实时查询和迭代计算上仍有较大的不足,目前,Spark由于其可伸缩.基于内存计算等 ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
大数据学习：Spark是什么，如何用Spark进行数据分析
给大家分享一下Spark是什么?如何用Spark进行数据分析,对大数据感兴趣的小伙伴就随着小编一起来了解一下吧. 大数据在线学习什么是Apache Spark? Apache Spark是一 ...
大数据(13) - Spark的安装部署与简单使用
一 .Spark概述官网:http://spark.apache.org 1. 什么是spark Spark是一种快速.通用.可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校 ...
大数据的前世今生【Hadoop、Spark】
一.大数据简介大数据是一个很热门的话题,但它是什么时候开始兴起的呢? 大数据[big data]这个词最早在UNIX用户协会的会议上被使用,来自SGI公司的科学家在其文章“大数据与下一代基础架构 ...

随机推荐

MAC电脑里的休眠功能在哪里？
Windows7和Ubuntu里都有睡眠和休眠功能,睡眠一般是指挂起到内存,电脑停止运行,数据都在内存里,只需要给内存供电,恢复时很快:休眠是指挂起到硬盘,电脑可以完全停止供电,恢复时从硬盘读取数据, ...
【node】------module.exports&&exports之间的区别------【巷子】
1.再讲module.exports 与exports之间的区别的时候我们先来回顾一下js里面的引用传递 001.引用传递 var arr = [10,20,30]; var newarr = arr ...
南京网络赛B-The writing on the wall
30.43% 2000ms 262144K Feeling hungry, a cute hamster decides to order some take-away food (like frie ...
SQLPlus的两种登录方式的不同效果
Windows 8,Oralce11g,命令行 1.输入“sqlplus”,回车,提示:请输入用户名,输入用户名,回车,提示,请输入口令,输入口令后,回车,报ORA-12560:TNS:协议适配器错误 ...
探究 Oracle 高水位对数据库性能影响
在开始深入分析之前,让我们先来了解一下高水位线 HWM. 一. HWM 的基本原理 (概念) 在 Oracle 中,高水位线(High-warter mark, HWM)被用来形容数据块的使用位置,即 ...
使用google字体发生http://fonts.gstatic.com/s/ubuntu/v8/_aijTyevf54tkVDLy-dlnFtXRa8TVwTICgirnJhmVJw.woff2
我在使用adminTLE后台模板时,有时候会有 http://fonts.gstatic.com/s/ubuntu/v8/_aijTyevf54tkVDLy-dlnFtXRa8TVwTICgirnJh ...
Python开发【模块】：sqlalchemy
一.对象映射关系(ORM) orm英文全称object relational mapping,就是对象映射关系程序,简单来说我们类似python这种面向对象的程序来说一切皆对象,但是我们使用的数据库却 ...
202-React.Component组件、生命周期
一.概述 React可以将组件定义为类或函数.定义为类的组件当前提供了更多的功能.要定义React组件类,您需要扩展React.Component: class Welcome extends Rea ...
Spark Core (一) 什么是RDD的Transformation和Action以及Dependency（转载）
1. Spark的RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是对分布式数据集的一种抽象. RDD所具备5个主要特性: 一组分区列表计算每一个数 ...
TeamViewer远程唤醒主机实战教程（多图）
前言:首先感谢大家来到这里.这篇文章其实算是一个教程,文章中涉及到了TeamViewer,Mac OS X,TP-Link家用路由器,以及花生壳DDNS,对于新手而言内容可能稍微有些多,但我相信按照我 ...

spark + cassandra +postgres +codis 大数据方案

spark + cassandra +postgres +codis 大数据方案的更多相关文章

随机推荐

热门专题