大数据学习总结（7）we should...

大数据场景一、各种标签查询

查询要素：人、事、物、单位

查询范围：A范围、B范围、...

查询结果：pic、name、data from

1、痛点：对所有文本皆有实时查询需求
2、难点：传统SQL使用WHERE子句匹配LIKE关键词，在庞大的数据字段中搜索某些想要的字，需遍历所有数据页或者索引页，查询效率底，当出现千万级以上数据时，耗时较高，无法满足实时要求
3、方案：使用全文检索方案，分布式架构，即使PB级量级也可做到毫秒级查询

大数据场景二、客户事件查询

查询条件：
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店 or
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店

查询结果：
身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹（A地||B地||C地）

1、痛点：通过多表碰撞，获得某几个维度的深度分析结果
2、难点：传统方式按照一定条件对两表进行交叉查询，一旦到达十万级，即达到百亿级查询量，无法达到准实时级
3、方案：大数据二级索引建模和Impala大数据组件

大数据场景三、每日工作简报

A1 今天客户（累计、首次、其他）、今年客户（累计、活动）、

今天客户、from detail、to detail

A2 今日客车（累计、活动）、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比，客户分布，重点关注

1、痛点：重点分析，每日预警报告，实时应对
2、难点：传统方式数据库之间大表直接执行多表联查效率较低，数据分析难度较大
3、方案：使用大数据NoSql数据库，二级索引建模分析技术

大数据场景四、可视化分析展现

不同场景客户（客户、wb、路口）的可视化分析（正常、预警和高精）

1、痛点：实时数据展示，可以一目了然观察各类数据、分析各个维度发展趋势
2、难点：传统技术实时Count，资源消耗重，且当数据量较大时，延迟较大，聚合查询耗时严重
3、方案：大数据Nosql数据库、流式计算以及消息中间件，对历史数据深度分析，实时数据毫秒级处理

大数据场景五、云服务设施利用率监控

全公司：物理服务器数量、云服务器数量、利用率

分公司：服务器、cpu、内存分布

1、痛点：实时监控系统内所有硬件设备的使用情况
2、难点：设备较多，参数复杂，实时监控难度大
3、方案：大数据存储架构与NoSql数据库、离线计算结合

1、痛点：数据质量参次不齐，只能在入库后才知质量情况
2、难点：传统技术无法实时监控数据质量情况
3、方案：使用流式计算技术，实时监控入库数据质量，智能纠错报警，后续可做深度分析

1、痛点：服务运行状态无法掌控，日志数据无法有效利用
2、难点：日志一般为非结构化数据，分析难度较大
3、方案：使用大数据技术，将非结构化日志数据实时入库转化为结构数据，进行深度分析并实时监控

大数据学习总结（7）we should...的更多相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据学习之Linux进阶02
大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPR ...
大数据学习之Linux基础01
大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...
大数据学习：storm流式计算
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...
大数据学习之Hadoop快速入门
1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效 ...

随机推荐

html备战春招の一
html不是一种编程语言,而是一种标记语言,通过使用标签来标记网页. 对于中文网页需要使用 <meta charset="utf-8"> 声明编码,否则会出现乱码.有些 ...
Unity3D判断触摸方向
据说 Temple Run(神庙逃亡) 就是用这种方式操作的废话不多说直接上代码 using UnityEngine; using System.Collections; public class ...
selenium webdriver 的环境搭建时注意事项
selenium webdriver 在 eclipse中的配置,网络上应该很方便搜索到,这里只记搭建过程中容易出现的一些问题 1. selenium-java与selenium-sever-sta ...
Spring源码学习：第0步--环境准备
Spring源码现在已托管于GitHub,相比于以前直接从官网下载一个压缩包的方式来说,确实方便了不少. GitHub地址:https://github.com/spring-projects/spr ...
python全栈开发-Day6 字符编码
python全栈开发-Day6 字符编码一 .了解字符编码的知识储备一 .计算机基础知识二 .文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启 ...
mysql存储过程(查询数据库内表游标循环 if判断插入别的表内)
BEGIN declare f_age int;DECLARE incode1 VARCHAR(100);DECLARE incode2 VARCHAR(100);DECLARE incode3 VA ...
Android开发从GC root分析内存泄漏
我们常说的垃圾回收机制中会提到GC Roots这个词,也就是Java虚拟机中所有引用的根对象.我们都知道,垃圾回收器不会回收GC Roots以及那些被它们间接引用的对象.但是,对于GC Roots的定 ...
Linux 如何使用echo指令向文件写入内容
0.前言本文总结如何使用echo命令向文件中写入内容,例如使用echo指令覆盖文件内容,使用echo指令向文件追加内容,使用echo指令往文件中追加制表符. echo向文件中输出内容 ...
设计模式 --> （5）适配器模式
适配器模式适配器模式把一个类的接口变换成客户端所期待的另一种接口,从而使原本接口不匹配而无法在一起工作的两个类能够在一起工作.比如说我的hp笔记本,美国产品,人家美国的电压是110V的,而我们中国的 ...
js前端读写文件的方法（json、excel）
1.前端读取文件的实现关键:利用文件上传对话框预览本地文件.利用FileReader读取文件前端预览本地文件 <input tabindex="-1" id=" ...

大数据学习总结（7）we should...

大数据学习总结（7）we should...的更多相关文章

随机推荐

热门专题