大数据场景一、各种标签查询

查询要素:人、事、物、单位

查询范围:A范围、B范围、...

查询结果:pic、name、data from

1、痛点:对所有文本皆有实时查询需求
2、难点:传统SQL使用WHERE子句匹配LIKE关键词,在庞大的数据字段中搜索某些想要的字,需遍历所有数据页或者索引页,查询效率底,当出现千万级以上数据时,耗时较高,无法满足实时要求
3、方案:使用全文检索方案,分布式架构,即使PB级量级也可做到毫秒级查询

大数据场景二、客户事件查询

查询条件:
城市、区域、时间跨度(20170301 00:00-20170311 00:00)数据来源:旅店 or
城市、区域、时间跨度(20170301 00:00-20170311 00:00)数据来源:旅店

查询结果:
身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹(A地||B地||C地)

1、痛点:通过多表碰撞,获得某几个维度的深度分析结果
2、难点:传统方式按照一定条件对两表进行交叉查询,一旦到达十万级,即达到百亿级查询量,无法达到准实时级
3、方案: 大数据二级索引建模和Impala大数据组件

大数据场景三、每日工作简报

A1 今天客户(累计、首次、其他)、今年客户(累计、活动)、

今天客户、from detail、to detail

A2 今日客车(累计、活动)、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比,客户分布,重点关注

1、痛点:重点分析,每日预警报告,实时应对
2、难点:传统方式数据库之间大表直接执行多表联查效率较低,数据分析难度较大
3、方案:使用大数据NoSql数据库,二级索引建模分析技术

大数据场景四、可视化分析展现

不同场景客户(客户、wb、路口)的可视化分析(正常、预警和高精)

1、痛点:实时数据展示,可以一目了然观察各类数据、分析各个维度发展趋势
2、难点:传统技术实时Count,资源消耗重,且当数据量较大时,延迟较大,聚合查询耗时严重
3、方案:大数据Nosql数据库、流式计算以及消息中间件,对历史数据深度分析,实时数据毫秒级处理

大数据场景五、云服务设施利用率监控

全公司:物理服务器数量、云服务器数量、利用率

分公司:服务器、cpu、内存分布

1、痛点:实时监控系统内所有硬件设备的使用情况
2、难点:设备较多,参数复杂,实时监控难度大
3、方案:大数据存储架构与NoSql数据库、离线计算结合

1、痛点:数据质量参次不齐,只能在入库后才知质量情况
2、难点:传统技术无法实时监控数据质量情况
3、方案:使用流式计算技术,实时监控入库数据质量,智能纠错报警,后续可做深度分析

1、痛点:服务运行状态无法掌控,日志数据无法有效利用
2、难点:日志一般为非结构化数据,分析难度较大
3、方案:使用大数据技术,将非结构化日志数据实时入库转化为结构数据,进行深度分析并实时监控

大数据学习总结(7)we should...的更多相关文章

  1. 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)

    引言 在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...

  2. 大数据学习系列之五 ----- Hive整合HBase图文详解

    引言 在上一篇 大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...

  3. 大数据学习系列之六 ----- Hadoop+Spark环境搭建

    引言 在上一篇中 大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...

  4. 大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 图文详解

    引言 在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...

  5. 大数据学习系列之九---- Hive整合Spark和HBase以及相关测试

    前言 在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建 中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...

  6. 大数据学习之Linux进阶02

    大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPR ...

  7. 大数据学习之Linux基础01

    大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹 在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...

  8. 大数据学习:storm流式计算

    Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...

  9. 大数据学习系列之—HBASE

    hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换 数据到关系型数据库转换 大数据学习群119 ...

  10. 大数据学习之Hadoop快速入门

    1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效 ...

随机推荐

  1. 直播-srs起步

    srs简介 https://github.com/ossrs/srs/wiki/v2_CN_Home     原料 CentOS Linux release 7.2.1511 (Core) ffmpe ...

  2. c++标准头文件

    C++标准库的所有头文件都没有扩展名.C++标准库的内容总共在50个标准头文件中定义,其中18个提供了C库的功能. <cname>形式的标准头文件[ <complex>例外]其 ...

  3. 从循环添加事件谈起对JS闭包的理解

    1.引子 相信很多初学js的人,都遇到这样一种情况:想要给一堆按钮添加各自的事件,比如点击第i个按钮时,弹出i这个值.理所当然地,我们会这样写: var buttons = document.getE ...

  4. 炫丽的倒计时效果Canvas绘图与动画基础

    前言 想要在自己做的网页中,加入canvas动画效果,但是发现模板各种调整不好,觉得还是要对canvas有所了解,才可以让自己的网页变得狂拽炫酷吊炸天! 一.绘制基础 1 <!DOCTYPE h ...

  5. 【Unity3D与23种设计模式】工厂方法模式(Factory Method)

    GoF中定义: "定义一个可以产生对象的接口,但是让子类决定要产生哪一个类的对象.工厂方法模式让类的实例化程序延迟到子类中实施" 当类的对象产生时,若出现下列情况: 1.需要复杂的 ...

  6. 使用localtunne一分钟搞定微信公众号接入

      记得15年那个刚刚进入工作的时候,公司有个微信公众号的项目,那个时候微信官方没有什么调试工具,也没有什么比较好的本地调试工具.当时有个功能需要调用微信JSSDK里面的扫一扫的功能.由于本地不能调试 ...

  7. 使用jitpack来获取github上的开源项目

    在开发中我们需要经常使用第三方依赖库,在构建工具Gradle或maven中声明依赖, 大部分使用的是maven中心仓库或者阿里云仓库等等,但是这样也存在一个问题,上述仓库的库虽然简单快捷好用,但并不是 ...

  8. 笔记:XML-解析文档-DOM

    要处理XML文档,就要先解析(parse)他,解析器时这样一个程序,读入一个文件,确认整个文件具有正确的格式,然后将其分解成各种元素,使得程序员能够访问这些元素,Java库提供了两种XML解析器: 像 ...

  9. 笔记:Hibernate 框架配置说明

    下载 Hibernate ,打开地址 www.hibernate.org ,点击 Hibernate ORM -> Downloads 下载 4.3.11 版本,要使用Hibernate 需要把 ...

  10. Java语法基础(1)

    Java语法基础(1) 1.      Java是一门跨平台(也就是跨操作系统)语言,其跨平台的本质是借助java虚拟机 (也就是JVM(java virtual mechinal))进行跨平台使用. ...