大数据学习总结（7）we should...

大数据场景一、各种标签查询

查询要素：人、事、物、单位

查询范围：A范围、B范围、...

查询结果：pic、name、data from

1、痛点：对所有文本皆有实时查询需求
2、难点：传统SQL使用WHERE子句匹配LIKE关键词，在庞大的数据字段中搜索某些想要的字，需遍历所有数据页或者索引页，查询效率底，当出现千万级以上数据时，耗时较高，无法满足实时要求
3、方案：使用全文检索方案，分布式架构，即使PB级量级也可做到毫秒级查询

大数据场景二、客户事件查询

查询条件：
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店 or
城市、区域、时间跨度（20170301 00:00-20170311 00:00）数据来源：旅店

查询结果：
身份证号、姓名、年龄、民族、性别、籍贯、标签、轨迹（A地||B地||C地）

1、痛点：通过多表碰撞，获得某几个维度的深度分析结果
2、难点：传统方式按照一定条件对两表进行交叉查询，一旦到达十万级，即达到百亿级查询量，无法达到准实时级
3、方案：大数据二级索引建模和Impala大数据组件

大数据场景三、每日工作简报

A1 今天客户（累计、首次、其他）、今年客户（累计、活动）、

今天客户、from detail、to detail

A2 今日客车（累计、活动）、

A3 重点关注信息

B1 事件(编号、时间、描述、参与者、审批人)

B2 客户累计、同比、环比，客户分布，重点关注

1、痛点：重点分析，每日预警报告，实时应对
2、难点：传统方式数据库之间大表直接执行多表联查效率较低，数据分析难度较大
3、方案：使用大数据NoSql数据库，二级索引建模分析技术

大数据场景四、可视化分析展现

不同场景客户（客户、wb、路口）的可视化分析（正常、预警和高精）

1、痛点：实时数据展示，可以一目了然观察各类数据、分析各个维度发展趋势
2、难点：传统技术实时Count，资源消耗重，且当数据量较大时，延迟较大，聚合查询耗时严重
3、方案：大数据Nosql数据库、流式计算以及消息中间件，对历史数据深度分析，实时数据毫秒级处理

大数据场景五、云服务设施利用率监控

全公司：物理服务器数量、云服务器数量、利用率

分公司：服务器、cpu、内存分布

1、痛点：实时监控系统内所有硬件设备的使用情况
2、难点：设备较多，参数复杂，实时监控难度大
3、方案：大数据存储架构与NoSql数据库、离线计算结合

1、痛点：数据质量参次不齐，只能在入库后才知质量情况
2、难点：传统技术无法实时监控数据质量情况
3、方案：使用流式计算技术，实时监控入库数据质量，智能纠错报警，后续可做深度分析

1、痛点：服务运行状态无法掌控，日志数据无法有效利用
2、难点：日志一般为非结构化数据，分析难度较大
3、方案：使用大数据技术，将非结构化日志数据实时入库转化为结构数据，进行深度分析并实时监控

大数据学习总结（7）we should...的更多相关文章

大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机)
引言在大数据学习系列之一 ----- Hadoop环境搭建(单机) 成功的搭建了Hadoop的环境,在大数据学习系列之二 ----- HBase环境搭建(单机)成功搭建了HBase的环境以及相关使用 ...
大数据学习系列之五 ----- Hive整合HBase图文详解
引言在上一篇大数据学习系列之四 ----- Hadoop+Hive环境搭建图文详解(单机) 和之前的大数据学习系列之二 ----- HBase环境搭建(单机) 中成功搭建了Hive和HBase的环 ...
大数据学习系列之六 ----- Hadoop+Spark环境搭建
引言在上一篇中大数据学习系列之五 ----- Hive整合HBase图文详解 : http://www.panchengming.com/2017/12/18/pancm62/ 中使用Hive整合 ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
大数据学习系列之九---- Hive整合Spark和HBase以及相关测试
前言在之前的大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建中介绍了集群的环境搭建,但是在使用hive进行数据查询的时候会非常的慢,因为h ...
大数据学习之Linux进阶02
大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPR ...
大数据学习之Linux基础01
大数据学习之Linux基础 01:Linux简介 linux是一种自由和开放源代码的类UNIX操作系统.该操作系统的内核由林纳斯·托瓦兹在1991年10月5日首次发布.,在加上用户空间的应用程序之后 ...
大数据学习：storm流式计算
Storm是一个分布式的.高容错的实时计算系统.Storm适用的场景: 1.Storm可以用来用来处理源源不断的消息,并将处理之后的结果保存到持久化介质中. 2.由于Storm的处理组件都是分布式的, ...
大数据学习系列之—HBASE
hadoop生态系统 zookeeper负责协调 hbase必须依赖zookeeper flume 日志工具 sqoop 负责 hdfs dbms 数据转换数据到关系型数据库转换大数据学习群119 ...
大数据学习之Hadoop快速入门
1.Hadoop生态概况 Hadoop是一个由Apache基金会所开发的分布式系统集成架构,用户可以在不了解分布式底层细节情况下,开发分布式程序,充分利用集群的威力来进行高速运算与存储,具有可靠.高效 ...

随机推荐

WordPress非插件实现评论回复邮件提醒通知
要想在第一时间知道有人在自己博客留言,然后在第一时间回复留言再第一时间通知邮件者,这就需要WordPress博客拥有邮件通知功能. 先看效果: 评论邮件通知的方法: 1.所有回复都发送邮件通知登陆博 ...
serializeArray()获取的表单参数转化成json格式的对象
目标:将serializeArray()这个方法获取的表单对象转换成json格式 function serializeObject(){ //easyui提交表单 $('#form').form( ...
MySQL的奇怪的删表数据文件而表照样能打开
MySQL的奇怪的删表数据文件而表照样能打开 author:headsen chen 2017-11-02 17:57:17 现象:删除一个正在运行的mysql数据库的表的数据文件:* ...
20165230 2017-2018-2 《Java程序设计》第3周学习总结
20165230 2017-2018-2 <Java程序设计>第3周学习总结教材学习内容总结本周主要学习了类与对象. 包括创建对象与构造方法. 了解了程序是由若干个类所构成:类分为类名 ...
Win32 API之绘图函数
AbortPath 抛弃选入指定设备场景中的所有路径.也取消目前正在进行的任何路径的创建工作 AngleArc 用一个连接弧画一条线 Arc 画一个圆弧 BeginPath 启动一个路径分支 Canc ...
nbtstat
某个主机的ip地址为:192.168.155.1 我们通过nbtstat -a ip命令就可知道这个主机的名称信息.
Docker(四)：Docker 三剑客之 Docker Compose
前两篇文章我们介绍了 Dockerfile 的使用Docker(二):Dockerfile 使用介绍,我们知道使用一个 Dockerfile 模板文件可以定义一个单独的应用容器,如果需要定义多个容器就 ...
上传到 App Store 时出错。
Try this, it fixed it for me. Open Terminal and run: cd ~ mv .itmstransporter/ .old_itmstransporte ...
阿里云ECS的CPU100%排查
一.背景和现象初创公司,架构lanmp,web前端和后端分开服务器,业务驱动主要是nginx和apache,nginx主要是处理静态文件和反向代理,前后端.搜索引擎.缓存.队列等附加的服务都是用do ...
#Python3.6.2(32位) pip安装和 pygame 环境配置
#首先确认电脑已经安装python ,可通过在命令行下执行 python --version确认. 1. 到 https://pypi.python.org/pypi/setuptools/ 下载 ...

大数据学习总结（7）we should...

大数据学习总结（7）we should...的更多相关文章

随机推荐

热门专题