题目:海量数据查询
开头:
1.自我介绍;
2.题目切入:
什么是海量数据查询?(海量数据,快速,符合要求)
几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)
3.展示目录:架构,案例,平台规划
4.架构,常用需求的切入:
高并发qps;
全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);
固定查询(固定字段,可组合查);
灵活查询(任意字段,随意组合查);
非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)
5.hyperbase介绍
来源:基于hbase,hbase基于Google bigtable;
定义:列式,key-value,分布式数据库;
特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);
超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。
6.search介绍
1.擅长做灵活查询,全文搜索;
2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;
冷热数据隔离;提高压缩比,压缩速率;高速检索分析;
堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放
放在堆外,扩展了内存,提高了IO效率,减少了GC次数;
支持sql2003标准;
3.另外的工作:基于时空地理信息的高效处理;
7.关键字对应的解决方案
高并发:hyperbase,search(1w,300);
全文搜索:search;
灵活查询:search;
固定查询:hyperbase>search
非结构存储:hyperbase
8.场景组合:
高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;
注意点:
hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);
hbase和search都不适合做聚合和排序,除非返回数据较少
9.案例解决方案
1.挑战:持续增长数据,数据类型多样
2.解决方案:TDH
3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应
4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用
10.检索场景评估:
1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);
2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;
11.hyperbase性能指标:
1.单个regionserver建议不超过4000*7=28T的存储容量;
2.bulkload入库:20-30M/s;
3.API入库:10M/s;
4.索引入库:带1个索引,入库性能降低20%;
5.rebuild时间:10M/S/机器;
12.search 性能指标:
1.查询:ms级别;
2.并发:上限300qps;
3.rebuild时间:search不开副本1W/tps,开副本5000/tps;
4.search处理上限:单实例15T,开源6T

TDH-search汇报理解的更多相关文章

  1. Beam Search快速理解及代码解析

    目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析 准备初始输入 序列扩展 准备输出 总结 Beam Sea ...

  2. Beam Search快速理解及代码解析(下)

    Beam Search的问题 先解释一下什么要对Beam Search进行改进.因为Beam Search虽然比贪心强了不少,但还是会生成出空洞.重复.前后矛盾的文本.如果你有文本生成经验,一定对这些 ...

  3. Beam Search快速理解及代码解析(上)

    Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...

  4. Backtracking line search的理解

    使用梯度下降方法求解凸优化问题的时候,会遇到一个问题,选择什么样的梯度下降步长才合适. 假设优化函数为,若每次梯度下降的步长都固定,则可能出现左图所示的情况,无法收敛.若每次步长都很小,则下降速度非常 ...

  5. Css、javascript、dom(二)

    一.css常用标签及页面布局 1.常用标签 position(定位) z-index(定位多层顺序) background(背景) margin(外边距) padding(内边距) font-size ...

  6. 一个用得比较广的微信API的XXE外部实体注入漏洞

    文件地址: https://github.com/dodgepudding/wechat-php-sdk/raw/master/wechat.class.php 代码: <?php /** * ...

  7. python五十六课——正则表达式(常用函数之findall)

    4).函数:findall(regex,string,[flags=0]): 参数: 和match.search一样理解 功能: 将所有匹配成功的子数据(子串),以列表的形式返回: 如果一个都没有匹配 ...

  8. 13.python内置模块之re模块

    什么是正则? 正则表达式也称为正则,是一个特殊的字符序列,能帮助检查一个字符串是否与某种模式匹配.可以用来进行验证:邮箱.手机号.qq号.密码.url = 网站地址.ip等.正则不是python语言独 ...

  9. Eclipse 插件开发 —— 深入理解查找(Search)功能及其扩展点

    引言 查找功能是计算机语言开发环境 / 平台的一个非常重要的特性.Eclipse 也不例外,它提供了丰富的查找功能(用户可以输入正则表达式或任意字符串,指定查找范围和匹配选项等等),并且提供了简单易用 ...

随机推荐

  1. 【HDU 4807】Lunch Time 最小费用最大流

    题意 在一个有向图当中,现在每一条边带有一个容量,现在有K个人在起点,需要到终点去吃饭,询问这K个人最后一个人到达食堂的最小时间是多少 贴一篇题解:http://blog.csdn.net/u0137 ...

  2. 在线接口管理工具-eoapi

    为了方便和前端沟通,临时在局域网搭建了一个接口管理工具,查了一些资料都说eoapi不错,那就试了一下: 1.安装 要在服务器或者自己的电脑,准备web环境,Linux可以是Apache/nginx , ...

  3. suse enterprise Linux 11上配置 oracle11g和tomcat开机自启动

    一.oracle 11g r2自启动 1.修改/etc/sysconfig/oracle文件: ORACLE_BASE=/oracle  //此处改为你安装的oracle目录 START_ORACLE ...

  4. BZOJ-1568: Blue Mary开公司 (李超线段树)

    Description Input 第一行 :一个整数N ,表示方案和询问的总数. 接下来N行,每行开头一个单词“Query”或“Project”. 若单词为Query,则后接一个整数T,表示Blue ...

  5. Pycharm用鼠标滚轮控制字体大小的

    Pycharm用鼠标滚轮控制字体大小的   一.pycharm字体放大的设置 File —> setting —> Keymap —>在搜寻框中输入:increase —> I ...

  6. 解决CentOS 7安装zabbix 3.0 无法启动zabbix-server的问题[segfault at 18 ip 00007f78842b4bd0 sp 00007fff1995a818 error 4 in libpthread-2.17.so[7f78842ab000+16000]]

    解决CentOS 7安装zabbix 3.0 无法启动zabbix-server的问题 [root@localhost sbin]# service zabbix-server start Redir ...

  7. 选中DataGrid的Cell而不是row

    主要是针对DataGridCellsPresenter而不是SelectiveScrollingGrid,使用时DataGridRow应用这个style就可以了. <Style x:Key=&q ...

  8. POJ3928(树状数组:统计数字出现个数)

    Ping pong Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 2641   Accepted: 978 Descript ...

  9. HDU1540(线段树统计连续长度)

    ---恢复内容开始--- Tunnel Warfare Time Limit:2000MS     Memory Limit:32768KB     64bit IO Format:%I64d &am ...

  10. 【转】Pro Android学习笔记(九):了解Content Provider(下下)

    Content provider作为信息的读出,比较常见的还有文件的读写,最基础的就是二进制文件的的读写,例如img文件,音频文件的读写.在数据库中存放了该文件的路径,我们可以通过ContentPro ...