题目:海量数据查询
开头:
1.自我介绍;
2.题目切入:
什么是海量数据查询?(海量数据,快速,符合要求)
几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)
3.展示目录:架构,案例,平台规划
4.架构,常用需求的切入:
高并发qps;
全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);
固定查询(固定字段,可组合查);
灵活查询(任意字段,随意组合查);
非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)
5.hyperbase介绍
来源:基于hbase,hbase基于Google bigtable;
定义:列式,key-value,分布式数据库;
特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);
超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。
6.search介绍
1.擅长做灵活查询,全文搜索;
2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;
冷热数据隔离;提高压缩比,压缩速率;高速检索分析;
堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放
放在堆外,扩展了内存,提高了IO效率,减少了GC次数;
支持sql2003标准;
3.另外的工作:基于时空地理信息的高效处理;
7.关键字对应的解决方案
高并发:hyperbase,search(1w,300);
全文搜索:search;
灵活查询:search;
固定查询:hyperbase>search
非结构存储:hyperbase
8.场景组合:
高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;
注意点:
hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);
hbase和search都不适合做聚合和排序,除非返回数据较少
9.案例解决方案
1.挑战:持续增长数据,数据类型多样
2.解决方案:TDH
3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应
4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用
10.检索场景评估:
1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);
2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;
11.hyperbase性能指标:
1.单个regionserver建议不超过4000*7=28T的存储容量;
2.bulkload入库:20-30M/s;
3.API入库:10M/s;
4.索引入库:带1个索引,入库性能降低20%;
5.rebuild时间:10M/S/机器;
12.search 性能指标:
1.查询:ms级别;
2.并发:上限300qps;
3.rebuild时间:search不开副本1W/tps,开副本5000/tps;
4.search处理上限:单实例15T,开源6T

TDH-search汇报理解的更多相关文章

  1. Beam Search快速理解及代码解析

    目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析 准备初始输入 序列扩展 准备输出 总结 Beam Sea ...

  2. Beam Search快速理解及代码解析(下)

    Beam Search的问题 先解释一下什么要对Beam Search进行改进.因为Beam Search虽然比贪心强了不少,但还是会生成出空洞.重复.前后矛盾的文本.如果你有文本生成经验,一定对这些 ...

  3. Beam Search快速理解及代码解析(上)

    Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...

  4. Backtracking line search的理解

    使用梯度下降方法求解凸优化问题的时候,会遇到一个问题,选择什么样的梯度下降步长才合适. 假设优化函数为,若每次梯度下降的步长都固定,则可能出现左图所示的情况,无法收敛.若每次步长都很小,则下降速度非常 ...

  5. Css、javascript、dom(二)

    一.css常用标签及页面布局 1.常用标签 position(定位) z-index(定位多层顺序) background(背景) margin(外边距) padding(内边距) font-size ...

  6. 一个用得比较广的微信API的XXE外部实体注入漏洞

    文件地址: https://github.com/dodgepudding/wechat-php-sdk/raw/master/wechat.class.php 代码: <?php /** * ...

  7. python五十六课——正则表达式(常用函数之findall)

    4).函数:findall(regex,string,[flags=0]): 参数: 和match.search一样理解 功能: 将所有匹配成功的子数据(子串),以列表的形式返回: 如果一个都没有匹配 ...

  8. 13.python内置模块之re模块

    什么是正则? 正则表达式也称为正则,是一个特殊的字符序列,能帮助检查一个字符串是否与某种模式匹配.可以用来进行验证:邮箱.手机号.qq号.密码.url = 网站地址.ip等.正则不是python语言独 ...

  9. Eclipse 插件开发 —— 深入理解查找(Search)功能及其扩展点

    引言 查找功能是计算机语言开发环境 / 平台的一个非常重要的特性.Eclipse 也不例外,它提供了丰富的查找功能(用户可以输入正则表达式或任意字符串,指定查找范围和匹配选项等等),并且提供了简单易用 ...

随机推荐

  1. T57

    “期待使我产生了介于幸福与恐惧之间的激动”The anticipation produced in me a sensation somewhat between bliss and fear他猛一下 ...

  2. c macro pair

    成对使用的macro, 不过也有机会用错, 死都不知道怎么死的, 这宏... #define pthread_cleanup_push(func, val) \ { \ struct __darwin ...

  3. xml字符串的解析

    import org.jdom.Document;import org.jdom.Element;import org.jdom.JDOMException;import org.jdom.Names ...

  4. <opengl>使用glu绘制二次曲面

    绘制二次曲面通常要以下四步:   1.首先我们创建一个二次方程状态对象 GLUquadricObj *m_pObj;    //保存绘图模式.法线模式.法线朝向.纹理等信息 //创建二次方程状态对象 ...

  5. nginx版本策略

    近期Nginx发布了1.17.0主线版本与1.16.0稳定版本,并且发布了一篇文章< Introducing NGINX 1.16 and 1.17 >说明Nginx的版本更新策略.推荐分 ...

  6. Hbase之三:Hbase Shell使用入门

    HBase 为用户提供了一个非常方便的使用方式, 我们称之为“HBase Shell”.HBase Shell 提供了大多数的 HBase 命令, 通过 HBase Shell 用户可以方便地创建.删 ...

  7. Tomcat访问程序外的上传文件

    自己在编写程序时,把图片上传到程序根目录下,但是页面使用<img> 没有显示.但是,当我刷新项目下文件夹后,页面刷新可以显示. 我通过网上查询,当在Tomcat下的server.xml配置 ...

  8. gcc -frandom-seed

    -frandom-seed=string This option provides a seed that GCC uses when it would otherwise use random nu ...

  9. Aspose.words写表格时多出空格的问题

    通过aspose.words创建表格时,每一个表格总是有一个制表符,和空格差不多,经过查找原因如下: 我是先通过书签找到需要插入表格的位置,在这个位置开始写表格的操作.问题出在书签上,这个书签在创建的 ...

  10. Java正则表达式之Matcher介绍

    Matcher方法如下: Matcher方法如下: Matcher appendReplacement(StringBuffer sb, String replacement) 将当前匹配子串替换为指 ...