题目:海量数据查询
开头:
1.自我介绍;
2.题目切入:
什么是海量数据查询?(海量数据,快速,符合要求)
几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)
3.展示目录:架构,案例,平台规划
4.架构,常用需求的切入:
高并发qps;
全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);
固定查询(固定字段,可组合查);
灵活查询(任意字段,随意组合查);
非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)
5.hyperbase介绍
来源:基于hbase,hbase基于Google bigtable;
定义:列式,key-value,分布式数据库;
特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);
超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。
6.search介绍
1.擅长做灵活查询,全文搜索;
2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;
冷热数据隔离;提高压缩比,压缩速率;高速检索分析;
堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放
放在堆外,扩展了内存,提高了IO效率,减少了GC次数;
支持sql2003标准;
3.另外的工作:基于时空地理信息的高效处理;
7.关键字对应的解决方案
高并发:hyperbase,search(1w,300);
全文搜索:search;
灵活查询:search;
固定查询:hyperbase>search
非结构存储:hyperbase
8.场景组合:
高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;
注意点:
hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);
hbase和search都不适合做聚合和排序,除非返回数据较少
9.案例解决方案
1.挑战:持续增长数据,数据类型多样
2.解决方案:TDH
3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应
4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用
10.检索场景评估:
1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);
2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;
11.hyperbase性能指标:
1.单个regionserver建议不超过4000*7=28T的存储容量;
2.bulkload入库:20-30M/s;
3.API入库:10M/s;
4.索引入库:带1个索引,入库性能降低20%;
5.rebuild时间:10M/S/机器;
12.search 性能指标:
1.查询:ms级别;
2.并发:上限300qps;
3.rebuild时间:search不开副本1W/tps,开副本5000/tps;
4.search处理上限:单实例15T,开源6T

TDH-search汇报理解的更多相关文章

  1. Beam Search快速理解及代码解析

    目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析 准备初始输入 序列扩展 准备输出 总结 Beam Sea ...

  2. Beam Search快速理解及代码解析(下)

    Beam Search的问题 先解释一下什么要对Beam Search进行改进.因为Beam Search虽然比贪心强了不少,但还是会生成出空洞.重复.前后矛盾的文本.如果你有文本生成经验,一定对这些 ...

  3. Beam Search快速理解及代码解析(上)

    Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...

  4. Backtracking line search的理解

    使用梯度下降方法求解凸优化问题的时候,会遇到一个问题,选择什么样的梯度下降步长才合适. 假设优化函数为,若每次梯度下降的步长都固定,则可能出现左图所示的情况,无法收敛.若每次步长都很小,则下降速度非常 ...

  5. Css、javascript、dom(二)

    一.css常用标签及页面布局 1.常用标签 position(定位) z-index(定位多层顺序) background(背景) margin(外边距) padding(内边距) font-size ...

  6. 一个用得比较广的微信API的XXE外部实体注入漏洞

    文件地址: https://github.com/dodgepudding/wechat-php-sdk/raw/master/wechat.class.php 代码: <?php /** * ...

  7. python五十六课——正则表达式(常用函数之findall)

    4).函数:findall(regex,string,[flags=0]): 参数: 和match.search一样理解 功能: 将所有匹配成功的子数据(子串),以列表的形式返回: 如果一个都没有匹配 ...

  8. 13.python内置模块之re模块

    什么是正则? 正则表达式也称为正则,是一个特殊的字符序列,能帮助检查一个字符串是否与某种模式匹配.可以用来进行验证:邮箱.手机号.qq号.密码.url = 网站地址.ip等.正则不是python语言独 ...

  9. Eclipse 插件开发 —— 深入理解查找(Search)功能及其扩展点

    引言 查找功能是计算机语言开发环境 / 平台的一个非常重要的特性.Eclipse 也不例外,它提供了丰富的查找功能(用户可以输入正则表达式或任意字符串,指定查找范围和匹配选项等等),并且提供了简单易用 ...

随机推荐

  1. ivew组件的使用

    iview的官网:https://www.iviewui.com/docs/guide/start 1.选择快速上手 2.安装 解压,cmd,cd进你解压后的文件,cnpm i 3.打包 npm ru ...

  2. timing-function: steps()

    animation语法 animation:name duration timing-function delay iteration-count direction timing-function取 ...

  3. Codeforces Gym 101190 NEERC 16 G. Game on Graph(博弈+拓扑)

    Gennady and Georgiy are playing interesting game on a directed graph. The graph has n vertices and m ...

  4. POJ2763 Housewife Wind(树剖+线段树)

    After their royal wedding, Jiajia and Wind hid away in XX Village, to enjoy their ordinary happy lif ...

  5. hyperledger fabric学习(1)

    第一部分 环境搭建 说明 本次环境搭建是是现在虚拟机中,采用ubuntu 16.04版本,安装多次成功. 首先安装一些常用的工具 sudo apt-get update sudo apt-get in ...

  6. 【Opencv】Mat基础

    1.Mat::imread() C++: Mat imread(const string& filename, int flags=1 ) filename – Name of file to ...

  7. IE botton 点击文字下沉

    IE点击文字下沉这个应该是浏览器自带的,只要是用button标签应该都是避免不了的. 如果实在接受不了的话,用一个元素比如div.p等块级元素或者是i.b.s.u.span等行内元素.用样式去模拟bu ...

  8. ie下使用文本编辑器导致input文本框无法聚焦的问题原因

    最近公司的一个项目遇到一个如下问题: 描述:测试发现,每当我们在发布活动的页面发布完活动后,页面跳转到我的活动,然后再次回到发布活动页面,发现所有的input文本框都不能聚焦.然后再去看看其他页面(我 ...

  9. libvirtError: 无效参数:could not find capabilities for domaintype=kvm

    libvirtError: 无效参数:could not find capabilities for domaintype=kvm 编辑/etc/nova/nova.conf 在[libvirt] 添 ...

  10. JS加DOM理解

    1. ***变量 2. ***数据类型 一. ***变量:内存中存储*一个*数据的存储空间,再起一个名字 何时使用:程序中反复使用的数据,都要先保存在变量中,再参与运算 如何使用:声明   赋值    ...