题目:海量数据查询
开头:
1.自我介绍;
2.题目切入:
什么是海量数据查询?(海量数据,快速,符合要求)
几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)
3.展示目录:架构,案例,平台规划
4.架构,常用需求的切入:
高并发qps;
全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);
固定查询(固定字段,可组合查);
灵活查询(任意字段,随意组合查);
非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)
5.hyperbase介绍
来源:基于hbase,hbase基于Google bigtable;
定义:列式,key-value,分布式数据库;
特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);
超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。
6.search介绍
1.擅长做灵活查询,全文搜索;
2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;
冷热数据隔离;提高压缩比,压缩速率;高速检索分析;
堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放
放在堆外,扩展了内存,提高了IO效率,减少了GC次数;
支持sql2003标准;
3.另外的工作:基于时空地理信息的高效处理;
7.关键字对应的解决方案
高并发:hyperbase,search(1w,300);
全文搜索:search;
灵活查询:search;
固定查询:hyperbase>search
非结构存储:hyperbase
8.场景组合:
高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;
注意点:
hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);
hbase和search都不适合做聚合和排序,除非返回数据较少
9.案例解决方案
1.挑战:持续增长数据,数据类型多样
2.解决方案:TDH
3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应
4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用
10.检索场景评估:
1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);
2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;
11.hyperbase性能指标:
1.单个regionserver建议不超过4000*7=28T的存储容量;
2.bulkload入库:20-30M/s;
3.API入库:10M/s;
4.索引入库:带1个索引,入库性能降低20%;
5.rebuild时间:10M/S/机器;
12.search 性能指标:
1.查询:ms级别;
2.并发:上限300qps;
3.rebuild时间:search不开副本1W/tps,开副本5000/tps;
4.search处理上限:单实例15T,开源6T

TDH-search汇报理解的更多相关文章

  1. Beam Search快速理解及代码解析

    目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析 准备初始输入 序列扩展 准备输出 总结 Beam Sea ...

  2. Beam Search快速理解及代码解析(下)

    Beam Search的问题 先解释一下什么要对Beam Search进行改进.因为Beam Search虽然比贪心强了不少,但还是会生成出空洞.重复.前后矛盾的文本.如果你有文本生成经验,一定对这些 ...

  3. Beam Search快速理解及代码解析(上)

    Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...

  4. Backtracking line search的理解

    使用梯度下降方法求解凸优化问题的时候,会遇到一个问题,选择什么样的梯度下降步长才合适. 假设优化函数为,若每次梯度下降的步长都固定,则可能出现左图所示的情况,无法收敛.若每次步长都很小,则下降速度非常 ...

  5. Css、javascript、dom(二)

    一.css常用标签及页面布局 1.常用标签 position(定位) z-index(定位多层顺序) background(背景) margin(外边距) padding(内边距) font-size ...

  6. 一个用得比较广的微信API的XXE外部实体注入漏洞

    文件地址: https://github.com/dodgepudding/wechat-php-sdk/raw/master/wechat.class.php 代码: <?php /** * ...

  7. python五十六课——正则表达式(常用函数之findall)

    4).函数:findall(regex,string,[flags=0]): 参数: 和match.search一样理解 功能: 将所有匹配成功的子数据(子串),以列表的形式返回: 如果一个都没有匹配 ...

  8. 13.python内置模块之re模块

    什么是正则? 正则表达式也称为正则,是一个特殊的字符序列,能帮助检查一个字符串是否与某种模式匹配.可以用来进行验证:邮箱.手机号.qq号.密码.url = 网站地址.ip等.正则不是python语言独 ...

  9. Eclipse 插件开发 —— 深入理解查找(Search)功能及其扩展点

    引言 查找功能是计算机语言开发环境 / 平台的一个非常重要的特性.Eclipse 也不例外,它提供了丰富的查找功能(用户可以输入正则表达式或任意字符串,指定查找范围和匹配选项等等),并且提供了简单易用 ...

随机推荐

  1. physoft.net网站暂停 www.physoft.cn 正式开通 (菲烁科技, physoft)

    physoft.net原本计划以开源代码为主体,由于各种原因代码未能开源.基于这些代码,physoft成立了 菲烁(重庆)科技有限公司 ( www.physoft.cn) ,专注于工业级双目视觉测量, ...

  2. laravel 5.4 运行 make:auth 报错

    Laravel 5.4 migrate时报错: Specified key was too long error 问题根源 MySQL支持的utf8编码最大字符长度为3字节,如果遇到4字节的宽字符就会 ...

  3. CDH5.12.1 安装部署

    ###通过http://192.168.50.200:7180/cmf/login 访问CM控制台 4.CDH安装 4.1CDH集群安装向导 1.admin/admin登陆到CM 2.同意licens ...

  4. BZOJ_4033_[HAOI2015]树上染色_树形DP

    BZOJ_4033_[HAOI2015]树上染色_树形DP Description 有一棵点数为N的树,树边有边权.给你一个在0~N之内的正整数K,你要在这棵树中选择K个点,将其染成黑色,并 将其他的 ...

  5. AI-Info-Micron-Solutions-Menu:Solutions

    ylbtech-AI-Info-Micron-Solutions-Menu:Solutions 1.返回顶部 1. 按应用分类 汽车解决方案 美光科技不仅是你的存储提供商,更是你的长期合作伙伴.我们提 ...

  6. SpringBoot之导入导出Excel

    1.添加springBoot支持 <dependency> <groupId>org.apache.poi</groupId> <artifactId> ...

  7. 03_通过OpenHelper获取SqliteDatabase对象

    MyOpenHelper openHelper = new MyOpenHelper(this); 类似于java的File file = new File();只是声明这个东西,但是文件还并没有真正 ...

  8. Eclipse中一个开发AspectJ的插件安…

    eclipse4.2 EE版本插件安装 Eclipse最新版本Juno版本发布.部分插件版本跟不上. 选择自己需要的插件安装. eclipse http://www.eclipse.org/downl ...

  9. go实现冒泡排序和快速排序

    项目结构 冒泡排序算法,源文件bubblesort.go package bubblesort // 冒泡排序 func BubbleSort(values []int) { for i := 0; ...

  10. 封装类似thinkphp连贯操作数据库的Db类(简单版)。

    <?php header("Content-Type:text/html;charset=utf-8"); /** *php操作mysql的工具类 */ class Db{ ...