题目:海量数据查询
开头:
1.自我介绍;
2.题目切入:
什么是海量数据查询?(海量数据,快速,符合要求)
几个常用场景(搜索引擎,百度;话单查询;影像平台,高铁)
3.展示目录:架构,案例,平台规划
4.架构,常用需求的切入:
高并发qps;
全文搜索(模糊查询,类似sql like;近义词;有PDF,WORD,文本等解析能力);
固定查询(固定字段,可组合查);
灵活查询(任意字段,随意组合查);
非结构化数据存储(小文件,半结构,非结构数据,图片视频之类)
5.hyperbase介绍
来源:基于hbase,hbase基于Google bigtable;
定义:列式,key-value,分布式数据库;
特性:稳定健壮;多个运维工具针对集群维护;完善的sql支持(inceptor);
超高并发支持;支持多种索引;高速入库;高效分析;非结构化支持。
6.search介绍
1.擅长做灵活查询,全文搜索;
2.比solr,es优点:做了大量工作,单节点(单实例,2T*12)容量增加到15-20T左右;
冷热数据隔离;提高压缩比,压缩速率;高速检索分析;
堆外内存管理:解释单节点容量能达到20T问题;管理jvm最大30G,索引+segment占用内存,把堆内存解放
放在堆外,扩展了内存,提高了IO效率,减少了GC次数;
支持sql2003标准;
3.另外的工作:基于时空地理信息的高效处理;
7.关键字对应的解决方案
高并发:hyperbase,search(1w,300);
全文搜索:search;
灵活查询:search;
固定查询:hyperbase>search
非结构存储:hyperbase
8.场景组合:
高并发+固定查询:柜面查询,话单查询,历史记录查询,交易记录查询;
注意点:
hbase和search不适合做join(join需求只适合小表10W以下,返回1W以内);
hbase和search都不适合做聚合和排序,除非返回数据较少
9.案例解决方案
1.挑战:持续增长数据,数据类型多样
2.解决方案:TDH
3.效果:硬件成本1/3;千亿级数据秒级返回;PB级别数据的存储和检索;时空分析秒级响应
4.框图:主线:数据源(结构化,非结构化)组件(hyperbase,search),功能,平台,场景应用
10.检索场景评估:
1.hyperbase:裸容量=原始数据量*(1+20%膨胀)*3副本/3(压缩率);
2.search:裸容量=原始数据量*(1+100%膨胀)*(1+1)副本;
11.hyperbase性能指标:
1.单个regionserver建议不超过4000*7=28T的存储容量;
2.bulkload入库:20-30M/s;
3.API入库:10M/s;
4.索引入库:带1个索引,入库性能降低20%;
5.rebuild时间:10M/S/机器;
12.search 性能指标:
1.查询:ms级别;
2.并发:上限300qps;
3.rebuild时间:search不开副本1W/tps,开副本5000/tps;
4.search处理上限:单实例15T,开源6T

TDH-search汇报理解的更多相关文章

  1. Beam Search快速理解及代码解析

    目录 Beam Search快速理解及代码解析(上) Beam Search 贪心搜索 Beam Search Beam Search代码解析 准备初始输入 序列扩展 准备输出 总结 Beam Sea ...

  2. Beam Search快速理解及代码解析(下)

    Beam Search的问题 先解释一下什么要对Beam Search进行改进.因为Beam Search虽然比贪心强了不少,但还是会生成出空洞.重复.前后矛盾的文本.如果你有文本生成经验,一定对这些 ...

  3. Beam Search快速理解及代码解析(上)

    Beam Search 简单介绍一下在文本生成任务中常用的解码策略Beam Search(集束搜索). 生成式任务相比普通的分类.tagging等NLP任务会复杂不少.在生成的时候,模型的输出是一个时 ...

  4. Backtracking line search的理解

    使用梯度下降方法求解凸优化问题的时候,会遇到一个问题,选择什么样的梯度下降步长才合适. 假设优化函数为,若每次梯度下降的步长都固定,则可能出现左图所示的情况,无法收敛.若每次步长都很小,则下降速度非常 ...

  5. Css、javascript、dom(二)

    一.css常用标签及页面布局 1.常用标签 position(定位) z-index(定位多层顺序) background(背景) margin(外边距) padding(内边距) font-size ...

  6. 一个用得比较广的微信API的XXE外部实体注入漏洞

    文件地址: https://github.com/dodgepudding/wechat-php-sdk/raw/master/wechat.class.php 代码: <?php /** * ...

  7. python五十六课——正则表达式(常用函数之findall)

    4).函数:findall(regex,string,[flags=0]): 参数: 和match.search一样理解 功能: 将所有匹配成功的子数据(子串),以列表的形式返回: 如果一个都没有匹配 ...

  8. 13.python内置模块之re模块

    什么是正则? 正则表达式也称为正则,是一个特殊的字符序列,能帮助检查一个字符串是否与某种模式匹配.可以用来进行验证:邮箱.手机号.qq号.密码.url = 网站地址.ip等.正则不是python语言独 ...

  9. Eclipse 插件开发 —— 深入理解查找(Search)功能及其扩展点

    引言 查找功能是计算机语言开发环境 / 平台的一个非常重要的特性.Eclipse 也不例外,它提供了丰富的查找功能(用户可以输入正则表达式或任意字符串,指定查找范围和匹配选项等等),并且提供了简单易用 ...

随机推荐

  1. 【MFC】动态创建CMFCToolbar图标不显示问题

    最近遇到一个问题,需要动态的从xml文件读取一系列图标文件,加载到一个toolbar中,由于使用的是vs2008 with sp1 feature pack,自然想到用CMFCToolbar来做,思路 ...

  2. 查询oracle 数据库 SQL语句执行情况

    1.查看总消耗时间最多的前10条SQL语句 select *  from (select v.sql_id,  v.child_number,  v.sql_text,  v.elapsed_time ...

  3. 「LOJ#10072」「一本通 3.2 例 1」Sightseeing Trip(无向图最小环问题)(Floyd

    题目描述 原题来自:CEOI 1999 给定一张无向图,求图中一个至少包含 333 个点的环,环上的节点不重复,并且环上的边的长度之和最小.该问题称为无向图的最小环问题.在本题中,你需要输出最小环的方 ...

  4. scala & spark实战

    java.lang.Long is not a valid external type for schema of string   java.lang.RuntimeException: Error ...

  5. this在方法赋值过程中无法保持(隐式丢失)

    在看<高级程序设计>(我的红宝书) P.183页时遇到下面一个问题 var name = "77"; var obj = { name: "88", ...

  6. Redis的Spring配置讲解

    Redis是一种特殊类型的数据库,他被称之为key-value存储 本文覆盖缓存和存储两方面进行说明,使用的是Spring 4.0和Java配置方式 代码地址下载地址:https://github.c ...

  7. 我对sobel算子的理解

    转自:http://blog.csdn.net/yanmy2012/article/details/8110316 索贝尔算子(Sobeloperator)主要用作边缘检测,在技术上,它是一离散性差分 ...

  8. Java 日志记录规则

    Java 日志记录规则 规则一:日志是面向读者的 我们不应该让无价值的信息使日志文件变得乱糟糟,比如说完整打印所有的实体字段. 通常,实体名字和其逻辑关键字足以识别在表格中的一条记录了. 规则二:匹配 ...

  9. cookie,sessionStorage 和 localStorage

    1.三者之间的区别 cookie是网站为了标示用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密). cookie数据始终在同源的http请求中携带(即使不需要),记会在浏览 ...

  10. IOS推流 搭建环境

    效果图 iTools有点卡, 但是推到服务器倒是很快的. 推流 前言 这篇blog是iOS视频直播初窥:<喵播APP>的一个补充. 因为之前传到github上的项目中没有集成视频的推流.有 ...