Hbase建模选择
|
日期 2017年3月17日 |
HBase建模记录 |
|
OLTP 应用场景: |
|
|
OLAP 应用场景: |
|
|
语音分析系统的应用场景 |
|
|
基于HBase的建模考虑 |
|
|
1.话单为主来考虑hbase的rowkey的生成规则: |
|
|
1.1 原始语音文件的命名规则 |
|
|
dxaudio_$(ID)_$(CallNum)_$(CalledNum)_$(starttime)_$(stoptime)_$(Type)_$(rec).voc |
|
|
表示规则: |
|
|
$(ID)表示通话唯一标识; |
|
|
$(CallNum)表示主叫号码 |
|
|
$(CalledNum)表示被叫号码 |
|
|
$(starttime)为通话开始时间; |
|
|
|
|
$(stoptime)为通话结束时间,型同$(starttime) |
|
|
$(datetime)为文件生成时间,型同$(starttime),文件入库时间 |
|
|
$(Type)表示信道类型,见附录B |
|
|
$(rec)为流水号,从00000至99999循环使用 |
|
|
相同$(datetime)的各个文件的$(rec)不相同 |
|
|
1.2业务上支持的字段 |
|
|
1.3 如何支持一条记录对不同结构的查询 |
|
|
1.4 倒排索引&搜索引擎 |
|
|
关键词查找的方法已经到了极限 |
|
|
互联网上的资料生成索引,总共分为三步 |
|
|
1)把资料编号; |
|
|
2)把每篇资料内容切分成词 |
|
|
3)把词和资料编号的对应关系处理成 |
|
|
需考虑的问题: |
|
|
1)资料(网页)收集的全、快、稳、新、 |
|
|
2)建立索引时要考虑质量、效率、赋权、周期、时效性、资源消耗问题 |
|
|
3)query的时候要考虑的问题 query分析、排序、筛选、展示、性能、、广告、推荐、个性化、 |
|
|
统计 |
|
|
4)整体上要考虑地域性、容灾、国际化、当地法律、返作弊、垂直需求、移动互联网等 |
|
|
1.5开源搜索引擎技术 |
|
|
1)Lucene, |
|
|
他不是一个引擎产品而是一个类库,至今开源搜索引擎最好没有之一 |
|
|
使用java语音开发 |
|
|
基本涵盖了搜索引擎中的索引和检索两个核心部分的全部功能 |
|
|
抽象程度较好 |
|
|
2)solr |
|
|
一个完整的搜索引擎产品 |
|
|
底层是基于Lucene |
|
|
3) elasticSearch |
|
|
产品级开源项目, |
|
|
底层基于Lucene |
|
|
提供Restful API的服务 |
|
|
Restful 就是直接通过HTTP协议收发请求和响应,接口比较清晰简单,是一种架构规则 |
|
|
|
|
|
结论: |
|
|
搜索类应用程序的检索可以通过es来进行检索。 |
|
Hbase建模选择的更多相关文章
- Hbase建模
转自:http://blog.itpub.net/28912557/viewspace-1119865/ 什么情况下使用Hbase?1,成熟的数据分析主题,查询模式已经确定并且不易轻易改变.(主要还是 ...
- Hbase写入hdfs源码分析
版权声明:本文由熊训德原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/258 来源:腾云阁 https://www.qclo ...
- Hbase的安装测试工作
Hbase的安装测试工作: 安装:http://www.cnblogs.com/neverwinter/archive/2013/03/28/2985798.html 测试:http://www.cn ...
- Hadoop集群中Hbase的介绍、安装、使用
导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase ...
- HBase的安装与使用
1.安装 由于还是学习阶段,所以没有在生产环境练习,就在本地建了个虚拟机进行HBase的安装. 下载地址http://www.apache.org/dyn/closer.cgi/hbase/,选择一个 ...
- HBase安装inAction
在安装Hbase之前,需要有hadoop的运行环境,关于hadoop的安装过程,请查看我之前的blog:hadoop安装笔记:或者另一个博主的超详细文章http://weixiaolu.iteye.c ...
- 阿里云HBase携X-Pack再进化,重新赋能轻量级大数据平台
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...
- 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台
一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...
- HBase案例:HBase 在人工智能场景的使用
近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用.人工智能的主要场景又包括图像能力.语音能力.自然语言处理能力和用户画像能力等等.这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储 ...
随机推荐
- Xcode7~8版本过渡导致的问题
现有项目是早期Xcode7编写的,一直到现在还是使用Xcode7编写.近期一位用户手机下载App出现闪退现象,该用户手机系统(iPhone 6 iOS8.1.2)经查实是由于CoreFoundatio ...
- eureka集群高可用配置
譬如eureka.client.register-with-eureka和fetch-registry是否要配置,配不配区别在哪里:eureka的客户端添加service-url时,是不是需要把所有的 ...
- Jaxb2实现JavaBean与xml互转的方法详解
本文实例讲述了Jaxb2实现JavaBean与xml互转的方法.分享给大家供大家参考,具体如下: 一.简介 JAXB(Java Architecture for XML Binding) 是一个业界的 ...
- docker weave安装
1.升级内核到3.10.0以上,安装iproute22.安装 0.80版本:#wget -O /usr/local/bin/weave https://raw.githubusercontent.co ...
- 一个Flume 异常(Put queue for MemoryTransaction of capacity 100 full)的排查和解决思路
最近在做一个分布式调用链跟踪系统, 在两个地方采用了flume (我使用的flume版本是1.5.0-cdh5.4.4),一个是宿主系统 ,用flume agent进行日志搜集. 一个是从kafka拉 ...
- 2018 焦作icpc现场赛总结
Day 0 没有直达焦作的飞机,所以选择了先到新郑机场,再转乘城际列车.城际列车猜是专门给学生开通的吧,每天只有来和回一共两趟(所以机票选择的余地也不多).买的时候只有无座票了,本来以为会一直站着,但 ...
- 关于dismissViewControllerAnimated值得注意的一点(deinit)
在使用dismissViewControllerAnimated退出当前视图的时候,理论上,该视图对象就会被清除了, 也就是说会进去当前类的析构函数deinit里面.但是有时候会发现,dismiss之 ...
- 胡小兔的NOIP2017游记【出成绩后更新版】
胡小兔的NOIP2017游记[出成绩后更新版] 2017.11.22 Update 前几天成绩出来啦,看这篇博客访问量还挺多的,下面就分享一下结果吧: 我的Day1T2和Day2T1两道最水的题都跪了 ...
- 使用cmstp绕过应用程序白名单
默认情况下,AppLocker允许在文件夹中执行二进制文件,这是可以绕过它的主要原因.已经发现,这样的二进制文件可以很容易地用于绕过AppLocker和UAC.与Microsoft相关的二进制文件之一 ...
- cgroup限制内存
cgroup有个memory子系统,有两组对应的文件,一组带 memsw ,另一组不带. # docker ps -a # cd /sys/fs/cgroup/memory/docker/4b5619 ...