日期

2017年3月17日

HBase建模记录

OLTP 应用场景:

OLAP 应用场景:

语音分析系统的应用场景

基于HBase的建模考虑

1.话单为主来考虑hbase的rowkey的生成规则:

1.1 原始语音文件的命名规则

dxaudio_$(ID)_$(CallNum)_$(CalledNum)_$(starttime)_$(stoptime)_$(Type)_$(rec).voc

表示规则:

$(ID)表示通话唯一标识;

$(CallNum)表示主叫号码

$(CalledNum)表示被叫号码

$(starttime)为通话开始时间;

  • 型如:YYYYmmddHHMMSS,例:20100801120123表示2010年8月1日12点1分23秒创建。

$(stoptime)为通话结束时间,型同$(starttime)

$(datetime)为文件生成时间,型同$(starttime),文件入库时间

$(Type)表示信道类型,见附录B

$(rec)为流水号,从00000至99999循环使用

相同$(datetime)的各个文件的$(rec)不相同

1.2业务上支持的字段

1.3 如何支持一条记录对不同结构的查询

1.4 倒排索引&搜索引擎

关键词查找的方法已经到了极限

互联网上的资料生成索引,总共分为三步

1)把资料编号;

2)把每篇资料内容切分成词

3)把词和资料编号的对应关系处理成
词è编号列表的形式

需考虑的问题:

1)资料(网页)收集的全、快、稳、新、

2)建立索引时要考虑质量、效率、赋权、周期、时效性、资源消耗问题

3)query的时候要考虑的问题 query分析、排序、筛选、展示、性能、、广告、推荐、个性化、

统计

4)整体上要考虑地域性、容灾、国际化、当地法律、返作弊、垂直需求、移动互联网等

1.5开源搜索引擎技术

1)Lucene,

他不是一个引擎产品而是一个类库,至今开源搜索引擎最好没有之一

使用java语音开发

基本涵盖了搜索引擎中的索引和检索两个核心部分的全部功能

抽象程度较好

2)solr

一个完整的搜索引擎产品

底层是基于Lucene

3) elasticSearch

产品级开源项目,

底层基于Lucene

提供Restful API的服务

Restful 就是直接通过HTTP协议收发请求和响应,接口比较清晰简单,是一种架构规则

 

结论:

搜索类应用程序的检索可以通过es来进行检索。

 
 
 
 
 
 
 
 
 
 

Hbase建模选择的更多相关文章

  1. Hbase建模

    转自:http://blog.itpub.net/28912557/viewspace-1119865/ 什么情况下使用Hbase?1,成熟的数据分析主题,查询模式已经确定并且不易轻易改变.(主要还是 ...

  2. Hbase写入hdfs源码分析

    版权声明:本文由熊训德原创文章,转载请注明出处: 文章原文链接:https://www.qcloud.com/community/article/258 来源:腾云阁 https://www.qclo ...

  3. Hbase的安装测试工作

    Hbase的安装测试工作: 安装:http://www.cnblogs.com/neverwinter/archive/2013/03/28/2985798.html 测试:http://www.cn ...

  4. Hadoop集群中Hbase的介绍、安装、使用

    导读 HBase – Hadoop Database,是一个高可靠性.高性能.面向列.可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群. 一.Hbase ...

  5. HBase的安装与使用

    1.安装 由于还是学习阶段,所以没有在生产环境练习,就在本地建了个虚拟机进行HBase的安装. 下载地址http://www.apache.org/dyn/closer.cgi/hbase/,选择一个 ...

  6. HBase安装inAction

    在安装Hbase之前,需要有hadoop的运行环境,关于hadoop的安装过程,请查看我之前的blog:hadoop安装笔记:或者另一个博主的超详细文章http://weixiaolu.iteye.c ...

  7. 阿里云HBase携X-Pack再进化,重新赋能轻量级大数据平台

    一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...

  8. 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

    一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的淘宝历史交易记录,到蚂蚁安全风控数据存储.持续8年的投入,历经8年双十一锻 ...

  9. HBase案例:HBase 在人工智能场景的使用

    近几年来,人工智能逐渐火热起来,特别是和大数据一起结合使用.人工智能的主要场景又包括图像能力.语音能力.自然语言处理能力和用户画像能力等等.这些场景我们都需要处理海量的数据,处理完的数据一般都需要存储 ...

随机推荐

  1. 怎样实现SDO服务

    SDO是CANopen协议中最复杂的一部分,带有应答机制,有多种传输方式,并且完整的SDO功能节点需提供1个SDO server和多个SDO client,因此SDO的实现异常困难,协议多种传输方式的 ...

  2. svmtrain和svmpredict简介

    转自:http://blog.sina.com.cn/s/blog_4d7c97a00101bwz1.html 本文主要介绍了SVM工具箱中svmtrain和svmpredict两个主要函数: (1) ...

  3. pygame学习笔记(2)——从画点到动画

    转载请注明:@小五义 http://www.cnblogs.com/xiaowuyi 1.单个像素(画点)利用pygame画点主要有三种方法:方法一:画长宽为1个像素的正方形 #@小五义 http:/ ...

  4. 使用docker-compose编排django、mysql实战

    背景: 本萌最近在部署自己开发的项目的时候发现同一套代码上传到服务器上后,部分功能莫名其妙的有点问题,服务器的各项配置都没有做过变动,所以想把项目转战到docker. 奈何刚接触docker,很多地方 ...

  5. centos升级内核(rpm方式)

    #rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org 如果失败的话多试几次,感觉网络不是很好#rpm -ivh http://www. ...

  6. Hibernate性能优化之SessionFactory重用

    Hibernate优化的方式有很多,如缓存.延迟加载以及与SQL合理映射,通过对SessionFactory使用的优化是最基础的. SessionFactory负责创建Session实例,Sessio ...

  7. [BZOJ4556][Tjoi2016&Heoi2016]字符串 后缀数组+主席树

    4556: [Tjoi2016&Heoi2016]字符串 Time Limit: 20 Sec  Memory Limit: 128 MB Description 佳媛姐姐过生日的时候,她的小 ...

  8. GPU并行编程小结

    http://peghoty.blog.163.com/blog/static/493464092013016113254852/ http://blog.csdn.net/augusdi/artic ...

  9. 【刷题】BZOJ 4816 [Sdoi2017]数字表格

    Description Doris刚刚学习了fibonacci数列.用f[i]表示数列的第i项,那么 f[0]=0 f[1]=1 f[n]=f[n-1]+f[n-2],n>=2 Doris用老师 ...

  10. 51nod 1206 Picture 矩形周长求并 | 线段树 扫描线

    51nod 1206 Picture 矩形周长求并 | 线段树 扫描线 #include <cstdio> #include <cmath> #include <cstr ...