记一次Hbase查询速度优化经历

项目背景：

　　在这次影像系统中，我们利用大数据平台做的是文件（图片、视频等）批次的增删改查，每个批次都包含多个文件，上传完成以后要添加文件索引（文件信息及批次信息），由于在Hbase存储的过程中，每个文件都对应一个文件rowKey，一个批次就会有很多个RoweKey，查询的下载的时候就必须根据每个文件的rowkey找到对应的文件，如果一个批次有很多个文件的话，就需要查找很多次，这样是很浪费时间的，一开始没注意这么多，开发并且完成功能测试后，觉得一切OK，但是作为大数据后台，对效率的要求非常高，在压力测试的时候出现了问题，并发量上来之后，查询下载的速度非常慢，TPS总上不去，仔细分析代码后，发现了问题。

改进之前的部分代码如下：

public List<FileInfo> batchGetFileMeta (String systemType, String batchNo,

                         String fileName,String versionNo,BufferedOutputStream bw) {

                 List<FileInfo> fileInfoList = new ArrayList<FileInfo>();

                 FileStoreInfo fileStoreInfo = batchGetFileStoreInfo(systemType,batchNo, versionNo,bw);

                 if(fileStoreInfo == null){

                         return null;

                 }

                 List<String> fileNameList=batchGetFileNameByBathNO(systemType,batchNo, fileName,

                                  versionNo,bw);

                 if(fileNameList == null || fileNameList.size()==0 ){

                         return null;

                 }

                 if(fileNameList.size()==1 && ("".equals(fileNameList.get(0)))){

                         fileInfoList.add(null);

                         return fileInfoList;

                 }

                 int hash = batchNo.hashCode();

                 String rowKey = "";

                 String fileNName = fileStoreInfo.getFile_N_Name();

                 String[] fileNNameArray = fileNName.split(Constants.SPLIT);

                 for(int i=0;i<fileNNameArray.length;i++){

                         for(int j=0;j<fileNameList.size();j++){

                                  String[] fileNInfo = fileNNameArray[i].split(Constants.SPLITF);

                                  if(fileNInfo[0].equals(fileNameList.get(j))){

                                          String version = fileNInfo[1];

                                          String versionNow = version;

                                          if(versionNow != null && !versionNow.equals("")){

                                                  int length2 = versionNow.length();

                                                  for (int k=0 ;k<3-length2 ;k++) {

                                                           versionNow = "0"+versionNow;

                                                  }

                                          }

                                          rowKey =  hash + "1" +batchNo + versionNow + fileNInfo[0];

                                          FileInfo fileInfo = batchGetFileMetaByIndex(systemType, rowKey, bw);

                                          if(fileInfo == null){

                                                  return null;

                                          }

                                          fileInfo.setFileVersionNO(version);

                                          fileInfoList.add(fileInfo);

                                  }

                         }

                 }

                 return fileInfoList;

         }

public FileInfo batchGetFileMetaByIndex(String systemType, String rowKey,

                         BufferedOutputStream bw) {

                 Map<String,String> fileInfoMaps = new HashMap<String,String>();

                 fileInfoMaps = HbaseUtil.queryBykey(Constants.HBASE_TAB+systemType, rowKey,

                                  Constants.HBASE_FAMILYY_CF1, Constants.HBASE_COLUMN_L);

                 if(fileInfoMaps == null ){

                         return null;

                 }

            String fileInfoStr = fileInfoMaps.get("value");

            FileInfo fileInfo = new FileInfo();

            fileInfo = (FileInfo) Utils.jsonToObj(fileInfoStr,fileInfo);

            if(fileInfo == null){

                     return null;

            }

            String userdefinede = getUserDefinedE(systemType, rowKey);

            fileInfo.setUserDefined(userdefinede);

            return fileInfo;

        }

public Map<String,String > queryBykey(String tableName, String rowKey,String fam, String col) {

                 Map<String, String> result =  new HashMap<String, String>();

                 HTable table=null;

                 try {

                         if(isExistTable(tableName)){

                                  table = new HTable(conf, tableName);

                                  Get scan = new Get(rowKey.getBytes());

                                  Result r = table.get(scan);

                                  byte[] bs = r.getValue(Bytes.toBytes(fam), Bytes.toBytes(col));

                                  String value = Bytes.toString(bs);

                                  result.put("value", value);

                                  table.close();

                                  return result;

                         }else{

                                  return null;

                         }

                 } catch (IOException e) {

                         e.printStackTrace();

                         return null;

                 }

测试结果如下：

　　虽然时间比较少，但是远远不能满足效率要求。仔细分析上面代码不难发现：由于业务需要查询数据的时候要校验文件信息，所以代码中出现了循环套循环的情况，如果某批次的文件数量特别多的话那么循环查询的次数的增长不是一个数量级的，相当大的一个数字，问题的原因在于拼接rowkey，然后拿着rowkey去查询，循环多少次就查多少次，虽然Hbase查询速度快，但这样也是在浪费时间，经过思考和研究HbaseAPI的时候发现，Hbase支持rowkey批量查询，思路大概是这样的：

1）循环文件信息，循环之中得到拼接rowkey的信息

2）把得到的rowkey放入list中

3）循环完毕，用List去查Hbase，将得到的信息放入Map返回

4）获取Map中的信息

下面是改进之后的代码：

改进后：

public List<FileInfo> batchGetFileMetaByBathNo(String systemType, String batchNo,

            String fileName,String versionNo,BufferedOutputStream bw) {

        List<FileInfo> fileInfoList = new ArrayList<FileInfo>();

        FileStoreInfo fileStoreInfo =batchGetFileStoreInfo(systemType, batchNo, versionNo,bw);

        if(fileStoreInfo == null){

            return null;

        }

        List<String>fileNameList=batchGetFileNameByBathNO(systemType, batchNo, fileName,

                versionNo,bw);

        if(fileNameList == null || fileNameList.size()==0 ){

            return null;

        }

        if(fileNameList.size()==1 && ("".equals(fileNameList.get(0)))){

            fileInfoList.add(null);

            return fileInfoList;

        }

        String rowKey = "";

        List<String> rowkeylist=new ArrayList<>();

        String fileNName = fileStoreInfo.getFile_N_Name();

        String[] fileNNameArray = fileNName.split(Constants.SPLIT);

        for(int i=0;i<fileNNameArray.length;i++){

            for(int j=0;j<fileNameList.size();j++){

                String[] fileNInfo = fileNNameArray[i].split(Constants.SPLITF);

                if(fileNInfo[0].equals(fileNameList.get(j))){

                    String version = fileNInfo[1];

                    String versionNow = version;

                    if(versionNow != null && !versionNow.equals("")){

                        versionNow=PublicMethod.chengeVerNo(versionNow);

                    }

                    rowKey = batchNo.hashCode()+"1"+batchNo+ versionNow + fileNInfo[0];

                    rowkeylist.add(rowKey);

                }

            }

        }

        fileInfoList = batchGetFileMetaByIndex(systemType, rowkeylist, bw);

        return fileInfoList;

     }

public List<FileInfo> batchGetFileMetaByIndex(String systemType, List<String> rowKey,

            BufferedOutputStream bw) {

        List<FileInfo> fileInfoList=new ArrayList<>();

    List<Map<String,String>>list=HbaseUtil.queryByList(Constants.HBASE_TAB+systemType,

                rowKey);

        if(list.size()==0){

            return null;

        }

        for(Map<String,String> resultMap:list){

            FileInfo fileInfo = new FileInfo();

            String LValue = resultMap.get(Constants.HBASE_COLUMN_L);

            String EValue=resultMap.get(Constants.HBASE_COLUMN_E);

            if(!"".equals(LValue)&&null!=LValue){

                fileInfo = (FileInfo) Utils.jsonToObj(LValue,fileInfo);

            }

            if(!"".equals(EValue)&&null!=EValue&&fileInfo!=null){

                fileInfo.setUserDefined(EValue);

            }

            fileInfoList.add(fileInfo);

        }

        return fileInfoList;

    }

public List<Map<String, String>> queryByList(String tableName,List<String> rowKeyList){

        Connection connection=null;

        List<Map<String, String>> list=new ArrayList<>();

        List<Get> getList=new ArrayList<Get>();

        try {

            connection=ConnectionFactory.createConnection(conf);

            Table table=connection.getTable(TableName.valueOf(tableName));

            for(String rowKey:rowKeyList){

                Get get=new Get(Bytes.toBytes(rowKey));

                get.addFamily(Bytes.toBytes(Constants.HBASE_FAMILYY_CF1));

                getList.add(get);

            }

            Result[]results=table.get(getList);

            for (Result result:results) {

                Map<String, String> listMap=new HashMap<>();

                for(Cell kv:result.rawCells()){

            if(Bytes.toString(kv.getQualifier()).equals(Constants.HBASE_COLUMN_E)){

                        listMap.put(Constants.HBASE_COLUMN_E,

                                Bytes.toString(CellUtil.cloneValue(kv)));

                    }else{

                        listMap.put(Constants.HBASE_COLUMN_L,

                                Bytes.toString(CellUtil.cloneValue(kv)));

                    }

                }

                list.add(listMap);

            }

        } catch (IOException e) {

            e.fillInStackTrace();

        }finally{

            try {

                if(connection!=null&&!connection.isClosed()){

                    connection.close();

                }

            } catch (IOException e) {

                e.fillInStackTrace();

            }

        }

        return list;

    }

　　Hbase是支持批量查询的，经过改进之后，从代码中就可以看出，效率提升了很多，我们对10000条数据进行了测试，发现提升的效率非常明显，下面是测试图：

　　进过优化后，从时间上，我们可以看到，提升的效率非常明显，这就告诉我们在做项目写代码的时候，不要只局限于功能的实现，还要考虑效率上的可行性，从一开始就要做好铺垫，否则到后期再改是非常麻烦的。

记一次Hbase查询速度优化经历的更多相关文章

mysql索引原理及查询速度优化
一介绍为何要有索引? 一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,在生产环境中,我们遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,因此对查询语句 ...
HBase查询速度慢原因排查
问题:通过HBase访问服务在HBase中查询 ASSET_NORMAL 表速度很慢如下,查询一条数据需要2.970s时间: 如下,统计总条数需要14.675s时间: HBase访问服务部署了3个节 ...
SAP内表查询速度优化实例-OPEN SQL
一.FOR ALL ENTRIES IN 案例今天碰到工单报工统计分析表查询速度特别慢经查看源代码: SELECT afpo~dwerk afko~aufnr afpo~matnr AS plnb ...
记一次真实的webpack优化经历
前言公司目前现有的一款产品是使用vue v2.0框架实现的,配套的打包工具为webpack v3.0.整个项目大概有80多个vue文件,也算不上什么大型项目. 只不过每次头疼的就是打包所耗费的时间平 ...
记一次有惊无险的 JVM 优化经历
转载:https://my.oschina.net/u/3627055/blog/2995973 背景生产环境有二台阿里云服务器,均为同一时期购买的,CPU.内存.硬盘等配置相同.具体配置如下: 节 ...
提高查询速度：SQL Server数据库优化方案
查询速度慢的原因很多,常见如下几种: 1.没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) 2.I/O吞吐量小,形成了瓶颈效应. 3.没有创建计算列导致查询不优化. 4.内存不足 ...
优化SQLServer数据库加快查询速度
查询速度慢的原因很多,常见如下几种: 1.没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) 2.I/O吞吐量小,形成了瓶颈效应. 3.没有创建计算列导致查询不优化. 4.内存不足 ...
SQL Server数据库优化查询速度
查询速度慢的原因很多,常见如下几种: 1.没有索引或者没有用到索引(这是查询慢最常见的问题,是程序设计的缺陷) 2.I/O吞吐量小,形成了瓶颈效应. 3.没有创建计算列导致查询不优化. 4.内存不足 ...
Sql server2005 优化查询速度50个方法小结
Sql server2005 优化查询速度50个方法小结 Sql server2005优化查询速度51法查询速度慢的原因很多,常见如下几种,大家可以参考下. I/O吞吐量小,形成了瓶颈效应. ...

随机推荐

Scala入门系列（十）：函数式编程之集合操作
1. Scala的集合体系结构 Scala中的集合体系主要包括(结构跟Java相似): Iterable(所有集合trait的根trait) Seq(Range.ArrayBuffer.List等) ...
Python3 词汇助手有道翻译助手有道导出文件格式转换
根据有道翻译软件的功能,结合实际用途,基于Python3.6写了一个有道翻译助手软件. 测试文件及源代码已上传至:https://github.com/MMMMMichael/Translation- ...
Backtrack无线攻防(很任性的一篇)
首先你得有一个backtrack操作系统然后还得花钱买一个无线网卡,最好是Intel的,还有要是USB接口的,可能是因为其他接口我不会接.
Tomcat下载，新建自己的项目，模拟server
一.tomcat下载下载地址http://tomcat.apache.org/ 打开网页能够看到例如以下内容在网页左边有Download以下就是能够下载的版本号.如6.0,7.0,8.0: 选择一 ...
打印杨辉三角 --JS
var arr = new Array(); for(var i = 0 ;i < 6 ; i++){ if(i == 0){arr.push(1);} else if(i == 1){arr ...
自学Zabbix3.10.1.1-事件通知Notifications upon events-媒介类型email
自学Zabbix3.10.1.1-事件通知Notifications upon events-媒介类型email 配置媒介Email Administration→Media types->Cl ...
OpenCASCADE构造一般曲面
OpenCASCADE构造一般曲面 eryar@163.com Abstract. 本文主要介绍常见的曲面如一般柱面(拉伸曲面).旋转面在OpenCASCADE中的构造方法,由此思考一般放样算法的实现 ...
IEEE Trans 2009 Stagewise Weak Gradient Pursuits论文学习
论文在第二部分先提出了贪婪算法框架,如下截图所示: 接着根据原子选择的方法不同,提出了SWOMP(分段弱正交匹配追踪)算法,以下部分为转载<压缩感知重构算法之分段弱正交匹配追踪(SWOMP)&g ...
37、mysql初识
之前我们写代码需要存取信息时用的是文件可是用文件存取数据非常局限,今天我们将走进一个新的世界mysql 一.数据库由来之前所学,数据要永久保存,比如用户注册的用户信息,都是保存于文件中,而文件只能存 ...
【java】method.invoke(方法底层所属对象/null，new Object[]{实际参数})
反射调方法时无论是静态/非静态,固定/可变参数,都有Object对象数组对参数进行包装. package com.tn.clas; import java.lang.reflect.Method; i ...

记一次Hbase查询速度优化经历

记一次Hbase查询速度优化经历的更多相关文章

随机推荐

热门专题