Java实现LSH（Locality Sensitive Hash ）

　　在对大批量数据进行图像处理的时候，比如说我提取SIFT特征，数据集为10W张图片，一个SIFT特征点是128维，一张图片提取出500个特征点，这样我们在处理的时候就是对5000万个128维的数据进行处理，这样处理所需要的耗时太长了，不符合实际生产的需要。我们需要用一种方法降低运算量，比如说降维。

　　看了一些论文，提到的较多的方法是LSH（Locality Sensitive Hash），就是局部敏感哈希。我们利用LSH方法在5000万个特征点中筛选出极少量的我们需要的特征点，在对这些极少量的数据进行计算，就可以得到我们想要的结果啦。

 package com.demo.lsh;

 import com.demo.config.Constant;

 import com.demo.dao.FeatureDao;

 import com.demo.dao.FeatureTableDao;

 import com.demo.dao.HashTableDao;

 import com.demo.entity.HashTable;

 import com.demo.utils.MD5Util;

 import com.demo.utils.MathUtil;

 import org.opencv.core.Mat;

 import org.springframework.util.StringUtils;

 import java.io.*;

 import java.security.MessageDigest;

 import java.security.NoSuchAlgorithmException;

 import java.util.*;

 public class LSH {

     //维度大小，例如对于sift特征来说就是128

     private int dimention = Constant.DIMENTION;

     //所需向量中元素可能的上限，譬如对于RGB来说，就是255

     private int max = Constant.MAX;

     //哈希表的数量，用于更大程度地削减false positive

     private int hashCount = Constant.HASHCOUNT;

     //LSH随机选取的采样位数，该值越小，则近似查找能力越大，但相应的false positive也越大；若该值等于size，则为由近似查找退化为精确匹配

     private int bitCount = Constant.BITCOUNT;

     //转化为01字符串之后的位数，等于max乘以dimensions

     private int size = dimention * max;

     //LSH哈希族，保存了随机采样点的INDEX

     private int[][] hashFamily;

     private HashTableDao hashTableDao;

     /**

      * 构造函数

      */

     public LSH(HashTableDao hashTableDao) {

         this.hashTableDao = hashTableDao;

         dimention = Constant.DIMENTION;

         max = Constant.MAX;

         hashCount = Constant.HASHCOUNT;

         bitCount = Constant.BITCOUNT;

         size = dimention * max;

         hashFamily = new int[hashCount][bitCount];

         generataHashFamily();

     }

     /**

      * 生成随机的投影点 ，在程序第一次执行时生成。投影点可以理解为后面去数组的索引值

      */

     private void generataHashFamily() {

         if (new File("/home/fanxuan/data/1.txt").exists()) {

             try {

                 InputStream in = new FileInputStream("/home/fanxuan/data/1.txt");

                 ObjectInputStream oin = new ObjectInputStream(in);

                 hashFamily = (int[][]) (oin.readObject());

             } catch (IOException e) {

                 e.printStackTrace();

             } catch (ClassNotFoundException e) {

                 e.printStackTrace();

             }

         }else {

             Random rd = new Random();

             for (int i = 0; i < hashCount; i++) {

                 for (int j = 0; j < bitCount; j++) {

                     hashFamily[i][j] = rd.nextInt(size);

                 }

             }

             try {

                 OutputStream out = new FileOutputStream("/home/fanxuan/data/1.txt");

                 ObjectOutputStream oout = new ObjectOutputStream(out);

                 oout.writeObject(hashFamily);

             } catch (FileNotFoundException e) {

                 e.printStackTrace();

             } catch (IOException e) {

                 e.printStackTrace();

             }

         }

     }

     //将向量转化为二进制字符串，比如元素的最大范围255，则元素65就被转化为65个1以及190个0

     private int[] unAray(int[] data) {

         int unArayData[] = new int[size];

         for (int i = 0; i < data.length; i++) {

             for (int j = 0; j < data[i]; j++) {

                 unArayData[i * max + j] = 1;

             }

         }

         return unArayData;

     }

     /**

      * 将向量映射为LSH中的key

      */

     private String generateHashKey(int[] list, int hashNum) {

         StringBuilder sb = new StringBuilder();

         int[] tempData = unAray(list);

         int[] hashedData = new int[bitCount];

         //首先将向量转为二进制字符串

         for (int i = 0; i < bitCount; i++) {

             hashedData[i] = tempData[hashFamily[hashNum][i]];

             sb.append(hashedData[i]);

         }

         //再用常规hash函数比如MD5对key进行压缩

         MessageDigest messageDigest = null;

         try{

             messageDigest = MessageDigest.getInstance("MD5");

         }catch (NoSuchAlgorithmException e) {

         }

         byte[] binary = sb.toString().getBytes();

         byte[] hash = messageDigest.digest(binary);

         String hashV = MD5Util.bufferToHex(hash);

         return hashV;

     }

     /**

      * 将Sift特征点转换为Hash存表

      */

     public void generateHashMap(String id, int[] vercotr, int featureId) {

         for (int j = 0; j < hashCount; j++) {

             String key = generateHashKey(vercotr, j);

             HashTable hashTableUpdateOrAdd = new HashTable();

             HashTable hashTable = hashTableDao.findHashTableByBucketId(key);

             if (hashTable != null) {

                 String featureIdValue = hashTable.getFeatureId() + "," + featureId;

                 hashTableUpdateOrAdd.setFeatureId(featureIdValue);

                 hashTableUpdateOrAdd.setBucketId(key);

                 hashTableDao.updateHashTableFeatureId(hashTableUpdateOrAdd);

             } else {

                 hashTableUpdateOrAdd.setBucketId(key);

                 hashTableUpdateOrAdd.setFeatureId(String.valueOf(featureId));

                 hashTableDao.insertHashTable(hashTableUpdateOrAdd);

             }

         }

     }

     // 查询与输入向量最接近（海明空间）的向量

     public List<String> queryList(int[] data) {

         List<String> result = new ArrayList<>();

         for (int j = 0; j < hashCount; j++) {

             String key = generateHashKey(data, j);

             result.add(key);

             HashTable hashTable = hashTableDao.findHashTableByBucketId(key);

             if (!StringUtils.isEmpty(hashTable.getFeatureId())) {

                 String[] str = hashTable.getFeatureId().split(",");

                 for (String string : str) {

                     result.add(string);

                 }

             }

         }

         return result;

     }

 }

 package com.demo.config;

 public class Constant {

     //维度大小，例如对于sift特征来说就是128

     public static final int DIMENTION = 128;

     //所需向量中元素可能的上限，譬如对于RGB来说，就是255

     public static final int MAX = 255;

     //哈希表的数量，用于更大程度地削减false positive

     public static final int HASHCOUNT = 12;

     //LSH随机选取的采样位数，该值越小，则近似查找能力越大，但相应的false positive也越大；若该值等于size，则为由近似查找退化为精确匹配

     public static final int BITCOUNT = 32;

 }

　　简单的介绍下代码，构造函数LSH（）用来建立LSH对象，hashTableDao为数据表操作对象，不多说;因为局部敏感哈希依赖与一套随机数，每次产生的结果都不一致，所以我们需要在程序第一次运行的时候将随机数生成并固定下来，我采用的方法是存放在本地磁盘中，也可以存放在数据库中。generateHashMap（）方法为数据训练函数，int[] vercotr为特征向量，其他两个参数为我需要的标志位。queryList（）方法是筛选方法。

　　感谢http://grunt1223.iteye.com/blog/944894的文章。

Java实现LSH（Locality Sensitive Hash ）的更多相关文章

从NLP任务中文本向量的降维问题，引出LSH（Locality Sensitive Hash 局部敏感哈希）算法及其思想的讨论
1. 引言 - 近似近邻搜索被提出所在的时代背景和挑战 0x1:从NN(Neighbor Search)说起 ANN的前身技术是NN(Neighbor Search),简单地说,最近邻检索就是根据数据 ...
Locality Sensitive Hash 局部敏感哈希
Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法.与其它基于Tree的数据结构,诸如KD-Tree.SR-Tree相比,它较好地克服了Curse of Dimens ...
LSH(Locality Sensitive Hashing)原理与实现
原文地址:https://blog.csdn.net/guoziqing506/article/details/53019049 LSH(Locality Sensitive Hashing)翻译成中 ...
Locality Sensitive Hashing，LSH
1. 基本思想局部敏感(Locality Senstitive):即空间中距离较近的点映射后发生冲突的概率高,空间中距离较远的点映射后发生冲突的概率低. 局部敏感哈希的基本思想类似于一种空间域转换思 ...
[Algorithm] 局部敏感哈希算法(Locality Sensitive Hashing)
局部敏感哈希(Locality Sensitive Hashing,LSH)算法是我在前一段时间找工作时接触到的一种衡量文本相似度的算法.局部敏感哈希是近似最近邻搜索算法中最流行的一种,它有坚实的理论 ...
局部敏感哈希-Locality Sensitive Hashing
局部敏感哈希转载请注明http://blog.csdn.net/stdcoutzyx/article/details/44456679 在检索技术中,索引一直须要研究的核心技术.当下,索引技术主要分 ...
局部敏感哈希算法(Locality Sensitive Hashing)
from:https://www.cnblogs.com/maybe2030/p/4953039.html 阅读目录 1. 基本思想 2. 局部敏感哈希LSH 3. 文档相似度计算局部敏感哈希(Lo ...
转：locality sensitive hashing
Motivation The task of finding nearest neighbours is very common. You can think of applications like ...
转： memcached Java客户端spymemcached的一致性Hash算法
转自:http://colobu.com/2015/04/13/consistent-hash-algorithm-in-java-memcached-client/ memcached Java客户 ...

随机推荐

神奇的Timer
最近的一个项目有一些地方需要用到定时功能,在设计过程中,突然发现.net的Timer类居然还有很多我以前没有用过的功能,这里就跟大家分享一下注:这里的Timer类特指System.Threading ...
Java智能图表类库JChartLib使用介绍
http://www.codeceo.com/article/java-jchartlib.html JChartLib是一款基于Java的智能图表类库,JChartLib不仅有着漂亮的外观,而且支持 ...
STM32 USB虚拟串口
串口调试在项目中被使用越来越多,串口资源的紧缺也变的尤为突出.很多本本人群,更是深有体会,不准备一个USB转串口工具就没办法进行开发.本章节来简单概述STM32低端芯片上的USB虚拟串口的移植.在官方 ...
memcpy与memmove
函数原型: void* memcpy(void *dst,void const *src,size_t count) void* memmove(void *dst,void const *src,s ...
iOS面试必备-iOS基础知识
近期为准备找工作面试,在网络上搜集了这些题,以备面试之用. 插一条广告:本人求职,2016级应届毕业生,有开发经验.可独立开发,低薪求职.QQ:895193543 1.简述OC中内存管理机制. 答:内 ...
INSPIRED启示录读书笔记 - 第39章打造平台产品的经验
最具挑战性的工作产品管理中难度最大,也最能体现产品经理实力的是定义成功的平台产品.所谓平台产品是指一类基础软件,应该开发者能在其基础上开发应用程序平台产品要面对三种不同的客户 1.应用软件供应商: ...
poj2442优先队列
感谢 http://hi.baidu.com/%C0%B6%C9%ABarch/blog/item/f9d343f49cd92e53d7887d73.html 的博主! 思路: 我们要找到n个smal ...
手写RateLimiter
自定义注解封装如果需要让接口实现限流RateLimiter使用网关:一般拦截所有的接口实现限流秒杀抢购或者大流量的接口才会实现限流.灵活不是所有接口都需要限流秒杀等接口需要限流设 ...
SQL中的5种常用的聚集函数
首先你要知道 where->group by->having->order by/limit ,这个就是写sql语句时的顺序常用的5个聚集函数: Max ...
asp.net web api history and how does it work?
https://blogs.msdn.microsoft.com/zxue/2012/11/07/what-is-asp-net-web-api-and-how-does-it-work/ https ...

Java实现LSH（Locality Sensitive Hash ）

Java实现LSH（Locality Sensitive Hash ）的更多相关文章

随机推荐

热门专题