mahout系列----minhash聚类

Map:

Vector featureVector = features.get();

if (featureVector.size() < minVectorSize) {

      return;

    }

    // Initialize the MinHash values to highest

    for (int i = 0; i < numHashFunctions; i++) {

      minHashValues[i] = Integer.MAX_VALUE;

    }

    for (int i = 0; i < numHashFunctions; i++) {

      for (Vector.Element ele : featureVector.nonZeroes()) {

        int value = hashValue ? (int) ele.get() : ele.index();

        bytesToHash[0] = (byte) (value >> 24);

        bytesToHash[1] = (byte) (value >> 16);

        bytesToHash[2] = (byte) (value >> 8);

        bytesToHash[3] = (byte) value;

        int hashIndex = hashFunction[i].hash(bytesToHash);

        //if our new hash value is less than the old one, replace the old one

        if (minHashValues[i] > hashIndex) {

          minHashValues[i] = hashIndex;

        }

      }

    }

    // output the cluster information

    for (int i = 0; i < numHashFunctions; i++) {

      StringBuilder clusterIdBuilder = new StringBuilder();

      for (int j = 0; j < keyGroups; j++) {

        clusterIdBuilder.append(minHashValues[(i + j) % numHashFunctions]).append('-');

      }

      //remove the last dash

      clusterIdBuilder.deleteCharAt(clusterIdBuilder.length() - 1);

      cluster.set(clusterIdBuilder.toString());

      if (debugOutput) {

        vector.set(featureVector);

        context.write(cluster, vector);

      } else {

        context.write(cluster, item);

      }

    }

protected void reduce(Text cluster, Iterable<Writable> points, Context context)

    throws IOException, InterruptedException {

    Collection<Writable> pointList = Lists.newArrayList();

    for (Writable point : points) {

      if (debugOutput) {

        Vector pointVector = ((VectorWritable) point).get().clone();

        Writable writablePointVector = new VectorWritable(pointVector);

        pointList.add(writablePointVector);

      } else {

        Writable pointText = new Text(point.toString());

        pointList.add(pointText);

      }

    }

    if (pointList.size() >= minClusterSize) {

      context.getCounter(Clusters.ACCEPTED).increment(1);

      for (Writable point : pointList) {

        context.write(cluster, point);

      }

    } else {

      context.getCounter(Clusters.DISCARDED).increment(1);

    }

}

mahout系列----minhash聚类的更多相关文章

Mahout系列之----kmeans 聚类
Kmeans是最经典的聚类算法之一,它的优美简单.快速高效被广泛使用. Kmeans算法描述输入:簇的数目k:包含n个对象的数据集D. 输出:k个簇的集合. 方法: 从D中任意选择k个对象作为初始簇 ...
mahout系列之---谱聚类
1.构造亲和矩阵W 2.构造度矩阵D 3.拉普拉斯矩阵L 4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量 5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类 ...
Mahout 系列之--canopy 算法
Canopy 算法,流程简单,容易实现,一下是算法 (1)设样本集合为S,确定两个阈值t1和t2,且t1>t2. (2)任取一个样本点p属于S,作为一个Canopy,记为C,从S中移除p. (3 ...
ML.NET技术研究系列-2聚类算法KMeans
上一篇博文我们介绍了ML.NET 的入门: ML.NET技术研究系列1-入门篇本文我们继续,研究分享一下聚类算法k-means. 一.k-means算法简介 k-means算法是一种聚类算法,所谓聚 ...
Mahout系列之-----相似度
Mahout推荐系统中有许多相似度实现,这些组件实现了计算不能User之间或Item之间的相似度.对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用 ...
Mahout系列之----距离度量
x = (x1,...,xn) 和y = (y1,...,yn) 之间的距离为 (1)欧氏距离 EuclideanDistanceMeasure (2)曼哈顿距离 ManhattanDis ...
Mahout 系列之----共轭梯度
无预处理共轭梯度要求解线性方程组 ,稳定双共轭梯度法从初始解开始按以下步骤迭代: 任意选择向量使得 ,例如, 对若足够精确则退出预处理共轭梯度预处理通常被用来加速迭代方法的收敛.要使用预 ...
Mahout系列之----共轭梯度预处理
对于大型矩阵,预处理是很重要的.常用的预处理方法有: (1) 雅克比预处理 (2)块状雅克比预处理 (3)半LU 分解 (4)超松弛法
mahout系列----Dirichlet 分布
Dirichlet分布可以看做是分布之上的分布.如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}.现在我们做了10000次投掷的实验,得到的实验结果是 ...

随机推荐

activty栈管理
题外话:我们有时在开发中,通常会有如下的需求:屏幕1-->屏幕2-->屏幕3-->屏幕4...,现在需要直接从屏幕4-->屏幕1,很多人会想到对activity进行管理得到对应 ...
Android初级教程：如何自定义一个状态选择器
有这样一种场景:点击一下某个按钮或者图片(view),改变了样式(一般改变背景颜色).这个时候一种解决方案,可能就是状态选择器.接下来就介绍如何实现状态选择器: 步骤: 一.新建这样的文件夹:res/ ...
重载Cocos2D生存期的方法
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请多提意见,如果觉得不错请多多支持点赞.谢谢! hopy ;) 免责申明:本博客提供的所有翻译文章原稿均来自互联网,仅供学习交 ...
Android应用打破65K方法数限制
近日,Android Developers在Google+上宣布了新的Multidex支持库,为方法总数超过65K的Android应用提供了官方支持.如果你是一名幸运的Android应用开发者,正在开 ...
Java在Linux下不能处理图形的解决办法 Can't connect to X11 window server
java在图形处理时调用了本地的图形处理库.在利用Java作图形处理(比如:图片缩放,图片签名,生成报表)时,如果运行在windows上不会出问题.如果将程序移植到Linux/Unix上的时候有可能出 ...
学习TensorFlow，concat连接两个（或多个）通道
深度学习中,我们经常要使用的技术之一,连接连个通道作为下一个网络层的输入,那么在tensorflow怎么来实现呢? 我查看了tensorflow的API,找到了这个函数: tf.concat(conc ...
Maven2插件开发入门
一.创建Maven项目首先创建一个Maven插件项目,可以手动或使用mvn archetype:create从原型创建.pom.xml配置如下: 1 2 3 4 5 6 7 8 9 10 11 12 ...
深入分析Spring混合事务
在ORM框架的事务管理器的事务内,使用JdbcTemplate执行SQL是不会纳入事务管理的. 下面进行源码分析,看为什么必须要在DataSourceTransactionManager的事务内使用J ...
Cocos2D将v1.0的tileMap游戏转换到v3.4中一例(四)
大熊猫猪·侯佩原创或翻译作品.欢迎转载,转载请注明出处. 如果觉得写的不好请告诉我,如果觉得不错请多多支持点赞.谢谢! hopy ;) 现在打开MainScene.m文件,首先设置实例变量: @imp ...
flume1.4.0 保存文件到hdfs错误调试
报错如下解决方案:将FLUME_HOME/lib目录下的jar文件,替换成HADOOP_HOME/share/hadoop/common/lib下版本更新的jar文件

mahout系列----minhash聚类

mahout系列----minhash聚类的更多相关文章

随机推荐

热门专题