Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造

首先更正一点，昨天处理数据的时候是有问题的，直接从网页中拷贝的文件的空格是有问题的，直接拷贝然后新建的文件中的空格可能有一个两个、三个的，所以要把两个或者三个的都换为一个，在InputMapper中下面的代码：

private static final Pattern SPACE = Pattern.compile(" ");

String[] numbers = SPACE.split(values.toString());

可以看到这个代码是以一个空格来区分的，可以在linux的terminal中输入下面的命令来进行替换：

Sed -I "s/   / /g" `grep    -l synthetic_control.data`   -- 替换三个空格为一个空格

Sed -I "s/  / /g" `grep    -l synthetic_control.data`    -- 替换两个空格为一个空格

通过上面的命令，然后在上传，使用昨天的命令进行meanshiftCanopyDriver的调用。
不过补充一点，因为在InputMapper中对这个数据的处理还有下面的代码：

 for (String value : numbers) {

      if (!value.isEmpty()) {

        doubles.add(Double.valueOf(value));

      }

    }

这个代码就表示如果是空字符串的话，就不进行添加，所以说输入数据和前面保持一致也是可以的，即昨天的数据和今天修改的数据其结果一样。
MeansShiftCanopyDriver的run方法跳转如下：

run（159行）-->buildClusters（282行）-->buildClustersMR(353行)-->runIterationMR(412行)，这里说明几点：

在159行开始run方法进入后，进行第一个判断inputIsCanopies，如下：

if (inputIsCanopies) {

      clustersIn = input;

    } else {

      createCanopyFromVectors(conf, input, clustersIn, measure, runSequential);

    }

因为在前面的测试中我们已经使用了InputDriver把输入数据转换为了canopy，所以这里直接进入了clustersIn=input，然后往下面走；

在282行的buildClusters方法进入后因为是默认在Hadoop中跑的程序，所以是使用MR算法的，进入到else中，如下：

if (runSequential) {

      return buildClustersSeq(clustersIn, output, measure, kernelProfile, t1,

          t2, convergenceDelta, maxIterations, runClustering);

    } else {

      return buildClustersMR(conf, clustersIn, output, measure, kernelProfile,

          t1, t2, convergenceDelta, maxIterations, runClustering);

    }

在353行中的方法buildClustersMR进入后，即开始进行循环，混合的主体是412行的runIterationMR方法。本篇主要分析此Job的Mapper和Reducer类，

这两个类分别是MeanShiftCanopyMapper、MeanShiftCanopyReducer。下面的代码是MeanShiftCanopyMapper的仿造代码，可以直接使用此代码进行调试，这样就可以看到MeanShiftCanopyMapper的数据逻辑流了，今晚又太晚了，明天还要早起。就下次再分析了，代码如下：

package mahout.fansy.meanshift;

import java.util.ArrayList;

import java.util.Collection;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.mahout.clustering.iterator.ClusterWritable;

import org.apache.mahout.clustering.meanshift.MeanShiftCanopy;

import org.apache.mahout.clustering.meanshift.MeanShiftCanopyClusterer;

import org.apache.mahout.clustering.meanshift.MeanShiftCanopyConfigKeys;

import org.apache.mahout.common.iterator.sequencefile.PathFilters;

import org.apache.mahout.common.iterator.sequencefile.PathType;

import org.apache.mahout.common.iterator.sequencefile.SequenceFileDirValueIterable;

import com.google.common.collect.Lists;

public class MeanShiftCanopyMapperFollow {

	/**

	 * MeanShiftCanopyMapper仿造代码

	 * @author fansy

	 * @param args

	 */

	public static void main(String[] args) {

		cleanup();// 调试cleanup函数

	}

	/**

	 * 仿造map操作

	 */

	public static Collection<MeanShiftCanopy> map(){

		Collection<MeanShiftCanopy> canopies = Lists.newArrayList();

		List<ClusterWritable> data=getMapData(); // 获取map的输入值

		MeanShiftCanopyClusterer clusterer=setup();  // 获取setup函数中经过设置的值

		for (ClusterWritable clusterWritable : data){  // 这里设置断点，查看程序初始数据

			MeanShiftCanopy canopy = (MeanShiftCanopy)clusterWritable.getValue();

		      clusterer.mergeCanopy(canopy.shallowCopy(), canopies);

		}

		return canopies;

	}

	/**

	 * 仿造setup函数

	 * @return 返回经过设置值的MeanShiftCanopyClusterer

	 */

	public static MeanShiftCanopyClusterer setup(){

		String measureClassName="org.apache.mahout.common.distance.EuclideanDistanceMeasure";

		String kernelProfileClassName="org.apache.mahout.common.kernel.TriangularKernelProfile";

		double convergenceDelta=0.5;

		double t1=47.6;

		double t2=1;

		boolean runClustering=true;

		Configuration conf =new Configuration();

		conf.set(MeanShiftCanopyConfigKeys.DISTANCE_MEASURE_KEY, measureClassName);

	    conf.set(MeanShiftCanopyConfigKeys.KERNEL_PROFILE_KEY,

	        kernelProfileClassName);

		conf.set(MeanShiftCanopyConfigKeys.CLUSTER_CONVERGENCE_KEY, String

	        .valueOf(convergenceDelta));

		conf.set(MeanShiftCanopyConfigKeys.T1_KEY, String.valueOf(t1));

	    conf.set(MeanShiftCanopyConfigKeys.T2_KEY, String.valueOf(t2));

	    conf.set(MeanShiftCanopyConfigKeys.CLUSTER_POINTS_KEY, String

	        .valueOf(runClustering));

		MeanShiftCanopyClusterer clusterer = new MeanShiftCanopyClusterer(conf);

		return clusterer;

	}

	/**

	 * 仿造cleanup函数

	 */

	public static Map<Text,ClusterWritable> cleanup(){

		int numReducers=1; // 自己设定，这里为了方便直接设置为1

		Map<Text,ClusterWritable> map=new HashMap<Text,ClusterWritable>();

		Collection<MeanShiftCanopy> canopies=map(); // 获得map的输出

		MeanShiftCanopyClusterer clusterer =setup();// 获得setup的输出

		int reducer = 0;

	    for (MeanShiftCanopy canopy : canopies) {

	      clusterer.shiftToMean(canopy);

	      ClusterWritable clusterWritable = new ClusterWritable();

	      clusterWritable.setValue(canopy);

	      map.put(new Text(String.valueOf(reducer)), clusterWritable);

	      reducer++;

	      if (reducer >= numReducers) {

	    	  reducer=0;

	      }

	    }

	    return map;

	}

	/**

	 * 获得map的输入数据,输入数据的value是ClusterWritable类型的

	 * @return

	 */

	public static List<ClusterWritable> getMapData(){

		Path input=new Path("hdfs://ubuntu:9000/user/test/input/real_input/part-m-00000"); //路径是经过InputDriver后的输出路径

		Configuration conf=new Configuration();

		conf.set("mapred.job.tracker", "ubuntu:9001");

		List<ClusterWritable> clusters = new ArrayList<ClusterWritable>();

    	for (Writable value : new SequenceFileDirValueIterable<Writable>(input, PathType.LIST,

    	        PathFilters.partFilter(), conf)) {

    	      Class<? extends Writable> valueClass = value.getClass();

    	      if (valueClass.equals(ClusterWritable.class)) {

    	        ClusterWritable clusterWritable = (ClusterWritable) value;

    	        clusters.add( clusterWritable);

    	      } else {

    	        throw new IllegalStateException("can't read " + input);

    	      }

    	    }

    	return clusters;

	}

}

今天培训还听讲师说不要抱怨，额，好吧，现在感觉天天都是1点半之后或者左右的时间睡觉了，严重感觉睡眠不足，哎，难道这就是程序员的名？今天讲师还说确定目标后有四个阶段：初始兴奋期、寂寞期、煎熬期、成功期，我现在还在哪个阶段熬着呀。额，好吧，慢慢来，坚持。。。

分享，快乐，成长

转载请注明出处：http://blog.csdn.net/fansy1990

Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造的更多相关文章

Mybatis的基本操作案列增加以及源码的分析（二）
一.构建一个框架的项目的思路首先我们先建立一个web项目,我们需要jar,mybatis-config.xml和studentDao.xml的配置随后就是dao.daoimpl.entity.的架构 ...
[java源码解析]对HashMap源码的分析（二）
上文我们讲了HashMap那骚骚的逻辑结构,这一篇我们来吹吹它的实现思想,也就是算法层面.有兴趣看下或者回顾上一篇HashMap逻辑层面的,可以看下HashMap源码解析(一).使用了哈希表得“拉链法 ...
mahout源码KMeansDriver分析之五CIMapper
接上文重点分析map操作: Vector probabilities = classifier.classify(value.get());// 第一行 Vector selections = pol ...
mahout源码KMeansDriver分析之五CIMapper初探
接着上篇,继续分析代码.下面就到了MR的循环了,这里MR应该算是比较好理解的,重点是退出循环的条件设置,即如何判断前后两次中心点误差小于给定阈值. 首先,while循环: while (iterati ...
mahout源码KMeansDriver分析之四
昨天说到为什么Configuration没有设置conf.set("mapred.job.tracker","hadoop:9000")仍然可以访问hdfs文件 ...
nova创建虚拟机源码系列分析之二 wsgi模型
openstack nova启动时首先通过命令行或者dashborad填写创建信息,然后通过restful api的方式调用openstack服务去创建虚拟机.数据信息从客户端到达openstack服 ...
【原】Android热更新开源项目Tinker源码解析系列之二:资源文件热更新
上一篇文章介绍了Dex文件的热更新流程,本文将会分析Tinker中对资源文件的热更新流程. 同Dex,资源文件的热更新同样包括三个部分:资源补丁生成,资源补丁合成及资源补丁加载. 本系列将从以下三个方 ...
MapReduce的ReduceTask任务的运行源码级分析
MapReduce的MapTask任务的运行源码级分析这篇文章好不容易恢复了...谢天谢地...这篇文章讲了MapTask的执行流程.咱们这一节讲解ReduceTask的执行流程.ReduceTas ...
MapReduce的MapTask任务的运行源码级分析
TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动,每个task都会使用一个进程占用一个JVM来执行,org.apache.hadoop.mapred.Child方法 ...

随机推荐

UVA1292-----Strategic game-----树形DP解决树上的最小点覆盖问题
本文出自:http://blog.csdn.net/dr5459 题目地址: http://uva.onlinejudge.org/index.php?option=com_onlinejudge&a ...
jQuery粘性跟随滚动条滚动的导航栏源代码下载
jQuery粘性跟随滚动条滚动的导航栏源代码下载作者:网页模板大小:0.005MB 点击次数:3494 发布时间:2014-03-07 12:55 分享到:0 特效介绍 jQuery粘性跟随滚动条 ...
iOS中如何呼出另一个应用
我们经常会遇到在一个应用里面呼出另一个应用的需求,比如在文档里面点击地址,调用safari来打开网页:比如在文件浏览器里面点击某种文件,自动激活一个应用来打开文件. iOS里面对于这样的需求使用URL ...
解决Easyui1.3.3 IE8兼容性问题
事先声明:项目在Firefox和Chrome上完美运行,在MSIE9.MSIE10上基本没问题,但是放在MSIE8上面运行问题就出来了.登录系统后,系统页面跳动,导致系统无法使用:我使用的是Easyu ...
ubuntu下perl SVG老是make失败
解决方法是用libgd-svg-perl软件包代替.
OC运行时和方法机制笔记
在OC当中,属性是对字段的一种特殊封装手段. 在编译期,编译器会将对字段的访问替换为内存偏移量,实质是一种硬编码. 如果增加一个字段,那么对象的内存排布就会改变,需要重新编译才行. OC的做法是,把实 ...
jQuery插件
1. Lightbox 2: Lightbox 2 是一款很酷的图片显示插件,可以在一个平滑展开的新窗口中展现出图片,而同时页面的其余部分都变成黑色背景.使用这款插件,是为了当你的的图片过大必须 ...
Dark roads（kruskal）
Dark roads Time Limit : 2000/1000ms (Java/Other) Memory Limit : 32768/32768K (Java/Other) Total Su ...
大数据Lambda架构
1 Lambda架构介绍 Lambda架构划分为三层.各自是批处理层,服务层,和加速层.终于实现的效果,能够使用以下的表达式来说明. query = function(alldata) 1.1 批处理 ...
【邻接表字符串Hash】【HDU1800】Flying to the Mars
题意: 给你N个数字,带前导0,问出现最多的数字个数思路: 读入,清楚前导0,Hash. 用邻接表字符串Hash有一下几点注意 string,不要memset,否则地址也没了,涉及到stl的东西,少 ...

Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造

Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造的更多相关文章

随机推荐

热门专题