mahout源码KMeansDriver分析之五CIMapper

接上文重点分析map操作：

 Vector probabilities = classifier.classify(value.get());// 第一行

			    Vector selections = policy.select(probabilities); // 第二行

			    for (Iterator<Element> it = selections.iterateNonZero(); it.hasNext();) {

			      Element el = it.next();

			      classifier.train(el.index(), value.get(), el.get()); // 第三行

			    }

这几句要如何理解？

比如我随机的中心点向量是：

2.9,2.9

3.0,3.0

然后我的所有的输入向量为：

[{1:8.1,0:8.1}, {1:8.0,0:8.0}, {1:7.0,0:7.0}, {1:7.1,0:7.1}, {1:6.1,0:6.1}, {1:6.2,0:6.2}, {1:9.0,0:9.0}, {1:2.0,0:2.0}, {1:7.1,0:7.1}, {1:1.0,0:1.0}, {}, {1:2.1,0:2.1}, {1:2.9,0:2.9}, {1:1.1,0:1.1}, {1:0.1,0:0.1}, {1:3.0,0:3.0}]

那么第一行就是针对一个输入向量，求其到中心点向量的距离，如果我有三个中心点，那么probabilities的size就是3，第二行的作用就是找到probabilities值较大（这里为什么是较大?而不是较小？因为在求距离的时候用到了倒数，这样原来小的就变大了，具体计算过程有时间再分析）的下标值，然后用第三行的方法把这个输入向量分入到其对应的中心点向量。如何分？比如第一个输入向量[8.1,8.1]那么应该把其分入[3.0,3.0],那么第1个中心点向量在第一条记录后，其s0=2,s1=8.1+3.0,s2=8.1*8.1+3.0*3.0 ,一次类推，等全部输入结束后，两个中心点的属性如下：

[2.9,2.9]: s0=8, s1={1:12.1,0:12.1} ,s2={1:27.450000000000003,0:27.450000000000003}

[3.0,3.0]: s0=10, s1={1:64.60000000000001,0:64.60000000000001} , s2={1:454.08000000000004,0:454.08000000000004}

然后这两个中心点输出到reduce；

然后我整体跑了一遍，得到第一个输出结果即cluster-1的结果是两个中心点，为 CL-12{n=8 c=[1.513, 1.513] r=[1.069, 1.069]}，

CL-15{n=10 c=[6.460, 6.460] r=[1.917, 1.917]}。

然后我又仿造了Reducer：

package mahout.fansy.kmeans;

import java.io.IOException;

import java.util.ArrayList;

import java.util.Iterator;

import java.util.List;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.mahout.clustering.Cluster;

import org.apache.mahout.clustering.classify.ClusterClassifier;

import org.apache.mahout.clustering.iterator.ClusterWritable;

import org.apache.mahout.clustering.iterator.ClusteringPolicy;

import org.apache.mahout.common.iterator.sequencefile.PathFilters;

import org.apache.mahout.common.iterator.sequencefile.PathType;

import org.apache.mahout.common.iterator.sequencefile.SequenceFileDirValueIterable;

import org.apache.mahout.math.Vector;

import org.apache.mahout.math.VectorWritable;

import org.apache.mahout.math.Vector.Element;

import com.google.common.collect.Lists;

public class TestCIReducer {

	/**

	 * @param args

	 */

	private static ClusterClassifier classifier;

	private static ClusteringPolicy policy;

	public static void main(String[] args) throws IOException {

		setup();

		reduce();

	}

	/**

	 * 仿造setup函数

	 * @throws IOException

	 */

	public static void setup() throws IOException{

		Configuration conf=new Configuration();

		conf.set("mapred.job.tracker", "hadoop:9001"); // 这句是否可以去掉？

	    String priorClustersPath ="hdfs://hadoop:9000/user/hadoop/out/kmeans-output/clusters-0";

	    classifier = new ClusterClassifier();

	    classifier.readFromSeqFiles(conf, new Path(priorClustersPath));

	    policy = classifier.getPolicy();

	    policy.update(classifier);

	}

	/**

	 * 仿造map函数

	 */

	public static void map(){

		List<VectorWritable> vList=getInputData();

		for(VectorWritable value: vList){

			 Vector probabilities = classifier.classify(value.get());

			    Vector selections = policy.select(probabilities);

			    for (Iterator<Element> it = selections.iterateNonZero(); it.hasNext();) {

			      Element el = it.next();

			      classifier.train(el.index(), value.get(), el.get());

			    }

		}

	}

	/**

	 * 仿造cleanup函数

	 */

	public static List<ClusterWritable> cleanup(){

		List<Cluster> clusters = classifier.getModels();

		List<ClusterWritable> cList=Lists.newArrayList();

	    ClusterWritable cw = null;

	    for (int index = 0; index < clusters.size(); index++) {

	    	cw=new ClusterWritable();

	      cw.setValue(clusters.get(index));

	      cList.add(cw);

	      //System.out.println("index:"+index+",cw :"+ cw.getValue().getCenter()	);

	    }

	    return cList;

	}

	public static void reduce(){

		map();  // 给classifier赋值

		List<ClusterWritable>cList = cleanup();

		ClusterWritable first = null;

	    for (ClusterWritable cw :cList) {

	      if (first == null) {

	        first = cw;

	      } else {

	        first.getValue().observe(cw.getValue());

	      }

	    }

	    List<Cluster> models = new ArrayList<Cluster>();

	    models.add(first.getValue());

	    classifier = new ClusterClassifier(models, policy);

	    classifier.close();

	    System.out.println("value:"+first);

	}

	/**

	 * 获得输入数据

	 * @return

	 */

	public static List<VectorWritable> getInputData(){

		String input="hdfs://hadoop:9000/user/hadoop/out/kmeans-in-transform/part-r-00000";

		Path path=new Path(input);

		Configuration conf=new Configuration();

		List<VectorWritable> vList=Lists.newArrayList();

		for (VectorWritable cw : new SequenceFileDirValueIterable<VectorWritable>(path, PathType.LIST,

		        PathFilters.logsCRCFilter(), conf)) {

		      vList.add(cw);

		}

		return vList;

	}

}

但是最终只是输出了一个中心点，结果有误？应该是我仿造的代码有问题，明天继续。。。

分享，快乐，成长

转载请注明出处：http://blog.csdn.net/fansy1990

mahout源码KMeansDriver分析之五CIMapper的更多相关文章

mahout源码KMeansDriver分析之五CIMapper初探
接着上篇,继续分析代码.下面就到了MR的循环了,这里MR应该算是比较好理解的,重点是退出循环的条件设置,即如何判断前后两次中心点误差小于给定阈值. 首先,while循环: while (iterati ...
mahout源码KMeansDriver分析之四
昨天说到为什么Configuration没有设置conf.set("mapred.job.tracker","hadoop:9000")仍然可以访问hdfs文件 ...
Mahout源码MeanShiftCanopyDriver分析之二MeanShiftCanopyMapper仿造
首先更正一点,昨天处理数据的时候是有问题的,直接从网页中拷贝的文件的空格是有问题的,直接拷贝然后新建的文件中的空格可能有一个两个.三个的,所以要把两个或者三个的都换为一个,在InputMapper中下 ...
Mahout源码目录说明&&算法集
Mahout源码目录说明 mahout项目是由多个子项目组成的,各子项目分别位于源码的不同目录下,下面对mahout的组成进行介绍: 1.mahout-core:核心程序模块,位于/core目录下: ...
mybatis源码配置文件解析之五：解析mappers标签（解析XML映射文件）
在上篇文章中分析了mybatis解析<mappers>标签,<mybatis源码配置文件解析之五:解析mappers标签>重点分析了如何解析<mappers>标签中 ...
MapReduce的ReduceTask任务的运行源码级分析
MapReduce的MapTask任务的运行源码级分析这篇文章好不容易恢复了...谢天谢地...这篇文章讲了MapTask的执行流程.咱们这一节讲解ReduceTask的执行流程.ReduceTas ...
Activity源码简要分析总结
Activity源码简要分析总结摘自参考书籍,只列一下结论: 1. Activity的顶层View是DecorView,而我们在onCreate()方法中通过setContentView()设置的V ...
MapReduce的MapTask任务的运行源码级分析
TaskTracker任务初始化及启动task源码级分析这篇文章中分析了任务的启动,每个task都会使用一个进程占用一个JVM来执行,org.apache.hadoop.mapred.Child方法 ...
TaskTracker任务初始化及启动task源码级分析
在监听器初始化Job.JobTracker相应TaskTracker心跳.调度器分配task源码级分析中我们分析的Tasktracker发送心跳的机制,这一节我们分析TaskTracker接受JobT ...

随机推荐

性能测试之LoardRunner 手动关联二
概述: 1.如果寻找左右边界值 2.关联函数详解以下是详细介绍 1.如果寻找左右边界值 <以login 为例> Step1.录制两份相同的业务流程的的脚本,输入的数据要相同 Step2. ...
Paip.断点调试MYSQL存储过程跟函数的解决方案大法
Paip.断点调试MYSQL存储过程跟函数的解决方案大法作者Attilax , EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn ...
STM32的FSMC总线复用调试笔记
调试FSMC总线复用模式时主要遇到以下几点: 1.寄存器的配置,首先注意使能地址数据复用,其次要存储器类型选择FSMC_MemoryType_NOR,否则出现不了NADV信号. FSMC_NORSRA ...
Android下QQ空间查看大图特效
近期在做一个项目,里面有一个功能是实现Android QQ好友动态里面的缩略图放大,查看大图的效果.用过都知道,这个特效非常赞的,没用过的下载个玩玩吧.我刚開始以为放大的那个大图是一个Activity ...
一个能够自己主动生成静态库，自己主动安装程序的Makefile
.PHONY:clean install CC=g++ CFLAGS=-Wall -g BIN=libecho.a INCLUDE=echo SRC=src OBJS=Socket.o Rio.o T ...
vim 操作指令1
1.vim 在命令行中输入vim,进入vim编辑器 2.i 按一下i键,下端显示 –INSERT–插入命令,在vim中可能任意字符都有作用 3.Esc 退出i(插入)命令进行其它命令使用 4.:r f ...
python发送post和get请求
python发送post和get请求 get请求: 使用get方式时,请求数据直接放在url中. 方法一. import urllib import urllib2 url = "http: ...
【Cloud Foundry】Could Foundry学习（二）——核心组件分析
在阅读的过程中有不论什么问题,欢迎一起交流邮箱:1494713801@qq.com QQ:1494713801 Cloud Foundry核心组件架构图例如以下: 主要组件: Clou ...
org.apache.jasper.JasperException: java.lang.ClassCastException
异常信息: org.apache.jasper.JasperException: java.lang.ClassCastException:org.apache.catalina.util.Defau ...
Qt之生成Window资源文件（.rc 文件）
简述 qmake 可以随意地自动生成一个适当填充的 Windows 资源文件.本节主要讲解如何用 qmake 处理一个 Windows 资源文件,并将其链接到一个可执行应用程序(EXE)或动态链接库( ...

mahout源码KMeansDriver分析之五CIMapper

mahout源码KMeansDriver分析之五CIMapper的更多相关文章

随机推荐

热门专题