mapreduce 实现pagerank

输入格式：
     A　　1　　B,C,D
　　　B　　1　　C,D
map:
　　  B　　A　　1/3
　  　C　　A　　1/3
　  　D　　A　　1/3
　  　A　　|B,C,D
　  　C　　B　　1/2
　  　D　　B　　1/2
　  　B　　|C,D
reduce:
　　　B　　(1-0.85)+0.85*1/3　　C,D

　　　C　　(1-0.85)+0.85*5/6

     D　　(1-0.85)+0.85*5/6
     A    (1-0.85)+0.85*0　　B,C,D

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageRankIter {

  private static final double damping = 0.85;

  public static class PRIterMapper extends

      Mapper<LongWritable, Text, Text, Text> {

    public void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String line = value.toString();

      String[] tuple = line.split("\t");

      String pageKey = tuple[0];

      double pr = Double.parseDouble(tuple[1]);

      if (tuple.length > 2) {

        String[] linkPages = tuple[2].split(",");

        for (String linkPage : linkPages) {

          String prValue =

              pageKey + "\t" + String.valueOf(pr / linkPages.length);

          context.write(new Text(linkPage), new Text(prValue));

        }

        context.write(new Text(pageKey), new Text("|" + tuple[2]));

      }

    }

  }

  public static class PRIterReducer extends Reducer<Text, Text, Text, Text> {

    public void reduce(Text key, Iterable<Text> values, Context context)

        throws IOException, InterruptedException {

      String links = "";

      double pagerank = 0;

      for (Text value : values) {

        String tmp = value.toString();

        if (tmp.startsWith("|")) {

          links = "\t" + tmp.substring(tmp.indexOf("|") + 1);// index从0开始

          continue;

        }

        String[] tuple = tmp.split("\t");

        if (tuple.length > 1)

          pagerank += Double.parseDouble(tuple[1]);

      }

      pagerank = (double) (1 - damping) + damping * pagerank; // PageRank的计算迭代公式

      context.write(new Text(key), new Text(String.valueOf(pagerank) + links));

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job2 = new Job(conf, "PageRankIter");

    job2.setJarByClass(PageRankIter.class);

    job2.setOutputKeyClass(Text.class);

    job2.setOutputValueClass(Text.class);

    job2.setMapperClass(PRIterMapper.class);

    job2.setReducerClass(PRIterReducer.class);

    FileInputFormat.addInputPath(job2, new Path(args[0]));

    FileOutputFormat.setOutputPath(job2, new Path(args[1]));

    job2.waitForCompletion(true);

  }

}

输入为上述的输出
输入格式为：
    A　　pr
    B　　pr
    ...

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.FloatWritable;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageRankViewer {

  public static class PageRankViewerMapper extends

      Mapper<LongWritable, Text, FloatWritable, Text> {

    private Text outPage = new Text();

    private FloatWritable outPr = new FloatWritable();

    public void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String[] line = value.toString().split("\t");

      String page = line[0];

      float pr = Float.parseFloat(line[1]);

      outPage.set(page);

      outPr.set(pr);

      context.write(outPr, outPage);

    }

  }

  /**重载key的比较函数，使其经过shuffle和sort后反序（从大到小）输出**/

  public static class DescFloatComparator extends FloatWritable.Comparator {

    // @Override

    public float compare(WritableComparator a,

        WritableComparable<FloatWritable> b) {

      return -super.compare(a, b);

    }

    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

      return -super.compare(b1, s1, l1, b2, s2, l2);

    }

  }

  public static void main(String[] args) throws Exception {

      Configuration conf = new Configuration();

      Job job3 = new Job(conf, "PageRankViewer");

      job3.setJarByClass(PageRankViewer.class);

      job3.setOutputKeyClass(FloatWritable.class);

      job3.setSortComparatorClass(DescFloatComparator.class);

      job3.setOutputValueClass(Text.class);

      job3.setMapperClass(PageRankViewerMapper.class);

      FileInputFormat.addInputPath(job3, new Path(args[0]));

      FileOutputFormat.setOutputPath(job3, new Path(args[1]));

      job3.waitForCompletion(true);

  }

}

mapreduce 实现pagerank的更多相关文章

Hadoop实战训练————MapReduce实现PageRank算法
经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...
MapReduce实现PageRank算法（邻接矩阵法）
前言之前写过稀疏图的实现方法,这次写用矩阵存储数据的算法实现,只要会矩阵相乘的话,实现这个就很简单了.如果有不懂的可以先看一下下面两篇随笔. MapReduce实现PageRank算法(稀疏图法) ...
MapReduce实现PageRank算法（稀疏图法）
前言本文用Python编写代码,并通过hadoop streaming框架运行. 算法思想下图是一个网络: 考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个 ...
PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
Mapreduce -- PageRank
PageRank 简单理解为网页排名,但是网页是根据什么排名的,接下来就简单介绍一下. 举例: 假设网页 A 的内容中有网页 B,C 和 D 的链接,并且 A 的 PageRank的值为0.25. 那 ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
数据挖掘之权重计算（PageRank）
刘勇 Email:lyssym@sina.com 简介鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要,本文基于MapReduce计算模型实现了PageRank算法.为验证本文算法 ...
PageRank 算法简介
有两篇文章一篇讲解(下面copy)< PageRank算法简介及Map-Reduce实现>来源:http://www.cnblogs.com/fengfenggirl/p/pagerank ...

随机推荐

【转载】经典漫画讲解HDFS原理
分布式文件系统比较出名的有HDFS 和 GFS,其中HDFS比较简单一点.本文是一篇描述非常简洁易懂的漫画形式讲解HDFS的原理.比一般PPT要通俗易懂很多.不难得的学习资料. 1.三个部分: 客户 ...
oracle使用pfile或者spfile启动
oracle 11G使用pfile启动数据库 startup pfile='pfile参数文件路径' oracle 11G使用spfile启动数据库 spfile=Windows缺省目录 %OR ...
ibatis mysql replace into 返回ID
目前只能在replace into 之后,重新查询数据
数据字典系统，要的进来下载吧，MVC+Easyui写的
数据字典系统,要的进来下载吧,以后做开发不用单独去生成一个数据字典了,直接打开此系统就OK啦使用VS2012写的语法是SQL 2005以上版本,包含2005的哦,2000的不适用此系统字数不够啦 ...
4种处理excel文件的技术
1.OLE Automation:处理excel文件会启动一个excel的进程,程序和excel进程通信来处理excel文件,这种方式占用服务器资源,不适合于网站的开发. 2.把Excel当成数据库, ...
Server.MapPath()获取绝对路径
1. Server.MapPath("/") 应用程序根目录所在的位置如 C:\Inetpub\wwwroot\ 2.Server.MapPath("./&qu ...
mac(osx) apache无法启动 localhost无法访问服务器[]
问题描述:由于删除了/private/var/log下面的日志,导致重启电脑后apache无法正常工作. 删除log的初衷是:当系统用久了,日志文件占据了几十个G的硬盘容量. 造成的后果:重启电脑后a ...
C#时间格式 tostring、toshortdatestring、toshorttimestring
在c#语言中的时间处理有几种方式: 首先获取当前时间:var date=new DateTime.Now; date.ToString()----2111-1-20 11:44:47 date.ToS ...
SQL学习备忘
1.按照拼音首字母的正序或倒序排序 SELECT CREATOR_REALNAME FROM tableName ORDER BY NLSSORT(CREATOR_REALNAME, 'NLS_SOR ...
C语言获取系统时间的几种方式[转]
C语言获取系统时间的几种方式 C语言中如何获取时间?精度如何? 1 使用time_t time( time_t * timer ) 精确到秒 2 使用clock_t clock() 得到的是CPU时间 ...

mapreduce 实现pagerank

mapreduce 实现pagerank的更多相关文章

随机推荐

热门专题