mapreduce 实现pagerank

输入格式：
     A　　1　　B,C,D
　　　B　　1　　C,D
map:
　　  B　　A　　1/3
　  　C　　A　　1/3
　  　D　　A　　1/3
　  　A　　|B,C,D
　  　C　　B　　1/2
　  　D　　B　　1/2
　  　B　　|C,D
reduce:
　　　B　　(1-0.85)+0.85*1/3　　C,D

　　　C　　(1-0.85)+0.85*5/6

     D　　(1-0.85)+0.85*5/6
     A    (1-0.85)+0.85*0　　B,C,D

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageRankIter {

  private static final double damping = 0.85;

  public static class PRIterMapper extends

      Mapper<LongWritable, Text, Text, Text> {

    public void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String line = value.toString();

      String[] tuple = line.split("\t");

      String pageKey = tuple[0];

      double pr = Double.parseDouble(tuple[1]);

      if (tuple.length > 2) {

        String[] linkPages = tuple[2].split(",");

        for (String linkPage : linkPages) {

          String prValue =

              pageKey + "\t" + String.valueOf(pr / linkPages.length);

          context.write(new Text(linkPage), new Text(prValue));

        }

        context.write(new Text(pageKey), new Text("|" + tuple[2]));

      }

    }

  }

  public static class PRIterReducer extends Reducer<Text, Text, Text, Text> {

    public void reduce(Text key, Iterable<Text> values, Context context)

        throws IOException, InterruptedException {

      String links = "";

      double pagerank = 0;

      for (Text value : values) {

        String tmp = value.toString();

        if (tmp.startsWith("|")) {

          links = "\t" + tmp.substring(tmp.indexOf("|") + 1);// index从0开始

          continue;

        }

        String[] tuple = tmp.split("\t");

        if (tuple.length > 1)

          pagerank += Double.parseDouble(tuple[1]);

      }

      pagerank = (double) (1 - damping) + damping * pagerank; // PageRank的计算迭代公式

      context.write(new Text(key), new Text(String.valueOf(pagerank) + links));

    }

  }

  public static void main(String[] args) throws Exception {

    Configuration conf = new Configuration();

    Job job2 = new Job(conf, "PageRankIter");

    job2.setJarByClass(PageRankIter.class);

    job2.setOutputKeyClass(Text.class);

    job2.setOutputValueClass(Text.class);

    job2.setMapperClass(PRIterMapper.class);

    job2.setReducerClass(PRIterReducer.class);

    FileInputFormat.addInputPath(job2, new Path(args[0]));

    FileOutputFormat.setOutputPath(job2, new Path(args[1]));

    job2.waitForCompletion(true);

  }

}

输入为上述的输出
输入格式为：
    A　　pr
    B　　pr
    ...

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.FloatWritable;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class PageRankViewer {

  public static class PageRankViewerMapper extends

      Mapper<LongWritable, Text, FloatWritable, Text> {

    private Text outPage = new Text();

    private FloatWritable outPr = new FloatWritable();

    public void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String[] line = value.toString().split("\t");

      String page = line[0];

      float pr = Float.parseFloat(line[1]);

      outPage.set(page);

      outPr.set(pr);

      context.write(outPr, outPage);

    }

  }

  /**重载key的比较函数，使其经过shuffle和sort后反序（从大到小）输出**/

  public static class DescFloatComparator extends FloatWritable.Comparator {

    // @Override

    public float compare(WritableComparator a,

        WritableComparable<FloatWritable> b) {

      return -super.compare(a, b);

    }

    public int compare(byte[] b1, int s1, int l1, byte[] b2, int s2, int l2) {

      return -super.compare(b1, s1, l1, b2, s2, l2);

    }

  }

  public static void main(String[] args) throws Exception {

      Configuration conf = new Configuration();

      Job job3 = new Job(conf, "PageRankViewer");

      job3.setJarByClass(PageRankViewer.class);

      job3.setOutputKeyClass(FloatWritable.class);

      job3.setSortComparatorClass(DescFloatComparator.class);

      job3.setOutputValueClass(Text.class);

      job3.setMapperClass(PageRankViewerMapper.class);

      FileInputFormat.addInputPath(job3, new Path(args[0]));

      FileOutputFormat.setOutputPath(job3, new Path(args[1]));

      job3.waitForCompletion(true);

  }

}

mapreduce 实现pagerank的更多相关文章

Hadoop实战训练————MapReduce实现PageRank算法
经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...
MapReduce实现PageRank算法（邻接矩阵法）
前言之前写过稀疏图的实现方法,这次写用矩阵存储数据的算法实现,只要会矩阵相乘的话,实现这个就很简单了.如果有不懂的可以先看一下下面两篇随笔. MapReduce实现PageRank算法(稀疏图法) ...
MapReduce实现PageRank算法（稀疏图法）
前言本文用Python编写代码,并通过hadoop streaming框架运行. 算法思想下图是一个网络: 考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个 ...
PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
Mapreduce -- PageRank
PageRank 简单理解为网页排名,但是网页是根据什么排名的,接下来就简单介绍一下. 举例: 假设网页 A 的内容中有网页 B,C 和 D 的链接,并且 A 的 PageRank的值为0.25. 那 ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
数据挖掘之权重计算（PageRank）
刘勇 Email:lyssym@sina.com 简介鉴于在Web抓取服务和文本挖掘之句子向量中对权重值的计算需要,本文基于MapReduce计算模型实现了PageRank算法.为验证本文算法 ...
PageRank 算法简介
有两篇文章一篇讲解(下面copy)< PageRank算法简介及Map-Reduce实现>来源:http://www.cnblogs.com/fengfenggirl/p/pagerank ...

随机推荐

oneThink 数据库连接失败，总提示密码不对的解决办法
oneThink的数据库配置文件是\Application\Common\Conf\config.php,按理来说,在这里修改数据库配置应该就可以重新连接,可是不管我怎么修改密码总是和我设置的不一致, ...
用Shell实现俄罗斯方块代码(Tetris.sh)
本代码来源于网络: 文件下载地址:http://files.cnblogs.com/files/DreamDrive/Tetris.sh #!/bin/bash # Tetris Game # 10. ...
codeforces 677C C. Vanya and Label(组合数学+快速幂)
题目链接: C. Vanya and Label time limit per test 1 second memory limit per test 256 megabytes input stan ...
HttpURLConnection&HttpClient网络通信
一:HttpURLConnection简介: 用于发送或者接受HTTP协议请求的类,获得的数据可以是任意类型和长度,这个类可以用于发送和接收流数据,其长度事先不知道. 使用这个类遵循一下模式: 获得一 ...
Android异步下载网络图片
最近新做的一个项目,里面需要下载网络上的图片,并显示在UI界面上,学Android有个常识,就是Android中在主线程中没法直接更新UI的,要想更新UI必须另外开启一个线程来实现,当开启的线程完成图 ...
UILabel自适应高、宽
根据Label和字体大小自适应高度 - (CGFloat)getHeightWithLabel:(UILabel *)label andFontSize:(CGFloat)size { label.n ...
UI1_UICollectionView
// AppDelegate.m // UI1_UICollectionView // // Created by zhangxueming on 15/7/16. // Copyright (c) ...
SpringMvc入门五----文件上传
知识点: SpringMvc单文件上传 SpringMvc多文件上传这里我直接演示多文件上传,单文件的上传就不说了,不过代码都是现成的. 效果预览: DEMO图: 添加文件上传j ...
巧用Excel分列功能处理数据
Technorati 标签: 数据处理今天,主要工作就是处理测试数据,统计汇总成图表来显示.先来说说要求,然后给出我在折腾这堆数据中遇到的问题以及解决方法. 问题要求: 格 ...
状态模式（State）
状态模式,从字面意思上来讲应该是很简单的,就是针对实际业务上的内容,当类的内部的状态发生改变时,给出不同的响应体,就像现实中的人一样,早上没有吃饭,状态不好,上班.上课都会打哈欠,中午了,吃过午饭,又 ...

mapreduce 实现pagerank

mapreduce 实现pagerank的更多相关文章

随机推荐

热门专题