MapReduce实现PageRank算法（邻接矩阵法）

前言

之前写过稀疏图的实现方法，这次写用矩阵存储数据的算法实现，只要会矩阵相乘的话，实现这个就很简单了。如果有不懂的可以先看一下下面两篇随笔。

算法实现

我们需要输入两个矩阵A和B，我一开始想的是两个矩阵分别存在两个文件里然后分别读取，但是我发现好像不行，无法区分打上A、B的标签。

所以我一开始就把A、B矩阵合起来存在一个文件里，一次读取。

map.py

 #!/usr/bin/env python3

 import os

 import sys

 flag = 0       # 0表示处理A矩阵，1表示处理B矩阵

 current_row = 1  # 记录现在处理矩阵的第几行

 def read_input():

     for lines in sys.stdin:

         yield lines

 if __name__ == '__main__':

     row_a = int(os.environ.get('row_a'))

     col_a = int(os.environ.get('col_a'))

     row_b = int(os.environ.get('row_b'))

     col_b = int(os.environ.get('col_b'))

     for line in read_input():

         if line.count('\n') == len(line):    # 去空行

             pass

         data = line.strip().split('\t')

         if flag == 0:

             for i in range(col_b):

                 for j in range(col_a):

                     print("%s,%s\tA:%s,%s" % (current_row, i+1, j+1, data[j]))

             current_row += 1

             if current_row > row_a:

                 flag = 1

                 current_row = 1

         elif flag == 1:

             for i in range(row_a):

                 for j in range(col_b):

                     print("%s,%s\tB:%s,%s" % (i+1, j+1, current_row, data[j]))

             current_row += 1

reduce.py

 #!/usr/bin/env python3

 import os

 import sys

 from itertools import groupby

 from operator import itemgetter

 def read_input(splitstr):

     for line in sys.stdin:

         line = line.strip()

         if len(line) == 0:

             continue

         yield line.split(splitstr)

 if __name__ == '__main__':

     alpha = float(os.environ.get('alpha'))

     row_b = int(os.environ.get('row_b'))

     data = read_input('\t')

     lstg = (groupby(data, itemgetter(0)))

     try:

         for flag, group in lstg:

             matrix_a, matrix_b = {}, {}

             total = 0.0

             for element, g in group:

                 matrix = g.split(':')[0]

                 pos = g.split(':')[1].split(',')[0]

                 value = g.split(',')[1]

                 if matrix == 'A':

                     matrix_a[pos] = value

                 else:

                     matrix_b[pos] = value

             for key in matrix_a:

                 total += float(matrix_a[key]) * float(matrix_b[key])

             page_rank = alpha * total + (1.0 - alpha) / row_b

             print("%s" % page_rank)

     except Exception:

         pass

算法运行

由于每次迭代会产生新的值，又因为我无法分两个文件读取，所以每次迭代后我要将网络矩阵和新的pageRank值合起来再上传至HDFS。

下面的Python代码的功能就是合并和记录迭代值。

 #!/usr/bin/env python3

 import sys

 number = sys.stdin.readline().strip()

 f_src = open("tmp.txt","r")

 f_dst1 = open("result.txt", "a")

 f_dst2 = open("B.txt", "a")

 mat = "{:^30}\t"

 f_dst1.write('\n' + number)

 lines = f_src.readlines()

 for line in lines:

     if line.count('\n') == len(line):

         continue

     line = line.strip()

     f_dst1.write(mat.format(line))

     f_dst2.write(line)

     f_dst2.write('\n')

再贴一下运行脚本run.sh

 #!/bin/bash

 pos="/usr/local/hadoop"

 max=10

 for i in `seq 1 $max`

 do

     $pos/bin/hadoop jar $pos/hadoop-streaming-2.9.2.jar \

     -mapper $pos/mapper.py \

     -file $pos/mapper.py \

     -reducer $pos/reducer.py \

     -file $pos/reducer.py \

     -input B.txt \

     -output out \

     -cmdenv "row_a=4" \

     -cmdenv "col_a=4" \

     -cmdenv "row_b=4" \

     -cmdenv "col_b=1" \

     -cmdenv "alpha=0.8" \

     rm -r ~/Desktop/B.txt

     cp ~/Desktop/A.txt ~/Desktop/B.txt

     rm -r ~/Desktop/tmp.txt

     $pos/bin/hadoop fs -get out/part-00000 ~/Desktop/tmp.txt

     echo $i | ~/Desktop/slove.py

     $pos/bin/hadoop fs -rm B.txt

     $pos/bin/hadoop fs -rm -r -f out

     $pos/bin/hadoop fs -put ~/Desktop/B.txt B.txt

 done

我这里就随便迭代了10次：

我感觉mapreduce用来处理迭代计算实在是太麻烦了，所以才会有twister、haloop、spark这些开源框架的出现吧。

MapReduce实现PageRank算法（邻接矩阵法）的更多相关文章

Hadoop实战训练————MapReduce实现PageRank算法
经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...
MapReduce实现PageRank算法（稀疏图法）
前言本文用Python编写代码,并通过hadoop streaming框架运行. 算法思想下图是一个网络: 考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个 ...
PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
PageRank算法初探
1. PageRank的由来和发展历史 0x1:源自搜索引擎的需求 Google早已成为全球最成功的互联网搜索引擎,在Google出现之前,曾出现过许多通用或专业领域搜索引擎.Google最终能击败所 ...
PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
PageRank算法实现
基本原理在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高.这就是PageRank的核心思想. 引用来自<数学之美>的简单例子: 网页Y的排名应该 ...
MapReduce 模式、算法和用例
翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ 在这篇文章里总结了几种网上或者论文中常见的MapReduc ...
【原创】机器学习之PageRank算法应用与C#实现(1)算法介绍
考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2 ...
MapReduce 模式、算法和用例（MapReduce Patterns, Algorithms, and Use Cases)
在新文章“MapReduce模式.算法和用例”中,Ilya Katsov提供了一个系统化的综述,阐述了能够应用MapReduce框架解决的问题. 文章开始描述了一个非常简单的.作为通用的并行计算框架的 ...

随机推荐

Eclipse集成Hadoop插件
一.Eclipse集成Hadoop插件 1.在这之前我们需要配置真机上的hadoop环境变量注:在解压tar包的时候普通解压会出现缺文件的现象,所以在这里我们需要用管理员的方式启动我们的解压软件(我 ...
彻底清空SharePoint回收站（仅限IE）
1.导航到回收站页面2.F12,在控制台输入javascript:emptyItems()3.回车 4.点击确定即可注意:这种方法可能只适用于Internet Explorer
前端 CSS 注释
/*开头 */ 结尾 /*这是注释*/ <!DOCTYPE html> <html lang="en"> <head> <meta cha ...
log4cplus在Linux下编译及使用
log4cplus第一次在windows下使用的时候很快就完成了,最近在Linux下尝试使用时遇到了不少问题,主要原因是对Linux的编译连接不熟悉,以下就记录安装使用的过程,希望对需要的人有所帮助. ...
Python基础之数组和向量化计算总结
一.多维数组 1.生成ndarray (array函数) .np.array()生成多维数组例如:import numpy as npdata1=[6,7.5,8,0,1] #创建简 ...
解决Qt下ssl出错的办法
在使用 QNetworkAccessManager 时出现的ssl错误:qt.network.ssl: QSslSocket: cannot resolve SSL_set_psk_client_ca ...
linux----------VMware如何链接局域网其它电脑上的虚拟机，选择桥接模式即可。仔细阅读虚拟机的三个连接方式
VMWare提供了三种工作模式,它们是bridged(桥接模式).NAT(网络地址转换模式)和host-only(主机模式).要想在网络管理和维护中合理应用它们,你就应该先了解一下这三种工作模式. ...
深入理解虚拟机之Java内存区域
1 概述对于Java程序员来说,在虚拟机自动内存管理机制下,不再需要像C/C++程序开发程序员这样为内一个new 操作去写对应的delete/free操作,不容易出现内存泄漏和内存溢出问题.正是因为 ...
【JavaScript】学习中遇到的一些问题
一.JavaScript中没法直接比较两个object和array是否相等
sql server导出数据，详细操作！（自用）
右键数据库——>任务——>导出数据填写数据源连接信息填写要导入的数据库连接信息导出表时,全选,[编辑映射],勾选启用标识插入,这样才能让自增的字段行正常插入. 然后导出即可. ...

MapReduce实现PageRank算法（邻接矩阵法）

前言

算法实现

算法运行

MapReduce实现PageRank算法（邻接矩阵法）的更多相关文章

随机推荐

热门专题