MapReduce实现PageRank算法(邻接矩阵法)
前言
之前写过稀疏图的实现方法,这次写用矩阵存储数据的算法实现,只要会矩阵相乘的话,实现这个就很简单了。如果有不懂的可以先看一下下面两篇随笔。
算法实现
我们需要输入两个矩阵A和B,我一开始想的是两个矩阵分别存在两个文件里然后分别读取,但是我发现好像不行,无法区分打上A、B的标签。
所以我一开始就把A、B矩阵合起来存在一个文件里,一次读取。
map.py
#!/usr/bin/env python3
import os
import sys flag = 0 # 0表示处理A矩阵,1表示处理B矩阵
current_row = 1 # 记录现在处理矩阵的第几行 def read_input():
for lines in sys.stdin:
yield lines if __name__ == '__main__':
row_a = int(os.environ.get('row_a'))
col_a = int(os.environ.get('col_a'))
row_b = int(os.environ.get('row_b'))
col_b = int(os.environ.get('col_b'))
for line in read_input():
if line.count('\n') == len(line): # 去空行
pass
data = line.strip().split('\t') if flag == 0:
for i in range(col_b):
for j in range(col_a):
print("%s,%s\tA:%s,%s" % (current_row, i+1, j+1, data[j]))
current_row += 1
if current_row > row_a:
flag = 1
current_row = 1 elif flag == 1:
for i in range(row_a):
for j in range(col_b):
print("%s,%s\tB:%s,%s" % (i+1, j+1, current_row, data[j]))
current_row += 1
reduce.py
#!/usr/bin/env python3
import os
import sys
from itertools import groupby
from operator import itemgetter def read_input(splitstr):
for line in sys.stdin:
line = line.strip()
if len(line) == 0:
continue
yield line.split(splitstr) if __name__ == '__main__':
alpha = float(os.environ.get('alpha'))
row_b = int(os.environ.get('row_b')) data = read_input('\t')
lstg = (groupby(data, itemgetter(0)))
try:
for flag, group in lstg:
matrix_a, matrix_b = {}, {}
total = 0.0
for element, g in group:
matrix = g.split(':')[0]
pos = g.split(':')[1].split(',')[0]
value = g.split(',')[1]
if matrix == 'A':
matrix_a[pos] = value
else:
matrix_b[pos] = value
for key in matrix_a:
total += float(matrix_a[key]) * float(matrix_b[key])
page_rank = alpha * total + (1.0 - alpha) / row_b
print("%s" % page_rank)
except Exception:
pass
算法运行
由于每次迭代会产生新的值,又因为我无法分两个文件读取,所以每次迭代后我要将网络矩阵和新的pageRank值合起来再上传至HDFS。
下面的Python代码的功能就是合并和记录迭代值。
#!/usr/bin/env python3
import sys number = sys.stdin.readline().strip() f_src = open("tmp.txt","r")
f_dst1 = open("result.txt", "a")
f_dst2 = open("B.txt", "a") mat = "{:^30}\t"
f_dst1.write('\n' + number) lines = f_src.readlines()
for line in lines:
if line.count('\n') == len(line):
continue
line = line.strip()
f_dst1.write(mat.format(line))
f_dst2.write(line)
f_dst2.write('\n')
再贴一下运行脚本run.sh
#!/bin/bash pos="/usr/local/hadoop"
max=10 for i in `seq 1 $max`
do $pos/bin/hadoop jar $pos/hadoop-streaming-2.9.2.jar \
-mapper $pos/mapper.py \
-file $pos/mapper.py \
-reducer $pos/reducer.py \
-file $pos/reducer.py \
-input B.txt \
-output out \
-cmdenv "row_a=4" \
-cmdenv "col_a=4" \
-cmdenv "row_b=4" \
-cmdenv "col_b=1" \
-cmdenv "alpha=0.8" \ rm -r ~/Desktop/B.txt
cp ~/Desktop/A.txt ~/Desktop/B.txt
rm -r ~/Desktop/tmp.txt
$pos/bin/hadoop fs -get out/part-00000 ~/Desktop/tmp.txt
echo $i | ~/Desktop/slove.py $pos/bin/hadoop fs -rm B.txt
$pos/bin/hadoop fs -rm -r -f out
$pos/bin/hadoop fs -put ~/Desktop/B.txt B.txt
done
我这里就随便迭代了10次:

我感觉mapreduce用来处理迭代计算实在是太麻烦了,所以才会有twister、haloop、spark这些开源框架的出现吧。
MapReduce实现PageRank算法(邻接矩阵法)的更多相关文章
- Hadoop实战训练————MapReduce实现PageRank算法
经过一段时间的学习,对于Hadoop有了一些了解,于是决定用MapReduce实现PageRank算法,以下简称PR 先简单介绍一下PR算法(摘自百度百科:https://baike.baidu.co ...
- MapReduce实现PageRank算法(稀疏图法)
前言 本文用Python编写代码,并通过hadoop streaming框架运行. 算法思想 下图是一个网络: 考虑转移矩阵是一个很多的稀疏矩阵,我们可以用稀疏矩阵的形式表示,我们把web图中的每一个 ...
- PageRank算法简介及Map-Reduce实现
PageRank对网页排名的算法,曾是Google发家致富的法宝.以前虽然有实验过,但理解还是不透彻,这几天又看了一下,这里总结一下PageRank算法的基本原理. 一.什么是pagerank Pag ...
- PageRank算法初探
1. PageRank的由来和发展历史 0x1:源自搜索引擎的需求 Google早已成为全球最成功的互联网搜索引擎,在Google出现之前,曾出现过许多通用或专业领域搜索引擎.Google最终能击败所 ...
- PageRank算法--从原理到实现
本文将介绍PageRank算法的相关内容,具体如下: 1.算法来源 2.算法原理 3.算法证明 4.PR值计算方法 4.1 幂迭代法 4.2 特征值法 4.3 代数法 5.算法实现 5.1 基于迭代法 ...
- PageRank算法实现
基本原理 在互联网上,如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高.这就是PageRank的核心思想. 引用来自<数学之美>的简单例子: 网页Y的排名应该 ...
- MapReduce 模式、算法和用例
翻译自:http://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ 在这篇文章里总结了几种网上或者论文中常见的MapReduc ...
- 【原创】机器学习之PageRank算法应用与C#实现(1)算法介绍
考虑到知识的复杂性,连续性,将本算法及应用分为3篇文章,请关注,将在本月逐步发表. 1.机器学习之PageRank算法应用与C#实现(1)算法介绍 2.机器学习之PageRank算法应用与C#实现(2 ...
- MapReduce 模式、算法和用例(MapReduce Patterns, Algorithms, and Use Cases)
在新文章“MapReduce模式.算法和用例”中,Ilya Katsov提供了一个系统化的综述,阐述了能够应用MapReduce框架解决的问题. 文章开始描述了一个非常简单的.作为通用的并行计算框架的 ...
随机推荐
- ES6的字符串和数值的扩展
字符串扩展 对于处理大于两个字节(大于0xffff)的字符,let str =’\u{20bb7}abc’ ES5中的遍历 for(let i=0;i<str.length;i++){ con ...
- bootstrap 自适应和响应式布局的区别
自适应: 不管屏幕多大,都尽量不换行,而只是横向缩放. 响应式: 屏幕变小了之后,属于同一行的元素受到挤压后,行的右边元素自动换行显式: 屏幕大了后,本属于同一行的元素尽可能的排在同一行内: boo ...
- python多进程并发和多线程并发和协程
为什么需要并发编程? 如果程序中包含I/O操作,程序会有很高的延迟,CPU会处于等待状态,这样会浪费系统资源,浪费时间 1.Python的并发编程分为多进程并发和多线程并发 多进程并发:运行多个独立的 ...
- Oracle SQL 部分特殊字符转义及escape的用法
在处理sql时,遇到insert 或update 的参数中含有特殊字符“&”,下划线“_”, 单引号" ' "等时,要做转义处理. 例:插入特殊字元'&' upda ...
- OO第一次博客
过去的三周里我们完成了表达式求导的程序设计与构造.表达式求导程序,大致思路是实现一个表达式类,支持表达式的输入.求导运算和输出功能.可能的话,还可以增加表达式的化简方法,从而得到更高质量的输出结果.总 ...
- asp.net导入后台代码
public void Upload(string information){ int Bank = 0; for (int i = 0; i <Request.Files.Count; i++ ...
- Oracle VM Virtual 安装 ubuntu 后设置全屏
按照正常流程在vm中安装了ubuntu之后,发现ubuntu系统无法全屏显示,解决途径如下: 1.在vm中点击设置 2.选择“安装增强功能” 3.正常情况下,我们可以在桌面看到一个光盘图标(文件名:V ...
- Java设计模式之动态代理
关于Proxy: 1,他是所有动态代理的父类: 2,他可以用作创建动态代理类和动态代理对象: 3,JDK中自带的动态代理. 1,首先创建一个接口,方法申明如下: package com.proxy; ...
- office2007每次打开都要配置文件,怎么取消配置
有时候 Office2007打开文档,每次都提示需要安装.配置,配置完成之后,下次打开又需要配置点击取消就不能打开.非常的烦.ffice2007下载后为什么每次打开总需要置?office2007每次打 ...
- 【数据结构】算法 LinkList (Merge Two Sorted Lists)
合并2个有序链表 list A, list B, Solution: 对A,B 表按序读取数据,比较大小后插入新链表C. 由于两个输入链表的长度可能不同,所以最终会有一个链表先完成插入所有元素,则直接 ...