Python+MapReduce实现矩阵相乘
算法原理
map阶段
在map阶段,需要做的是进行数据准备。把来自矩阵A的元素aij,标识成p条<key, value>的形式,key="i,k",(其中k=1,2,...,p),value="a:j,aij";把来自矩阵B的元素bij,标识成m条<key, value>形式,key="k,j"(其中k=1,2,...,m),value="b:i,bij"。
经过处理,用于计算cij需要的a、b就转变为有相同key("i,j")的数据对,通过value中"a:"、"b:"能区分元素是来自矩阵A还是矩阵B,以及具体的位置(在矩阵A的第几列,在矩阵B的第几行)。
shuffle阶段
这个阶段是Hadoop自动完成的阶段,具有相同key的value被分到同一个Iterable中,形成<key,Iterable(value)>对,再传递给reduce。
reduce阶段
通过map数据预处理和shuffle数据分组两个阶段,reduce阶段只需要知道两件事就行:
<key,Iterable(value)>对经过计算得到的是矩阵C的哪个元素?因为map阶段对数据的处理,key(i,j)中的数据对,就是其在矩阵C中的位置,第i行j列。
Iterable中的每个value来自于矩阵A和矩阵B的哪个位置?这个也在map阶段进行了标记,对于value(x:y,z),只需要找到y相同的来自不同矩阵(即x分别为a和b)的两个元素,取z相乘,然后加和即可。
过程如下图所示:

算法实现
mapper.py
#!/usr/bin/env python3
import sys flag = 0 # 0表示输入A、B矩阵信息,1表示处理A矩阵,2表示处理B矩阵
row_a, col_a, row_b, col_b = 0, 0, 0, 0 # A、B矩阵shape
current_row = 1 # 记录现在处理矩阵的第几行 def read_input():
for lines in sys.stdin:
yield lines if __name__ == '__main__':
for line in read_input():
if line.count('\n') == len(line): # 去空行
pass
data = line.strip().split('\t') if flag == 0:
flag = 1
row_a = int(data[0])
col_a = int(data[1])
row_b = int(data[2])
col_b = int(data[3])
if row_a == 0 or row_b == 0 or col_a == 0 or col_b ==0 or col_a != row_b:
print("矩阵输入错误!")
break elif flag == 1:
for i in range(col_b):
for j in range(col_a):
print("%s,%s\tA:%s,%s" % (current_row, i+1, j+1, data[j]))
current_row += 1
if current_row > row_a:
flag = 2
current_row = 1 elif flag == 2:
for i in range(row_a):
for j in range(col_b):
print("%s,%s\tB:%s,%s" % (i+1, j+1, current_row, data[j]))
current_row += 1
reducer.py
这是我一开始所写的版本。
#!/usr/bin/env python3
import sys last, now = None, None
s = 0.0
count = 0
matrix_a, matrix_b = {}, {} def read_input():
for lines in sys.stdin:
yield lines if __name__ == '__main__':
for line in read_input():
if line.count('\n') == len(line): # 去空行
pass
data = line.strip().split('\t')
now = data[0]
if last is None:
last = now
count = 0
elif last != now:
for key in matrix_a:
s += float(matrix_a[key])*float(matrix_b[key])
print("%s\t%s" % (last, s))
s = 0.0
count = 0
last = now value1 = data[1][0]
value2 = data[1].split(':')[1].split(',')[0]
value3 = data[1].split(',')[1]
if value1 == 'A':
count += 1
matrix_a[value2] = value3
else:
matrix_b[value2] = value3 for key in matrix_a:
s += float(matrix_a[key])*float(matrix_b[key])
print("%s\t%s" % (last, s))
后来借鉴参考了别人的代码后,学习了groupby,下面的代码就简洁多了。
#!/usr/bin/env python3
import sys
from itertools import groupby
from operator import itemgetter def read_input(splitstr):
for line in sys.stdin:
line = line.strip()
if len(line) == 0:
continue
yield line.split(splitstr) if __name__ == '__main__':
data = read_input('\t')
lstg = (groupby(data, itemgetter(0)))
try:
for flag, group in lstg:
matrix_a, matrix_b = {}, {}
total = 0.0
for element, g in group:
matrix = g.split(':')[0]
pos = g.split(':')[1].split(',')[0]
value = g.split(',')[1]
if matrix == 'A':
matrix_a[pos] = value
else:
matrix_b[pos] = value
for key in matrix_a:
total += float(matrix_a[key]) * float(matrix_b[key])
print("%s\t%s" % (flag, total))
except Exception:
pass
算法运行
执行结果为:
参考:
[1] 用MapReduce实现矩阵乘法
[3] MapReduce实现矩阵乘法
Python+MapReduce实现矩阵相乘的更多相关文章
- MapReduce实现矩阵相乘
矩阵相乘能够查看百度百科的解释http://baike.baidu.com/view/2455255.htm?fr=aladdin 有a和b两个矩阵 a: 1 2 ...
- MapReduce的矩阵相乘
一.单个mapreduce的实现 转自:http://blog.sina.com.cn/s/blog_62186b460101ai1x.html 王斌_ICTIR老师的<大数据:互联网大规模数据 ...
- python版 mapreduce 矩阵相乘
参考张老师的mapreduce 矩阵相乘. 转载请注明:来自chybot的学习笔记http://i.cnblogs.com/EditPosts.aspx?postid=4541939 下面是我用pyt ...
- 利用Hadoop实现超大矩阵相乘之我见(二)
前文 在<利用Hadoop实现超大矩阵相乘之我见(一)>中我们所介绍的方法有着“计算过程中文件占用存储空间大”这个缺陷,本文中我们着重解决这个问题. 矩阵相乘计算思想 传统的矩阵相乘方法为 ...
- 利用Hadoop实现超大矩阵相乘之我见(一)
前记 最近,公司一位挺优秀的总务离职,欢送宴上,她对我说“你是一位挺优秀的程序员”,刚说完,立马道歉说“对不起,我说你是程序员是不是侮辱你了?”我挺诧异,程序员现在是很低端,很被人瞧不起的工作吗?或许 ...
- Python numpy中矩阵的用法总结
关于Python Numpy库基础知识请参考博文:https://www.cnblogs.com/wj-1314/p/9722794.html Python矩阵的基本用法 mat()函数将目标数据的类 ...
- java 写一个 map reduce 矩阵相乘的案例
1.写一个工具类用来生成 map reduce 实验 所需 input 文件 下面两个是原始文件 matrix1.txt 1 2 -2 0 3 3 4 -3 -2 0 2 3 5 3 -1 2 -4 ...
- 关于python中的矩阵乘法(array和mat类型)
关于python中的矩阵乘法,我们一般有两种数据格式可以实现:np.array()类型和np.mat()类型: 对于这两种数据类型均有三种操作方式: (1)乘号 * (2)np.dot() (3)np ...
- python数组和矩阵使用总结
python数组和矩阵使用总结 1.数组和矩阵常见用法 Python使用NumPy包完成了对N-维数组的快速便捷操作.使用这个包,需要导入numpy. SciPy包以NumPy包为基础,大大的扩展了n ...
随机推荐
- Eclipse集成Hadoop插件
一.Eclipse集成Hadoop插件 1.在这之前我们需要配置真机上的hadoop环境变量 注:在解压tar包的时候普通解压会出现缺文件的现象,所以在这里我们需要用管理员的方式启动我们的解压软件(我 ...
- WAN口和LAN 口有什么区别
WAN口不能够用来连接电脑. LAN(1.2.3.4)口只能够用来连接电脑. 拓展资料 路由器(Router),是连接因特网中各局域网.广域网的设备,它会根据信道的情况自动选择和设定路由,以最佳路径, ...
- 【Pattern】-NO.150.Pattern.1 -【Pattern UML】
Style:Mac Series:Java Since:2018-09-10 End:2018-09-10 Total Hours:1 Degree Of Diffculty:5 Degree Of ...
- 初识python爬虫框架Scrapy
Scrapy,按照其官网(https://scrapy.org/)上的解释:一个开源和协作式的框架,用快速.简单.可扩展的方式从网站提取所需的数据. 我们一开始上手爬虫的时候,接触的是urllib.r ...
- 10个用于处理日期和时间的 Python 库
Python本身提供了处理时间日期的功能,也就是datetime标准库.除此之外,还有很多优秀的第三方库可以用来转换日期格式,格式化,时区转化等等.今天就给大家分享10个这样的Python库. 上期入 ...
- User root is not allowed to impersonate anonymous
User root is not allowed to impersonate anonymous ava.lang.RuntimeException: org.apache.hadoop.ipc.R ...
- 光圈,快门, 曝光,焦距, ISO,景深。
光圈,快门, 曝光,焦距, ISO,景深. ISO(感光度)与图片质量 ISO -- 感光度,是一个曝光率极高的词,我们在超市买饼干的时候就可能会看见包装袋上写:本公司已通过ISO9001质量体系认证 ...
- servlet中如何实现通过Spring实现对象的注入
@WebServlet("/BaseServlet")public class BaseServlet extends HttpServlet { private static f ...
- 高校表白APP-冲刺第一天
今天我们开了第一次会议, 一.任务: 今日任务布局登录页面,注册页面,修改密码界面 明日任务完成基本的登录页面框架 二.遇到的困难: 布局文件里的一些标签,用法不清楚,页面跳转都得学习.
- 2018-2019-2 20165316 《网络对抗技术》 Exp6 信息搜集与漏洞扫描
2018-2019-2 20165316 <网络对抗技术> Exp6 信息搜集与漏洞扫描 1.实践目标 掌握信息搜集的最基础技能与常用工具的使用方法. 2.实践内容 (1)各种搜索技巧的应 ...