mrjob 使用 mongoldb 数据源【转】

最近做的事情是用mrjob写mapreduce程序，从mongo读取数据。我的做法很容易也很好懂，因为mrjob可以支持sys.stdin的读取，所以我考虑用一个python程序读mongo中的数据，然后同时让mrjob脚本接受输入，处理，输出。

具体方式：

readInMongoDB.py:

#coding:UTF-8

'''

Created on 2014年5月28日

@author: hao

'''

import pymongo

pyconn = pymongo.Connection(host,port=27017)

pycursor = pyconn.userid_cid_score.find().batch_size(30)

for i in pycursor:

    userId = i['userId']

    cid = i['cid']

    score = i['score']

#     temp = list()

#     temp.append(userId)

#     temp.append(cid)

#     temp.append(score)

    print str(userId)+','+str(cid)+','+str(score)

step1.py:

#coding:UTF-8

'''

Created on 2014年5月27日

@author: hao

'''

from mrjob.job import MRJob

# from mrjob import protocol

import pymongo

import logging

import simplejson as sj

class step(MRJob):

    '''

    '''

#     logging.c

    def parseMatrix(self, _, line):

        '''

        input one stdin for pymongo onetime search

        output contentId, (userId, rating)

        '''

        line = (str(line))

        line=line.split(',')

        userId = line[0]

#         print userId

        cid = line[1]

#         print cid

        score = float(line[2])

#         print score

        yield cid, (userId, float(score))        

    def scoreCombine(self, cid, userRating):

        '''

        将对同一个内容的（用户，评分）拼到一个list里

        '''

        userRatings = list()

        for i in userRating:

            userRatings.append(i)

        yield cid, userRatings

    def userBehavior(self, cid, userRatings):

        '''

        '''

        scoreList = list()

        for doc in userRatings:

            # 每个combiner结果

            for i in doc:

                scoreList.append(i)

        for user1 in scoreList:

            for user2 in scoreList:

                if user1[0] == user2[0]:

                    continue

                yield (user1[0], user2[0]), (user1[1], user2[1])

    def steps(self):

        return [self.mr(mapper = self.parseMatrix,

                        reducer = self.scoreCombine),

                self.mr(reducer = self.userBehavior),]

if __name__=='__main__':

    fp = open('a.txt','w')

    fp.write('[')

    step.run()

    fp.write(']')

    fp.close()

然后执行脚本 python readInMongoDB.py | python step1.py >> out.txt

这个方式在本地执行的非常好，没有任何问题（除开mrjob速度的问题，其实在本次应用中影响不大）

原文：http://blog.csdn.net/whzhcahzxh/article/details/29587059

mrjob 使用 mongoldb 数据源【转】的更多相关文章

mrjob 使用 mongodb 作为数据源
When using a mongoDB collection as input, add the arguments -jobconf mongo.input.uri=<input mongo ...
springmvc 多数据源 SSM java redis shiro ehcache 头像裁剪
获取下载地址 QQ 313596790 A 调用摄像头拍照,自定义裁剪编辑头像 B 集成代码生成器 [正反双向](单表.主表.明细表.树形表,开发利器)+快速构建表单; 技术:31359679 ...
springmvc SSM shiro redis 后台框架多数据源代码生成器
A集成代码生成器 [正反双向(单表.主表.明细表.树形表,开发利器)+快速构建表单下载地址 ; freemaker模版技术 ,0个代码不用写,生成完整的一个模块,带页面.建表sql脚本,处理类 ...
springmvc SSM 多数据源 shiro redis 后台框架整合
A集成代码生成器 [正反双向(单表.主表.明细表.树形表,开发利器)+快速构建表单下载地址 ; freemaker模版技术 ,0个代码不用写,生成完整的一个模块,带页面.建表sql脚本,处理类 ...
基于注解的Spring多数据源配置和使用
前一段时间研究了一下spring多数据源的配置和使用,为了后期从多个数据源拉取数据定时进行数据分析和报表统计做准备.由于之前做过的项目都是单数据源的,没有遇到这种场景,所以也一直没有去了解过如何配置多 ...
spring boot(七)：springboot+mybatis多数据源最简解决方案
说起多数据源,一般都来解决那些问题呢,主从模式或者业务比较复杂需要连接不同的分库来支持业务.我们项目是后者的模式,网上找了很多,大都是根据jpa来做多数据源解决方案,要不就是老的spring多数据源解 ...
spring 多数据源一致性事务方案
spring 多数据源配置 spring 多数据源配置一般有两种方案: 1.在spring项目启动的时候直接配置两个不同的数据源,不同的sessionFactory.在dao 层根据不同业务自行选择使 ...
[占位-未完成]scikit-learn一般实例之十一:异构数据源的特征联合
[占位-未完成]scikit-learn一般实例之十一:异构数据源的特征联合 Datasets can often contain components of that require differe ...
C#工业物联网和集成系统解决方案的技术路线（数据源、数据采集、数据上传与接收、ActiveMQ、Mongodb、WebApi、手机App）
目录工业物联网和集成系统解决方案的技术路线... 1 前言... 1 第一章系统架构... 3 1.1 硬件构架图... 3 1.2 ...

随机推荐

python_爬虫一之爬取糗事百科上的段子
目标抓取糗事百科上的段子实现每按一次回车显示一个段子输入想要看的页数,按 'Q' 或者 'q' 退出实现思路目标网址:糗事百科使用requests抓取页面 requests官方教程使用 ...
unity 绘制三角形
哎该学的还是要学参考:http://www.narkii.com/club/thread-369573-1.html unity 顶点绘制三角形脚本绘制; 其实filter和render就是进行 ...
ES5基础之正则表达式02：范围类、预定义类和边界字符
1.范围类 //元字符 /* * 正则表达式由两种基本字符类型组成 * 1.原义文本字符:例如123abc * 2.元字符:元字符是在正则表达式中有特殊含义的非字母字符 */ //常见特殊符号:. * ...
Ext小总结
titleCollapse:true,//高级搜索点击隐藏显示添加按钮 >弹出页面 1.添加按钮 //核销在控制层页面添加页面路径>添加操作按钮>window.allOrder ...
EXT总结例子
//页面按钮点击展开隐藏 { 空格 xtype:'fieldset', title:'<b>高级搜索< ...
为什么 Java 8 中不再需要 StringBuilder 拼接字符串
为什么 Java 8 中不再需要 StringBuilder 拼接字符串来源:codeceo 发布时间:2016-12-27 阅读次数:427 0 在Java开发者中,字符串的拼接占用资源高往往 ...
AppBox升级进行时 - 拥抱Entity Framework的Code First开发模式
AppBox 是基于 FineUI 的通用权限管理框架,包括用户管理.职称管理.部门管理.角色管理.角色权限管理等模块. 从Subsonic到Entity Framework Subsonic最早发布 ...
持续集成（Continuous integration）
docker +jenkins + gitosc 到gitosc上,复制地址:https://git.oschina.net/99fu/CI.git 进入到 /home/fu git clone ...
【asp.net】Linux 部署 asp.net core 项目
Net sdk官网LINUX配置地址:https://www.microsoft.com/net/core#windows 参考:http://www.07net01.com/2016/08/1638 ...
centos7 安装jdk1.8
安装之前下熟悉以下连个文件 (1)/etc/profile 全局(公有)配置,不管是哪个用户,登录时都会读取该文件. (2)~/.bashrc: 该文件包含专用于你的bash shell的bas ...

mrjob 使用 mongoldb 数据源【转】

mrjob 使用 mongoldb 数据源【转】的更多相关文章

随机推荐

热门专题