python mongodb MapReduce
# -*- coding: utf-8 -*-
import os
import csv
import pymongo
from pymongo import MongoClient
from bson.code import Code
from pymongo import MongoClient
#建立连接
client = MongoClient('10.20.4.79', 27017)
#client = MongoClient('10.20.66.106', 27017)
db_name = 'ta' #数据库名
db = client[db_name]
插入测试数据:
for i in xrange(1000):
rID=math.floor(random.random()*10);
price = round(random.random()*10,2);
if rID < 4:
db.test.insert({"_id":i,"user":"Joe","product":rID,"price":price});
elif rID>=4 and rID<7:
db.test.insert({"_id":i,"user":"Josh","product":rID,"price":price});
else:
db.test.insert({"_id":i,"user":"Ken","product":rID,"price":price});
结果数据为:
{ "_id" : 0, "price" : 5.9, "product" : 9, "user" : "Ken" }
{ "_id" : 1, "price" : 7.59, "product" : 7, "user" : "Ken" }
{ "_id" : 2, "price" : 4.72, "product" : 0, "user" : "Joe" }
{ "_id" : 3, "price" : 1.35, "product" : 1, "user" : "Joe" }
{ "_id" : 4, "price" : 2.31, "product" : 0, "user" : "Joe" }
{ "_id" : 5, "price" : 5.29, "product" : 5, "user" : "Josh" }
{ "_id" : 6, "price" : 3.34, "product" : 1, "user" : "Joe" }
{ "_id" : 7, "price" : 7.2, "product" : 4, "user" : "Josh" }
{ "_id" : 8, "price" : 8.1, "product" : 6, "user" : "Josh" }
{ "_id" : 9, "price" : 2.57, "product" : 3, "user" : "Joe" }
{ "_id" : 10, "price" : 0.54, "product" : 2, "user" : "Joe" }
{ "_id" : 11, "price" : 0.66, "product" : 1, "user" : "Joe" }
{ "_id" : 12, "price" : 5.51, "product" : 1, "user" : "Joe" }
{ "_id" : 13, "price" : 3.74, "product" : 6, "user" : "Josh" }
{ "_id" : 14, "price" : 4.82, "product" : 0, "user" : "Joe" }
{ "_id" : 15, "price" : 9.79, "product" : 3, "user" : "Joe" }
{ "_id" : 16, "price" : 9.6, "product" : 5, "user" : "Josh" }
{ "_id" : 17, "price" : 4.06, "product" : 7, "user" : "Ken" }
{ "_id" : 18, "price" : 1.37, "product" : 5, "user" : "Josh" }
{ "_id" : 19, "price" : 6.77, "product" : 9, "user" : "Ken" }
测试1、每个用户各购买了多少个产品?
用SQL语句实现为:select user,count(product) from test group by user mapper = Code("""function (){emit(this.user,{count:1})}""")
reduce = Code("function (key, values) {"
" var total = 0;"
" for (var i = 0; i < values.length; i++) {"
" total += values[i].count;"
" }"
" return {count:total};"
"}")
result=db.test.map_reduce(mapper,reduce,out ='myresults')
for doc in db.myresults.find():
print doc
测试 2、查询每个用户,买了多少商品,总价格,及评价价格 条件是价格大于5的 SQL实现:select user,count(sku),sum(price),
round(sum(price)/count(sku),2) as avgPrice from test where prince>5 group by user
mapper=Code("""function (){emit(this.user,{amount:this.price,count:1,avgPrice:0})}""")
reduce = Code("function (key, values) {"
" var res={amount:0,count:0,avgPrice:0};"
" for (var i = 0; i < values.length; i++) "
" {"
" res.count += values[i].count;"
" res.amount += values[i].amount;"
" }"
" res.avgPrice = (res.amount/res.count).toFixed(2);"
" return res;"
"}")
result = db.test.map_reduce(mapper,reduce,out ='myresults',query={'price':{'$gt': 6}})
for doc in db.myresults.find():
print doc
python mongodb MapReduce的更多相关文章
- MongoDB MapReduce(转)
MapReduce MapReduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).这样做的好处是可以在任务被分解后,可以通过大量机 ...
- Python Mongodb接口
Python Mongodb接口 MongoDB 是一个基于分布式文件存储的数据库.由 C++ 语言编写.旨在为 WEB 应用提供可扩展的高性能数据存储解决方案. 同时,MongoDB 是一个介于关系 ...
- 用python写MapReduce函数——以WordCount为例
尽管Hadoop框架是用java写的,但是Hadoop程序不限于java,可以用python.C++.ruby等.本例子中直接用python写一个MapReduce实例,而不是用Jython把pyth ...
- python+MongoDB使用示例
本博客起源于博主的大三NoSQL课程设计,采用python+MongoDB结合方式,将数据从txt文件导入MongoDB之中,再将其取出以作图.主要技术是采用python与MongoDB结合存储读取方 ...
- Python实现MapReduce,wordcount实例,MapReduce实现两表的Join
Python实现MapReduce 下面使用mapreduce模式实现了一个简单的统计日志中单词出现次数的程序: from functools import reduce from multiproc ...
- Python MongoDB 教程
基于菜鸟教程实际操作后总结而来 Python MongoDB MongoDB 是目前最流行的 NoSQL 数据库之一,使用的数据类型 BSON(类似 JSON). MongoDB 数据库安装与介绍可以 ...
- mongodb mapreduce使用总结
文章来自本人个人博客: mongodb mapreduce使用总结 大家都知道,mongodb是一个非关系型数据库.也就是说.mongodb数据库中的每张表是独立存在的,表与表之间没有不论什么依赖 ...
- 吴裕雄--天生自然python学习笔记:Python MongoDB
MongoDB 是目前最流行的 NoSQL 数据库之一,使用的数据类型 BSON(类似 JSON). PyMongo Python 要连接 MongoDB 需要 MongoDB 驱动,这里我们使用 P ...
- [python]Mongodb
文档: http://api.mongodb.com/python/current/tutorial.html 安装: 官网直接下载安装, mac上brew安装的下载太慢, 打算手动安装 使用: 开启 ...
随机推荐
- iOS 导航控制器如何随意push和pop 想要在 A push B 后, B 在push 到 D ,然后从 D pop 到 C ,在从 C pop 的A
这里主要是对导航控制器的viewControllerss这个数组进行操作,因为push操作和pop操作都是根据这个数据去切换控制器或者在这个数组里增加控制器的,所以只要改变这个子控制器数据就能自定义切 ...
- [转]为什么python标准库没有实现链表
实际上刚开始学习一些高级语言的时候我也有同样的疑问,而且即使有链表对应物的语言,链表常常也很少被实际使用.如果是在国外听数据结构的课,老师一般会警告你这只是一个理论概念,实际应用应该实际考察,在通常情 ...
- oracle学习总结2
1:常用的函数 to_date()函数,将字符串转换为日期格式select to_date('2015-09-12','yyyy-MM-dd') from dual; --其中后面的日期格式要和前面要 ...
- ssh 安全配置
1.只使用ssh v2 //etc/ssh/sshd_cofig Protocol 2 ListenAddress x.x.x.x --如果你的环境有VPN通道,建议sshd监听所在的内网地址: 2 ...
- MATLAB基础入门笔记
为了参加那个电工杯,豁出去啦,时间真的很短,但是得挑战呀..对于MATLAB编程,有一些了解,MATLAB(矩阵实验室的简称)是一种专业的计算机程序,用于工程科学的矩阵数学运算,说说它的开发环境. 任 ...
- 使用jvisualvm和飞行记录器分析Java程序cpu占用率过高
一.jvisualvm使用 JDK1.6中Oracle提供了一个新的JVM监控工具:jvisualvm.下面重点介绍如何在本地通过远程的方式打开Linux服务器上的jvisualvm. 1.Xmana ...
- dedecms导航
{dede:global.cfg_cmsurl /} 首页链接 一级导航: {dede:channel type=“top”} [field:typelink]:导航链接 [field:typenam ...
- for循环里面的判断条件
先看下面这段代码,你很容易猜到结果 for(i=0;i<10;i++){ console.log(i); // 结果是打印出 1,2,3,4,5,6,7,8,9 } 再看一下这款代码,也许很容易 ...
- ACM——快速排序法
快速排序 时间限制(普通/Java):1000MS/3000MS 运行内存限制:65536KByte总提交:653 测试通过:297 描述 给定输入排序元素数目 ...
- CPrintDialog 构造函数参数详解
CPrintDialog 构造Windows打印或打印设置对话框(两者不同) 打印对话框 ...