MongoDb 用 mapreduce 统计留存率

MongoDb 用 mapreduce 统计留存率(金庆的专栏)留存的定义采用的是新增账号第X日:某日新增的账号中,在新增日后第X日有登录行为记为留存输出如下:(类同友盟的留存率显示)留存用户注册时间新增用户留存率 1天后 2天后 3天后 4天后 5天后 6天后 7天后 14天后 30天后2015-09-17 2300 20.7 % 15.6 % 13 % 11.3 % 9.9 % …

MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法: * Mongodb三种分组方式: * 1.group(先筛选再分组,不支持分片,对数据量有所限制,效率不高) * 2.mapreduce(基于js引擎,单线程执行,效率较低,适合用做后台统计等) * 3.aggregate(推荐) (如果你的PHP的mongodb驱动版本需>=1.3.0,推荐你使用aggregate,性能要高很…

mongoDB实现MapReduce

一.MongoDB Map Reduce Map-Reduce是一种计算模型,简单的说就是将大批量的工作(数据)分解(MAP)执行,然后再将结果合并成最终结果(REDUCE).MongoDB提供的Map-Reduce非常灵活,对于大规模数据分析也相当实用. 基本语法: db.collection.mapReduce( function() {emit(key,value);}, //map 函数 function(key,values) {return reduceFunction}, //re…

mongodb 聚合(Map-Reduce)

介绍 Map-reduce 是一种数据处理范式,用于将大量数据压缩为有用的聚合结果.对于 map-reduce 操作,MongoDB 提供MapReduce数据库命令. MongoDB中的MapReduce主要有以下几阶段: 1.Map:把一个操作Map到集合中的每一个文档 2.Shuffle: 根据Key分组对文档,并且为每个不同的Key生成一系列(>=1个)的值表(List of values). 3.Reduce: 处理值表中的元素,直到值表中只有一个元素.然后将值表返回到Shuffle过…

Hadoop基础-Map端链式编程之MapReduce统计TopN示例

Hadoop基础-Map端链式编程之MapReduce统计TopN示例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.项目需求对“temp.txt”中的数据进行分析,统计出各个年份(第15~19列)总排行前十的最高气温(第87~92列),由于博客园无法上传大文件的文本,因此我把该文本的内容放在博客园的另一个链接了(需要的戳我).,如果网页打不开的话也就可以去百度云盘里下载副本,链接:链接:https://pan.baidu.com/s/12aZFcO2XoegUGMAb…

MongoDB：Map-Reduce

Map-reduce是一个考虑大型数据得到实用聚集结果的数据处理程式(paradigm)．针对map-reduce操作,MongoDB提供来mapreduce命令．考虑以下的map-reduce操作: 在这个map-reduce操作里.MongoDB为每一个输入的文档(比方,集合中满足了查询条件的文档)应用了map操作．Map函数输入键值对．对拥有多个值的那些键,MongoDB採用reduce阶段.即收集和压缩聚集的数据．Mongo-DB然后把结果存在一个集合里面．Reduce函数的输出能够选…

MongoDB中mapReduce的使用

MongoDB中mapReduce的使用制作人:全心全意 mapReduce的功能和group by的功能类似,但比group by处理的数据量更大使用示例: var map = function(){ emit(this.cat_id,this.price); #根据cat_id进行分组,对price字段进行操作 } var reduce = function(cat_id,price){ return Array.avg(price); #对price进行求平均值操作,并返回结果 } d…

MongoDB进行MapReduce的数据类型

有很长一段时间没更新博客了,因为最近都比较忙,今天算是有点空闲吧.本文主要是介绍MapReduce在MongoDB上的使用,它与sql的分组.聚集类似,也是先map分组,再用reduce统计,最后还可选性地使用finalize调整最终结果.好了,来介绍下我所使用版本是MongoDB2.4.5,然后我还使用了MongoVUE(一款非常不错的图形化mongodb管理工具)帮助我协同操作. 1.原始数据,待使用的Collection中有三条doc: 而且它们的数据格式为: 可能很多人并不注意mon…

mongoDB(3) mapReduce

mapReduce是大数据的核心内容,但实际操作中别用这个,所谓的mapReduce分两步 1.map:将数据分别取出,Map函数调用emit(key,value)遍历集合中所有的记录,将key与value传给Reduce函数进行处理 2.reduce:负责数据的最后处理,function(key,value){} 参数是map传来的key和value Mongodb中的Map/reduce主要是用来对数据进行批量处理和聚合操作,有点类似于使用Hadoop对集合数据进行处理,所有输入数据都是从集…

MongoDB中MapReduce介绍与使用

一.简介在用MongoDB查询返回的数据量很大的情况下,做一些比较复杂的统计和聚合操作做花费的时间很长的时候,可以用MongoDB中的MapReduce进行实现 MapReduce是个非常灵活和强大的数据聚合工具.它的好处是可以把一个聚合任务分解为多个小的任务,分配到多服务器上并行处理.MongoDB也提供了MapReduce,当然查询语肯定是JavaScript. MongoDB中的MapReduce主要有以下几阶段: Map:把一个操作Map到集合中的每一个文档 Shuffle: 根据Ke…

关于mongodb的mapReduce

由于nodejs本身的限制,在程序中使用js进行大批量计算效率不高.而V8引擎自身对内存大小的限制(64位系统下1.4G),同样限制了数据规模. 因此,相对于从mongodb中抽出数据进行计算,在mongodb中利用聚合函数或者其他方法完成计算,避开nodejs自身限制的方案在可靠性和扩展性上都相对较为令人满意. mongodb支持类似SQL中的聚合函数,虽然语法不通,不过基本原理类似. mongodb自带的接口中,aggregate被用来实现聚合查询: rec = db.LIBRARY.agg…

MongoDB之Map-Reduce -- Mongo Shell版和C#版（上）

最近有在学习MongoDB,看到了关于Map-Reduce,觉得蛮有意思的,所以在这里就记录下来作为学习笔记. 关于Map-Reduce的作用这里就引用一下官网以及另外一篇文章看到的,言简意赅. 1. 官网:http://docs.mongodb.org/manual/tutorial/map-reduce-examples/ The map-reduce operation is composed of many tasks, including: reads from the input c…

MongoDB的MapReduce用法及php示例代码

MongoDB虽然不像我们常用的mysql,sqlserver,oracle等关系型数据库有group by函数那样方便分组,但是MongoDB要实现分组也有3个办法: * Mongodb三种分组方式: * 1.group(先筛选再分组,不支持分片,对数据量有所限制,效率不高) http://php.net/manual/zh/mongocollection.group.php * 2.mapreduce(基于js引擎,单线程执行,效率较低,适合用做后台统计等) * 3.aggregate(…

在MongoDB的MapReduce上踩过的坑

太久没动这里,目前人生处于一个新的开始.这次博客的内容很久前就想更新上来,但是一直没找到合适的时间点(哈哈,其实就是懒),主要内容集中在使用Mongodb时的一些隐蔽的MapReduce问题: 1.Reduce时的计数问题 2.Reduce时的提取数据问题另外,补充一个小tips:mongoDB中建立的索引,优先使用固定的,而不要使用范围. 一.MapReduce时的计数问题这个问题主要出现在使用“+1”的思路去计算累计次数时.如果在Map后的某一类中,记录量过大,就会导致计数失败. 具体演…

MongoDB的分组统计 group

mongodb中的分组聚合用$group,而且处理的最大数据量为100M如果超出需要写入到磁盘,使用格式如下: { $group: { _id: <expression>, <field1>: { <accumulator1> : <expression1> }, ... } } 其中_id属性是必须要有的,目的是用来指定分组的字段或依据,field1为自定义字段,accumulator为累加器,下面以统计每天用户注册数为列 db.user.aggregat…

针对微信的一篇推送附有的数据链接进行MapReduce统计

原推送引用:https://mp.weixin.qq.com/s/3qQqN6qzQ3a8_Au2qfZnVg 版权归原作者所有,如有侵权请及时联系本人,见谅! 原文采用Excel进行统计数据,这里采用刚学习的工具进行练习. import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hado…

MongoDB下Map-Reduce使用简单翻译及示例

目录 Map-Reduce JavaScript 函数 Map-Reduce 行为一个简单的测试原文地址https://docs.mongodb.com/manual/core/map-reduce/ Map-Reduce 示例 Map-reduce是一种数据处理范例,用于将大量数据压缩为有用的聚合结果. 对于map-reduce操作,MongoDB提供了mapReduce数据库命令. 一个简单的map-reduce示例如下: 在此map-reduce操作中,MongoDB将映射(map)操…

MapReduce -- 统计天气信息

示例数据: -- :: 34c -- :: 36c -- :: 32c -- :: 37c -- :: 23c -- :: 45c -- :: 50c -- :: 33c -- :: 41c -- :: 27c -- :: 45c -- :: 46c -- :: 47c 要求: 将每年每月中的气温排名前三的数据找出来实现: 1.每一年用一个reduce任务处理; 2.创建自定义数据类型,存储 [年-月-日-温度]; 2.自己实现排序函数根据 [年-月-温度] 降序排列,也可以在定义数据类型…

MongoDB中MapReduce不同的写法，不同的结果

MapReduce有两种写法,也可以说mongodb所有的命令行都有两种写法. 但突然间发现MapReduce不同的写法会有不同的结果,接下来我们一起来看: 第一种:直接使用扩展属性. 1)emit函数的第2参数直接使用数值. > db.entities.mapReduce(function(){emit()},function(key,value){var tot al=;} },}}) { "results" : [ { , }, { , } ], , "count…

mapreduce统计总数

现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏日期,名为buyer_favorite1. buyer_favorite1包含:买家id,商品id,收藏日期这三个字段,数据以“\t”分割,样本数据及格式如下: 买家id 商品id 收藏日期 -- :: -- :: -- :: -- :: -- :: -- :: -- :: -- :: …

MongoDB 中聚合统计计算--$SUM表达式

我们一般通过表达式$sum来计算总和.因为MongoDB的文档有数组字段,所以可以简单的将计算总和分成两种:1,统计符合条件的所有文档的某个字段的总和:2,统计每个文档的数组字段里面的各个数据值的和.这两种情况都可以通过$sum表达式来完成.以上两种情况的聚合统计,分别对应与聚合框架中的 $group 操作步骤和 $project 操作步骤. 1.$group 直接看例子吧. Case 1 测试集合mycol中的数据如下: { title: 'MongoDB Overview', descrip…

Mongodb的mapreduce

简单的看了一下mapreduce,我尝试不看详细的api去做一个group效果,结果遇到了很多问题,罗列在这里,如果别人也遇到了类似的bug,可以检索到结果. //先看person表的数据 > db.person.find(); { "_id" : ObjectId("593011c8a92497992cdfac10"), "name" : "xhj", "age" : 30, "addre…

mongodb（map-reduce）

下例中给出mongoose的一个mapreduce例子,参考mongoose官网. 基本概念: Map函数接受一个键值对(key-value pair),产生一组中间键值对.MapReduce框架会将map函数产生的中间键值对里键相同的值传递给一个reduce函数. Reduce函数接受一个键,以及相关的一组值,将这组值进行合并产生一组规模更小的值(通常只有一个或零个值). 定义一个collection: var user = new Schema({ username:{type:St…

MapReduce统计每个用户的使用总流量

1.原始数据 2.使用java程序 1)新建项目 2)导包 hadoop-2.7.3\share\hadoop\mapreduce +hsfs的那些包 +common 3.写项目 1)实体类注:属性直接定义为String和 Long定义更方便 package com.zy.flow; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.…

mapreduce统计单词

源代码: WordCountMapper.java: package cn.idcast.mapreduce; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; /* 四个泛型解释: KEYIN:k1的类型 VALUEIN:v1的类型 KEYOUT:k2的…