数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）

一、二次排序问题。

　　MR/hadoop两种方案：

　　　　1.让reducer读取和缓存给个定键的所有值（例如，缓存到一个数组数据结构中，）然后对这些值完成一个reducer中排序。这种方法不具有可伸缩性，因为reducer要接受一个给定键的所有值，这种方法可能导致reducer的内存耗尽（OOM）。另一方面，如果值数量很少，就不会导致内存溢出，那么这种方法可行。

　　　　2.使用MR框架对reducer的值排序（这样一来，就不再需要对传入reducer的值完成排序。）这种方法“会为自然键增加部分或整个值来创建一个组合键以实现排序目标”（参考 java Code Geeks）。这种方法可伸缩，不会产生内存溢出错误。在这里，排序工作基本上由MR框架来完成。

　　　　使用MR框架的二次排序设计模式，规约器值到达时就是有序地。（也就是说，不再需要在内存中对值进行排序）。这种技术使用了MR框架的洗牌和排序技术完成规约器值的排序。这种解决方案比1更可取，不再依赖内存完成排序。　　　　

　　　　思考分析：对返回数据形式进行分析，自定义对象和reducer的分区策略。（当然为了实现排序，要对自定义的对象进行实现comparele接口，重写compare方法。）

　　spark两种方案：

　　　　1.将一个给定键的所有值读取缓存到一个List数组结构中，然后对这些值完成排序。优缺点同MR方案1.

　　　　2.使用Spark框架对规约器值排序（这种做法不需要对传入规约器的值完成规约器中排序）。这种方法“会为自然建增加部分或整个值来创建一个组合键以实现排序目标。”

二。 Top N问题。

　　列表L的TopN 算法大致描述：L列表的元素是一个scala的tuple结构，通过java的TreeMap将一个tuple添加到其中，然后对TreeMap进>N的if操作，来进行remove操作。

　　1.唯一键。

　　　　例子：

　　　　在这个问题上，可以使用一个规约器完成对所有数据的接收，所有压力和负载全部是都在这一个节点上。在这里不糊带来性能问题，为什么呢。假设有由1000个映射，每个映射器只会生成10个键值对，因为，这个规约器只会得到10*1000个记录，这个数据量还不至于导致性能瓶颈。

　　　　2.非唯一键

　　　　　　例子：

　　　　　　topN设计模式：这里假设所有K不是唯一的，主要步骤：

　　　　　　　　①。确保所有K是唯一的。要保证K是唯一的(存在不唯一的，直接把相同的K的V相加。)，我们要把输入映射到JavaPairRDD<K,V>对，然后交给reduceByKey().

　　　　　　　　②。将所有唯一的（K，V）对划分为M个分区。

　　　　　　　　③。找出个个分区的Top N。

　　　　　　　　④。找出所有本地topN的最终top N.

数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）的更多相关文章

数据算法 --hadoop/spark数据处理技巧 --（5.移动平均 6. 数据挖掘之购物篮分析MBA）
五.移动平均多个连续周期的时间序列数据平均值(按相同时间间隔得到的观察值,如每小时一次或每天一次)称为移动平均.之所以称之为移动,是因为随着新的时间序列数据的到来,要不断重新计算这个平均值,由于会删 ...
数据算法 --hadoop/spark数据处理技巧 --（9.基于内容的电影推荐 10. 使用马尔科夫模型的智能邮件营销）
九.基于内容的电影推荐在基于内容的推荐系统中,我们得到的关于内容的信息越多,算法就会越复杂(设计的变量更多),不过推荐也会更准确,更合理. 本次基于评分,提供一个3阶段的MR解决方案来实现电影推荐. ...
数据算法 --hadoop/spark数据处理技巧 --（11.K-均值聚类 12. k-近邻）
十一.k-均值聚类这个需要MR迭代多次. 开始时,会选择K个点作为簇中心,这些点成为簇质心.可以选择很多方法啦初始化质心,其中一种方法是从n个点的样本中随机选择K个点.一旦选择了K个初始的簇质心,下 ...
数据算法 --hadoop/spark数据处理技巧 --（3.左外连接 4.反转排序）
三. 左外连接考虑一家公司,比如亚马逊,它拥有超过2亿的用户,每天要完成数亿次交易.假设我们有两类数据,用户和交易: users(user_id,location_id) transactions( ...
数据算法 --hadoop/spark数据处理技巧 --（17.小文件问题 18.MapReuce的大容量缓存）
十七.小文件问题十八.MR的大容量缓存在MR中使用和读取大容量缓存,(也就是说,可能包括数十亿键值对,而无法放在一个商用服务器的内存中).本次提出的算法通用,可以在任何MR范式中使用.(eg:MR ...
数据算法 --hadoop/spark数据处理技巧 --（13.朴素贝叶斯 14.情感分析）
十三.朴素贝叶斯朴素贝叶斯是一个线性分类器.处理数值数据时,最好使用聚类技术(eg:K均值)和k-近邻方法,不过对于名字.符号.电子邮件和文本的分类,则最好使用概率方法,朴素贝叶斯就可以.在某些情况 ...
数据算法 --hadoop/spark数据处理技巧 --（15.查找、统计和列出大图中的所有三角形 16.k-mer计数）
十五.查找.统计和列出大图中的所有三角形第一步骤的mr: 第二部mr: 找出三角形第三部:去重 spark: 十六: k-mer计数 spark:
数据算法 --hadoop/spark数据处理技巧 --（7.共同好友 8. 使用MR实现推荐引擎）
七,共同好友. 在所有用户对中找出“共同好友”. eg: a b,c,d,g b a,c,d,e map()-> <a,b>,<b,c,d,g> ;< ...
哈，我自己翻译的小书，马上就完成了，是讲用python处理大数据框架hadoop,spark的
花了一些时间, 但感觉很值得. Big Data, MapReduce, Hadoop, and Spark with Python Master Big Data Analytics and Dat ...

随机推荐

cogs 1440. [NOIP2013]积木大赛贪心水题
1440. [NOIP2013]积木大赛 ★★ 输入文件:BlockNOIP2013.in 输出文件:BlockNOIP2013.out 简单对比时间限制:1 s 内存限制:128 M ...
Linux查看端口监听占用
# 查看所有 netstat -ntlp # 过滤PORT8080 netstat -ntlp | grep 8080 -t # 仅显示tcp相关选项 -u # 仅显示udp相关选项 -n # 拒绝显 ...
hdu 6567 Cotree 树的重心
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6567 #include<iostream> #include<algorithm&g ...
Trailhead Lightning 学习一
计划学习一下莱特宁,从最基本的开始学习,脚踏实地.不忘初心,牢记使命,以下是查阅的资料. 简介在此Salesforce教程中,将阐述Salesforce Lightning的基础知识,并了解Sale ...
typedef声明变量也是一种求值过程
前言: 什么叫做:声明变量是求值过程?请看下面的声明, int i; 很简单,声明了个整型变量i,再看如下声明, int *p; 也很简单,立刻反应出来它是指向整型的指针,但是具体如何推倒出来的呢?其 ...
Html中div块居中显示
表面上这个问题很难,因为涉及到浏览器窗体大小,导致部分界面效果不一致.图中的方法适用于div块大小不变的界面. 如上所示,将其分为两块,margin-left和margin-top的值均分别为widt ...
SpringBoot项目的parent依赖和配置文件*.properties、*.yml详解
1.idea创建SpringBoot项目 idea创建SpringBoot项目应该对很多人来说已经是菜到不能到菜的操作了,但是对于初学者小白来说,还是要讲解一下的.打开idea,然后选择Spring ...
Shell常用脚本之用户操作
批量创建10个系统帐号oldboy01-oldboy10并设置密码,密码为随机8位字符串 #!/bin/bash ..} do useradd $user -] | ` | passwd --stdi ...
SpringBoot学习(二):配置文件
1.配置文件 SpringBoot使用一个全局的配置文件,配置文件名是固定的: •application.properties •application.yml 配置文件的作用:修改SpringBoo ...
Jconsole或者VisualVM监控远程主机(阿里云,jdk11或者8)
准备: 1 一个war包或者jar包,这里我用springboot的 2 linux环境,安装tomcat,jdk,我用的jdk11和tomcat9,jdk11和8的拷贝权限文件路径有点不一样,这个需 ...

数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）

数据算法 --hadoop/spark数据处理技巧 --（1.二次排序问题 2. TopN问题）的更多相关文章

随机推荐

热门专题