一.MR排序的分类 1.部分排序:MR会根据自己输出记录的KV对数据进行排序,保证输出到每一个文件内存都是经过排序的: 2.全局排序: 3.辅助排序:再第一次排序后经过分区再排序一次: 4.二次排序:经过一次排序后又根据业务逻辑再次进行排序. 二.MR排序的接口——WritableComparable 该接口继承了Hadoop的Writable接口和Java的Comparable接口,实现该接口要重写write.readFields.compareTo三个方法. 三.流量统计案例的排序与分区 /…
一.排序 排序: 需求:根据用户每月使用的流量按照使用的流量多少排序 接口-->WritableCompareable 排序操作在hadoop中属于默认的行为.默认按照字典殊勋排序. 排序的分类: 1)部分排序 2)全排序 3)辅助排序 4)二次排序 Combiner 合并 父类Reducer 局部汇总 ,减少网络传输量 ,进而优化程序. 注意:求平均值? 3 5 7 2 6 mapper: (3 + 5 + 7)/3 = 5 (2 + 6)/2 = 4 reducer:(5+4)/2 只能应用…
[toc] 一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系 案例实操 将统计结果按照手机归属地不同省份输出到不同文件中(分区),手机号136.137.138.139开头都分别放到一个独立的4个文件中,其他开头的放到一个文件中 (1)自定义分区类 M…
昨天,与外部化系统对接时,发现有一个数据一直咩有集成到,双方各自排查了自己系统的代码,都觉得逻辑非常简单,无法就是一个分页查询而已. 问题就出在这个分页查询上. 为了说明当时问题发生的情景,我模拟了一个SQL查询: 以上是一段典型的Oracle数据库的分页查询,又以查询结果集的第1条至第800条数据. 如果想查询第二页的数据,只需要改到RN和ROWNUM即可.以下是查第二页的数据的SQL: 问题背景 上述SQL中从MY_TABLE查询结果集本身是没有问题的,因为符合条件的数据总数是不会变的.但是…
DataTable列查询加排序 DataRow[] drArray = dt.Select("ANLYCOM_ID='" + chSPrdtStblAnly.AnlyComId + "'", "SAMPLE_DATE");…
[译注:此文为翻译,由于本人水平所限,疏漏在所难免,欢迎探讨指正] 原文链接:传送门. 什么是排序函数(Ranking Functions)? 排序函数基于一组记录的集合返回一个排序值.一个排序值其实就是一个数字,典型的它都是从1开始并且对于每一个新的排序值它都是按1递增的.根据排序函数的不同,对于数据集中的每一行来说,返回的排序值有可能是唯一的,或者一些数据行会具有一样的排序值.在接下来的章节中,我将浏览下这些不的排序函数,以及它们是如何使用的. 使用排序函数(Ranking Function…
冒泡排序   冒泡排序是一种简单的排序算法.它重复地走访过要排序地数列,一次比较两个元素,如果它们地顺序错误就把它们交换过来.走访数列地工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成.这个算法地名字由来是因为越小地元素会经由交换慢慢"浮"到数列的顶端. 算法描述 比较相邻的元素.如果第一个比第二个大,就交换它们两个 对每一对相邻元素作同样的工作,从开始第一队到结尾的最后一对,这样在最后的元素应该会是最大的数 针对所有的元素重复以上的步骤,除了最后一个 从重步骤1~3,直…
一.冒泡排序 冒泡排序是入门级的算法,但也有一些有趣的玩法.通常来说,冒泡排序有三种写法: 一边比较一边向后两两交换,将最大值 / 最小值冒泡到最后一位: 经过优化的写法:使用一个变量记录当前轮次的比较是否发生过交换,如果没有发生交换表示已经有序,不再继续排序: 进一步优化的写法:除了使用变量记录当前轮次是否发生交换外,再使用一个变量记录上次发生交换的位置,下一轮排序时到达上次交换的位置就停止比较 1.1.第一种写法 public static void bubbleSort(int[] arr…
排序 1.定义: 所谓排序,即是整理文件中的内容,使其按照关键字递增或递减的顺序进行排列. 输入:n个记录,n1,n2--,其对应1的关键字为k1,k2-- 输出:n(i1),n(i2)--,使得k(i1)<=k(i2)-- (形象点讲就是排排坐,调座位,高在前低在后:或者低在前高在后) 2.排序算法的评价的专业术语 (1)稳定性 稳定:在排序的文件中,若存在多个关键字相同的记录,经过排序后,这些具有相同 关键字的记录之间的相对顺序不会发生改变. 不稳定:若具有相同关键字记录之间的相对次序发生改…
这两天公司让做一个Jtable表格的排序,首先按A列排序,在A列相等时按B列排序,B列相等时按C列排序,ABC三列可以任意指定,最多分三列,这样的一个需求.由于我是大神,所以必须做了出来.ok,不自恋了,先上效果图,然后上代码,最后上项目.这也将是我以后的一贯风格,懂得分享才能走的更高!   简单描述一下,瞅准某列,第一次点击升序,第二次点击降序,第三次点击取消排序.图为先按密码升序,然后按用户名升序,最后按年龄降序.   一. 准备工作,及整体思路   我的环境,jdk1.6,jdk1.7,j…