大数据mapreduce全局排序top-N之python实现

a.txt、b.txt文件如下：

a.txt

       hadoop

       hadoop

       hadoop

       hadoop

       hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

      hadoop

b.txt如下：

       java

       java

       java

       java

       java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

      java

将a.txt、b.txt上传至hdfs文件 /mapreduce/allsort 内：

hadoop fs -put a.txt b.txt  /mapreduce/allsort

实验一：第一种全局排序为，将数字列作为key，其余为value，设置一个reduce，利用shffer阶段，进行排序：（sgffer排序默认字符串排序，需要注意）

map.py代码如下：

#!usr/bin/python

import sys

base_count=9000000000

for line in sys.stdin:

        ss=line.strip().split('\t')

        key,val=ss

        new_key=base_count-int(key)

        print "%s\t%s"%(new_key,val)

red.py代码如下：

#!usr/bin/python

import sys

base_count=9000000000

for line in sys.stdin:

    ss=line.strip().split()

    key=9000000000-int(ss[0])

    print "%s\t%s"%(key,ss[1])

run.sh代码如下：

HADOOP=/usr/local/src/hadoop-1.2.1/bin/hadoop

HADOOP_STREAMING=/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar

INPUT_PATH=/mapreduce/allsort

OUT_PATH=/mapreduce/allsort/out

$HADOOP jar $HADOOP_STREAMING \

    -input $INPUT_PATH \

    -output $OUT_PATH \

    -mapper "python map.py" \

    -reducer "python red.py" \

    -file "./map.py" \

    -file "./red.py"

不设置reduce的运行个数，默认red.py的个数为1，结果输出为一个文件，且完成了倒排序；

实验二：设置3个reduce，每个ruduce内部完成排序，且3个reduce间也可以排序;思路：3个桶，60-40为0号桶、40-20为1号桶，20以下为3号桶，每个桶内部依赖shffer排序

map.py

#!usr/bin/python

import sys

base_count=9000000000

for line in sys.stdin:

        ss=line.strip().split('\t')

        key,val=ss

        new_key=base_count-int(key)

        if int(key)>=40:

                print "%s\t%s\t%s"%("",new_key,val)

        elif int(key)>=20:

                print "%s\t%s\t%s"%("",new_key,val)

        else:

                print "%s\t%s\t%s"%("",new_key,val)

red.py

#!usr/bin/python

import sys

base_count=9000000000

for line in sys.stdin:

        ss=line.strip().split()

        key=base_count-int(ss[1])

        print "%s\t%s"%(key,ss[2])

run.sh

HADOOP="/usr/local/src/hadoop-1.2.1/bin/hadoop"

HADOOP_STREAMING="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_PATH="/mapreduce/allsort"

OUT_PATH="/mapreduce/allsort/out"

$HADOOP fs -rmr $OUT_PATH

$HADOOP jar $HADOOP_STREAMING \

        -input $INPUT_PATH \

        -output $OUT_PATH \

        -mapper "python map.py" \

        -reducer "python red.py" \

        -file "./map.py" \

        -file "./red.py" \

       -jobconf "mapred.reduce.tasks=3" \

       -jobconf "stream.num.map.output.key.fields=2" \#设置前2个为key

       -jobconf "num.key.fields.for.partition=1" \ #设置第一个为partition

       -partitioner "org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner"

实验三：通过参数调控实现全局排序：

数据如下：

aaa.txt

d.1.5.

e.9.4.

e.5.9.

e.5.1.

e.5.1.

a.7.2.

f.8.3.

目的：在streaming模式默认hadoop会把map输出的一行中遇到的第一个设定的字段分隔符前面的部分作为key，后面的作为 value，这里我们将map输出的前2个字段作为key，后面字段作为value，并且不使用hadoop默认的“\t”字段分隔符，而是根据该文本特点使用“.”来分割

实现前3个字段为key排序，后面为value；

第2个和第三个字段为partition

run.sh如下：

HADOOP="/usr/local/src/hadoop-1.2.1/bin/hadoop"

HADOOP_STREAMING="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_PATH="/mapreduce/allsort/aaa.txt"

OUT_PATH="/mapreduce/allsort/out"

$HADOOP fs -rmr $OUT_PATH

$HADOOP jar $HADOOP_STREAMING \

        -input $INPUT_PATH \

        -output $OUT_PATH \

        -mapper "cat" \

        -reducer "cat" \

        -jobconf stream.num.map.output.key.fields= \

        -jobconf stream.map.output.field.separator=. \

        -jobconf map.output.key.field.separator=. \

        -jobconf mapred.text.key.partitioner.options=-k2, \

        -jobconf mapred.reduce.tasks= \

        -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner

大数据mapreduce全局排序top-N之python实现的更多相关文章

三种方法实现Hadoop(MapReduce)全局排序(1)
我们可能会有些需求要求MapReduce的输出全局有序,这里说的有序是指Key全局有序.但是我们知道,MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序.基于此,本文提供三 ...
我要进大厂之大数据MapReduce知识点(2)
01 我们一起学大数据今天老刘分享的是MapReduce知识点的第二部分,在第一部分中基本把MapReduce的工作流程讲述清楚了,现在就是对MapReduce零零散散的知识点进行总结,这次的内容大 ...
我要进大厂之大数据MapReduce知识点（1）
01 我们一起学大数据老刘今天分享的是大数据Hadoop框架中的分布式计算MapReduce模块,MapReduce知识点有很多,大家需要耐心看,用心记,这次先分享出MapReduce的第一部分.老 ...
大数据 --> MapReduce原理与设计思想
MapReduce原理与设计思想简单解释 MapReduce 算法一个有趣的例子:你想数出一摞牌中有多少张黑桃.直观方式是一张一张检查并且数出有多少张是黑桃? MapReduce方法则是: 给在座 ...
大数据mapreduce俩表join之python实现
二次排序在Hadoop中,默认情况下是按照key进行排序,如果要按照value进行排序怎么办?即:对于同一个key,reduce函数接收到的value list是按照value排序的.这种应用需求在 ...
大数据mapreduce二分法ip定位之Python实现
ip定位数据大约12M,采用-chacheFile 分发文件来源https://pan.baidu.com/s/1J0pwTafHgt4T0k3vV_gC-A 格式大致格式如下: 0.0.0.0 0 ...
大数据MapReduce相关的运维题
1.在集群节点中/usr/hdp/2.4.3.0-227/hadoop-mapreduce/目录下,存在一个案例 JAR 包 hadoop-mapreduce-examples.jar.运行 JAR ...
一起学Hadoop——TotalOrderPartitioner类实现全局排序
Hadoop排序,从大的范围来说有两种排序,一种是按照key排序,一种是按照value排序.如果按照value排序,只需在map函数中将key和value对调,然后在reduce函数中在对调回去.从小 ...
大数据学习day24-------spark07-----1. sortBy是Transformation算子，为什么会触发Action 2. SparkSQL 3. DataFrame的创建 4. DSL风格API语法 5 两种风格（SQL、DSL）计算workcount案例
1. sortBy是Transformation算子,为什么会触发Action sortBy需要对数据进行全局排序,其需要用到RangePartitioner,而在创建RangePartitioner ...

随机推荐

State management（状态管理）
State management https://en.wikipedia.org/wiki/State_management UI控件的状态管理, 例如按钮的灰化.只读.显示隐藏等. 特殊地一个控件 ...
Docker 容器CPU设置
CPU使用率其实就是你运行的程序占用的CPU资源,表示你的机器在某个时间点的运行程序的情况.使用率越高,说明你的机器在这个时间上运行了很多程序,反之较少.CPU使用率的高低与你的CPU强弱有直接关系. ...
pyqt5-控件是否可用
setEnabled(bool) 设置控件是否可用 True 可用 isEnabled() 获取控件是否可用 s=button.isEnabled()
jmeter负载机运行/添加压力机/分布式
• 我们在压测的时候,可能并发比较大, 一台机子已经启动不了那么多并发了,这个时候我们就要使用多台机子一起来发压力,就要添加压力机,添加压力机怎么添加呢,首先要在做压力机的机子上启动jmeter的代理 ...
自制rpm包
参考自:https://blog.csdn.net/u010384744/article/details/80929319 https://blog.csdn.net/samxx8/article/d ...
Fragment回退栈&commit()和commitAllowingStateLoss()
Activity切换时是通过栈的形式,不断压栈出栈,在Fragment的时候,如果你不是手动开启回退栈,它是直接销毁再重建,但如果将Fragment任务添加到回退栈,情况就会不一样了,它就有了类似Ac ...
你必须知道的几种java容器（集合类）
一.基本概念 Java容器类类库的用途是“持有对象”,并将其划分为两个不同的概念: 1)Collection:一个独立元素的序列,这些元素都服从一条或者多条规则. List必须按照插入的顺序保存元素, ...
20165234 《Java程序设计》第七周学习总结
第七周学习总结教材内容学习第十一章 JDBC与MySQL数据库连接数据库: 1. 下载JDBC-MySQL数据库驱动 2. 加载JDBC-MySQL数据库驱动 3. 连接数据库条件与排序查询: ...
SFTP客户端代码示例
参考链接:SFTP客户端代码示例操作系统:Windows7/8,VS2013 环境:libssh2 1.4.3.zlib-1.2.8.openssl-1.0.1g 原文: “从http://www. ...
Network Architecture Search Survey

大数据mapreduce全局排序top-N之python实现

大数据mapreduce全局排序top-N之python实现的更多相关文章

随机推荐

热门专题