hadoop参数传递

传参关键代码：

//从配置文件获取参数,必须在作业创建的前面

conf.addResource("hadoop-bigdata.xml");

keepUrl=conf.get("KeepUrlString","");

filterUrl=conf.get("FilterUrlString","");

conf.set("FilterUrl", filterUrl);

conf.set("KeepUrl", keepUrl);

//获取参数

String fstr=context.getConfiguration().get("FilterUrl");

String kstr=context.getConfiguration().get("KeepUrl");

package org.apache.hadoop.examples;

import java.io.IOException;

import java.util.StringTokenizer;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FilterUrl {

    public static class FilterUrlMap extends Mapper<Object,Text,Text,Text>

    {

        private static Text word=new Text();

        public void map(Object key,Text values,Context context) throws

        IOException,InterruptedException

        {

            boolean fflag=false;

            boolean kflag=false;

            //获取参数

            String fstr=context.getConfiguration().get("FilterUrl");

            String kstr=context.getConfiguration().get("KeepUrl");

            //循环的方式

//            StringTokenizer fitr=new StringTokenizer(fstr,"|");

//            StringTokenizer kitr=new StringTokenizer(kstr,"|");

            //正则表达式,替换特殊字符

            Pattern filter=Pattern.compile(fstr.replace(".","\\."));

            Pattern keep=Pattern.compile(kstr.replace(".","\\."));            

            //有一大段的内容

            StringTokenizer itr = new StringTokenizer(values.toString(),"\n");

            String url="";

            while(itr.hasMoreTokens())

            {

                url=itr.nextToken().toLowerCase();

                //正则表达式的模式匹配

                Matcher mkeep=keep.matcher(url);

                if(mkeep.find())

                {

                    kflag=true;

                    Matcher mfilter=filter.matcher(url);

                    if(mfilter.find())

                        fflag=true;

                }

                //需要保留的URL

                /**

                 //循环的模式匹配

                while(kitr.hasMoreTokens())

                {

                    if(url.indexOf(kitr.nextToken())>0)

                    {

                        kflag=true;

                        break;

                    }

                }

                //需要过滤掉的URL

                while(kflag && fitr.hasMoreTokens())

                {

                    if(url.indexOf(fitr.nextToken())>0)

                    {

                        fflag=true;

                        break;

                    }

                }

                */

                //是需要保留的并且不是需要过滤掉的URL

                if(kflag && !fflag)

                {

                    word.set(url);

                    context.write(word,new Text(""));

                }

            }

        }

    }

    public static class FilterUrlReduce extends Reducer<Text,Text,Text,Text>

    {

        public void reduce(Text key,Iterable<Text> values,Context context) throws

        IOException,InterruptedException

        {

            context.write(key, new Text(""));

        }

    }

    public static void main(String[] args) throws Exception{

        // TODO Auto-generated method stub

        Configuration conf=new Configuration();

        String filterUrl=new String();

        String keepUrl=new String();

        if(args.length!=2)

        {

            System.err.println("please input two args:<in> <out>");

            System.exit(2);

        }

        //从配置文件获取参数,必须在作业创建的前面

        conf.addResource("hadoop-bigdata.xml");

        keepUrl=conf.get("KeepUrlString","");

        filterUrl=conf.get("FilterUrlString","");

        conf.set("FilterUrl", filterUrl);

        conf.set("KeepUrl", keepUrl);

        //这句必须在参数设置语句的后面，否则参数获取失败

        Job job=new Job(conf,"filter url");

        job.setJarByClass(FilterUrl.class);

        job.setMapperClass(FilterUrlMap.class);

        job.setReducerClass(FilterUrlReduce.class);

        //job.setNumReduceTasks(0); //如果不要的话会有多个小的文件

        job.setOutputKeyClass(Text.class);

        job.setOutputValueClass(Text.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        System.exit(job.waitForCompletion(true)?0:1);

    }

}

需要从配置文件获取的参数：

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

     <property>

        <!--C net keep url string  -->

        <name>KeepUrlString</name>

        <value>anjueke.com|soufun.com</value>

     </property>

     <property>

        <!--filter url-->

        <name>FilterUrlString</name>

        <value>.js|.jpg|.jpeg|.gif|.png|.css|error.html</value>

    </property>

</configuration>

hadoop参数传递的更多相关文章

hadoop参数传递实例
要求: 根据输入文件中的信息,计算出某几个字符串出现的个数输入文件格式:xxx,xxx,xxx,xx,x,x,xxx,x,x,xx,x,x,x,x,x,x,x, 输出文件:xx 10 xx ...
[Hadoop in Action] 第7章细则手册
向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1.向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配 ...
Ubuntu下eclipse开发hadoop应用程序环境配置
第一步:下载eclipse-jee-kepler-SR2-linux-gtk-x86_64.tar.gz 注意:如果电脑是64位,就下载linux下的64位eclipse,不要下载32位的eclips ...
Eclipse上运行第一个Hadoop实例 - WordCount(单词统计程序)
需求计算出文件中每个单词的频数.要求输出结果按照单词的字母顺序进行排序.每个单词和其频数占一行,单词和频数之间有间隔. 比如,输入两个文件,其一内容如下: hello world hello had ...
Hadoop第6周练习—在Eclipse中安装Hadoop插件及测试(Linux操作系统)
1 运行环境说明 1.1 硬软件环境 1.2 机器网络环境 2 :安装Eclipse并测试 2.1 内容 2.2 实现过程 2.2.1 2.2.2 ...
Hadoop学习笔记2---配置详解
配置系统是复杂软件必不可少的一部分,而Hadoop配置信息处理是学习Hadoop源代码的一个很好的起点.现在就从Hadoop的配置文件谈起. 一.Hadoop配置格式 Hadoop配置文件格式如下所示 ...
hadoop streaming 编程
概况 Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程.一个最简单的程序 $HADOOP_HOME/bin/hadoop jar ...
Nutch+Hadoop集群搭建
转载自:http://www.open-open.com/lib/view/open1328670771405.html 1.Apache Nutch Apache Nutch是一个用于网络搜索 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...

随机推荐

第三百九十节，Django+Xadmin打造上线标准的在线教育平台—Django+cropper插件头像裁剪上传
第三百九十节,Django+Xadmin打造上线标准的在线教育平台—Django+cropper插件头像裁剪上传实现原理前台用cropper插件,将用户上传头像时裁剪图片的坐标和图片,传到逻辑处理 ...
HTML5实现摇一摇的功能（实测后）--转
eviceMotionEvent(设备运动事件)返回设备有关于加速度和旋转的相关信息.加速度的数据将包含三个轴:x,y和z(示意如下图所示,x轴横向贯穿手机屏幕或者笔记本键盘,y轴纵向贯穿手机屏幕或 ...
smarty模板开发基础总结
前提:1. 部署smarty模板目录:2. 编写Smarty类的子类,定制好template_dir.compile_dir.config_dir.cache_dir.left_delimiter.r ...
JDBC删除表实例
在本教程将演示如何在JDBC应用程序中删除一个数据库表. 在执行以下示例之前,请确保您已经准备好以下操作: 具有数据库管理员权限,以在给定模式中删除数据库表. 要执行以下示例,需要用实际用户名和密码替 ...
gtest日志在工程项目中的应用
网上有各种gtest的入门教学,这里就不一一重复了.本文的目的是讲解如何将gtest应用于工程应用中.利用测试驱动开发这样的理论,来先写测试代码,当自动化测试跑通以后,主工程的代码也就编写完了. 这里 ...
分享一个MAC下绕开百度网盘限速下载的方法，三步操作永久生效
相信大家都比较困惑,百度网盘客户端限速后一般只有几十K的下载速度,Windows有百度网盘破解版,但MAC的破解版似乎不存在,要提速的话,一般的做法是开超级会员(27元/月),身为程序员的我们,是不是 ...
VMWare中Linux虚拟机设置静态IP上网的设置方法
VMWare中Linux虚拟机设置静态IP上网的设置方法标签: vmwareLinux虚拟机securecrt静态IP上网 2016-05-18 02:30 702人阅读评论(0) 收藏举报 ...
eclipse debug 执行到断点处并没有停下，断点无效问题
转自:http://blog.csdn.net/cuidiwhere/article/details/14434439 现象: 利用eclipse debug时,执行到断点处并没有停下.正常情况下,在 ...
js jquery 按钮点击后 60秒之后才能点击 60秒倒计时
var wait = 60; function time(o) { if (wait == 0) { $(o).attr("disabled", false); $(o).val( ...
MyBatis批量增删改的另外一种思路（推荐）
零.传统拼接SQL语句的弊端传统上利用Mybatis进行批量操作的方式本质来说是拼接SQL语句,然后交给底层执行,如之前博文而言. 其实这种方式是存在弊端的: 1. SQL语句可能会过长,DB的引擎 ...

hadoop参数传递

hadoop参数传递的更多相关文章

随机推荐

热门专题