Injector Job深入分析

Injector Job的主要功能是根据crawlId在hbase中创建一个表，将将文本中的seed注入表中。

（一）命令执行

1、运行命令

[jediael@master local]$ bin/nutch inject seeds/ -crawlId sourcetest

InjectorJob: starting at 2015-03-10 14:59:19

InjectorJob: Injecting urlDir: seeds

InjectorJob: Using class org.apache.gora.hbase.store.HBaseStore as the Gora storage class.

InjectorJob: total number of urls rejected by filters: 0

InjectorJob: total number of urls injected after normalization and filtering: 1

Injector: finished at 2015-03-10 14:59:26, elapsed: 00:00:06

2、查看表中内容

hbase(main):004:0> scan 'sourcetest_webpage'

ROW                                       COLUMN+CELL

 com.163.money:http/                      column=f:fi, timestamp=1425970761871, value=\x00'\x8D\x00

 com.163.money:http/                      column=f:ts, timestamp=1425970761871, value=\x00\x00\x01L\x02{\x08_

 com.163.money:http/                      column=mk:_injmrk_, timestamp=1425970761871, value=y

 com.163.money:http/                      column=mk:dist, timestamp=1425970761871, value=0

 com.163.money:http/                      column=mtdt:_csh_, timestamp=1425970761871, value=?\x80\x00\x00

 com.163.money:http/                      column=s:s, timestamp=1425970761871, value=?\x80\x00\x00

1 row(s) in 0.0430 seconds

3、读取数据库中的内容

由于hbase表使用了字节码表示内容，因此需要通过以下命令来查看具体内容

[jediael@master local]$ bin/nutch readdb  -dump ./test -crawlId sourcetest -content

WebTable dump: starting

WebTable dump: done

[jediael@master local]$ cat test/part-r-00000

http://money.163.com/   key:    com.163.money:http/

baseUrl:        null

status: 0 (null)

fetchTime:      1425970759775

prevFetchTime:  0

fetchInterval:  2592000

retriesSinceFetch:      0

modifiedTime:   0

prevModifiedTime:       0

protocolStatus: (null)

parseStatus:    (null)

title:  null

score:  1.0

marker _injmrk_ :       y

marker dist :   0

reprUrl:        null

metadata _csh_ :        ?锟

（二）源码流程分析

类：org.apache.nutch.crawl.InjectorJob

1、程序入口

public static void main(String[] args) throws Exception {

    int res = ToolRunner.run(NutchConfiguration.create(), new InjectorJob(),

        args);

    System.exit(res);

  }

2、ToolRunner.run(String[] args)

此步骤主要是调用inject方法，其余均是一些参数合规性的检查

public int run(String[] args) throws Exception {

  …………

    inject(new Path(args[0]));

   …………

  }

3、inject()方法

nutch均使用 Map<String, Object> run(Map<String, Object> args)来运行具体的job,即其使用Map类参数，并返回Map类参数。

<pre name="code" class="java">public void inject(Path urlDir) throws Exception {

    run(ToolUtil.toArgMap(Nutch.ARG_SEEDDIR, urlDir));

  }

4、job的具体配置，并创建hbase中的表格

public Map<String, Object> run(Map<String, Object> args) throws Exception {

    numJobs = 1;

    currentJobNum = 0;

    currentJob = new NutchJob(getConf(), "inject " + input);

    FileInputFormat.addInputPath(currentJob, input);

    currentJob.setMapperClass(UrlMapper.class);

    currentJob.setMapOutputKeyClass(String.class);

    currentJob.setMapOutputValueClass(WebPage.class);

    currentJob.setOutputFormatClass(GoraOutputFormat.class);

    DataStore<String, WebPage> store = StorageUtils.createWebStore(

        currentJob.getConfiguration(), String.class, WebPage.class);

    GoraOutputFormat.setOutput(currentJob, store, true);

    currentJob.setReducerClass(Reducer.class);

    currentJob.setNumReduceTasks(0);

    currentJob.waitForCompletion(true);

    ToolUtil.recordJobStatus(null, currentJob, results);

}

5、mapper方法

由于Injector Job中无reducer，因此只要关注mapper即可。

mapper主要完成以下几项工作：

（1）对文本中的内容进行分析，并提取其中的参数

（2）根据filter过滤url

（3）反转url作为key，创建Webpage对象作为value，然后将之写入表中。

protected void map(LongWritable key, Text value, Context context)

        throws IOException, InterruptedException {

      String url = value.toString().trim(); // value is line of text

      if (url != null && (url.length() == 0 || url.startsWith("#"))) {

        /* Ignore line that start with # */

        return;

      }

      // if tabs : metadata that could be stored

      // must be name=value and separated by \t

      float customScore = -1f;

      int customInterval = interval;

      Map<String, String> metadata = new TreeMap<String, String>();

      if (url.indexOf("\t") != -1) {

        String[] splits = url.split("\t");

        url = splits[0];

        for (int s = 1; s < splits.length; s++) {

          // find separation between name and value

          int indexEquals = splits[s].indexOf("=");

          if (indexEquals == -1) {

            // skip anything without a =

            continue;

          }

          String metaname = splits[s].substring(0, indexEquals);

          String metavalue = splits[s].substring(indexEquals + 1);

          if (metaname.equals(nutchScoreMDName)) {

            try {

              customScore = Float.parseFloat(metavalue);

            } catch (NumberFormatException nfe) {

            }

          } else if (metaname.equals(nutchFetchIntervalMDName)) {

            try {

              customInterval = Integer.parseInt(metavalue);

            } catch (NumberFormatException nfe) {

            }

          } else

            metadata.put(metaname, metavalue);

        }

      }

      try {

        url = urlNormalizers.normalize(url, URLNormalizers.SCOPE_INJECT);

        url = filters.filter(url); // filter the url

      } catch (Exception e) {

        LOG.warn("Skipping " + url + ":" + e);

        url = null;

      }

      if (url == null) {

        context.getCounter("injector", "urls_filtered").increment(1);

        return;

      } else { // if it passes

        String reversedUrl = TableUtil.reverseUrl(url); // collect it

        WebPage row = WebPage.newBuilder().build();

        row.setFetchTime(curTime);

        row.setFetchInterval(customInterval);

        // now add the metadata

        Iterator<String> keysIter = metadata.keySet().iterator();

        while (keysIter.hasNext()) {

          String keymd = keysIter.next();

          String valuemd = metadata.get(keymd);

          row.getMetadata().put(new Utf8(keymd),

              ByteBuffer.wrap(valuemd.getBytes()));

        }

        if (customScore != -1)

          row.setScore(customScore);

        else

          row.setScore(scoreInjected);

        try {

          scfilters.injectedScore(url, row);

        } catch (ScoringFilterException e) {

          if (LOG.isWarnEnabled()) {

            LOG.warn("Cannot filter injected score for url " + url

                + ", using default (" + e.getMessage() + ")");

          }

        }

        context.getCounter("injector", "urls_injected").increment(1);

        row.getMarkers()

            .put(DbUpdaterJob.DISTANCE, new Utf8(String.valueOf(0)));

        Mark.INJECT_MARK.putMark(row, YES_STRING);

        context.write(reversedUrl, row);

      }

    }

（三）重点源码学习

Injector Job深入分析的更多相关文章

Injector Job深入分析分类： H3_NUTCH 2015-03-10 15:44 334人阅读评论(0) 收藏
Injector Job的主要功能是根据crawlId在hbase中创建一个表,将将文本中的seed注入表中. (一)命令执行 1.运行命令 [jediael@master local]$ bin/n ...
深入分析Spring 与 Spring MVC容器
1 Spring MVC WEB配置 Spring Framework本身没有Web功能,Spring MVC使用WebApplicationContext类扩展ApplicationContext, ...
Linux堆内存管理深入分析（下）
Linux堆内存管理深入分析 (下半部) 作者@走位,阿里聚安全 0 前言回顾在上一篇文章中(链接见文章底部),详细介绍了堆内存管理中涉及到的基本概念以及相互关系,同时也着重介绍了堆中chunk分 ...
Linux堆内存管理深入分析(上)
Linux堆内存管理深入分析(上半部) 作者:走位@阿里聚安全 0 前言近年来,漏洞挖掘越来越火,各种漏洞挖掘.利用的分析文章层出不穷.从大方向来看,主要有基于栈溢出的漏洞利用和基于堆溢出的漏洞 ...
angular.js:13920 Error: [$injector:unpr] Unknown provider: $scopeProvider <- $scope <- testServe
angular.js:13920 Error: [$injector:unpr] Unknown provider: $scopeProvider <- $scope <- testSer ...
AngularJS API之$injector ---- 依赖注入
在AngularJS中也有依赖注入的概念,像spring中的依赖注入,但是又有所不同.Spring中使用构造注入或者设值注入的方式,还需要做一些额外的操作,但是angular中只需要在需要的地方声明一 ...
AngularJS源码分析之依赖注入$injector
开篇随着javaEE的spring框架的兴起,依赖注入(IoC)的概念彻底深入人心,它彻底改变了我们的编码模式和思维.在IoC之前,我们在程序中需要创建一个对象很简单也很直接,就是在代码中new O ...
深入分析@Transactional的用法
关键词:事务, 编程式事务,声明式事务.spring 事务管理.AOP事务增强.@Transactional 在分析深入分析@Transactional的使用之前,我们先回顾一下事务的一些基本内容. ...
angular源码阅读，依赖注入的原理：injector,provider,module之间的关系。
最开始使用angular的时候,总是觉得它的依赖注入方式非常神奇. 如果你跳槽的时候对新公司说,我曾经使用过angular,那他们肯定会问你angular的依赖注入原理是什么? 这篇博客其实是angu ...

随机推荐

16--Box2D使用（二、显示物理世界）
在上一篇文章中我们创建了的一个物理世界,当物理世界中的刚体一个也没有显示出来.为显示物理世界中的物体,我们需要引入GLES-Render(调试Box2D使用).这两个文件可以再 %Cocos_Home ...
php 之 PDO数据访问抽象层(0513)
PDO(PHP Data Objects)是一种在PHP里连接数据库的使用接口. PDO与mysqli曾经被建议用来取代原本PHP在用的mysql相关函数, 基于数据库使用的安全性,因为后者欠缺对于S ...
ThinkPHP内置函数详解D、F、S、C、L、A、I
单字母函数D.F.S.C.L.A.I 他们都在ThinkPHP核心的ThinkPHP/Mode/Api/functions.php这个文件中定义. 下面我分别说明一下他们的功能: D() 加载Mode ...
.NET知识点总结一（笔记整合）
1. .net framework原理简介,C#程序的两次编译 .NET源代码——>语言编译器(第一次编译)——>MSIL+元数据(exe文件)——>CLR(公共语言运行时——类 ...
Qt中用QSS切分图片
Qt设计时有时需要实现动态按钮,按钮点击时一个状态,鼠标悬浮时一个状态,离开时一个状态,静止时一个状态.可以用一张png长图,使用QSS分段截取,分配给每一个状态. 1.调用函数 SetButt ...
QuickReport多页打印
You use composite reports for this(TQrCompositeReport) on the quickreports tabTake a look in the Dem ...
java属性文件读取，属性修改
/** * 属性文件读取 * @author bestmata * */ public class CommUtil { private static Logger logger=Logger.get ...
js深入研究之牛逼的类封装设计
<script type="text/javascript"> var Book = function(newIsbn, newTitle, newAuthor) { ...
tyvj1038忠诚
描述 Description 老管家是一个聪明能干的人.他为财主工作了整整10年,财主为了让自已账目更加清楚.要求管家每天记k次账,由于管家聪明能干,因而管家总是让财主十分满意.但是由于一些人的挑拨, ...
算法导论（第三版）Exercises4.2(第四章二节）
4.2-1(计算结果) 18 14 62 66 4.2-2(Strassen算法计算矩阵乘法) void multiplyMatrix(int a[], int b[], int n, int r ...

Injector Job深入分析

Injector Job深入分析的更多相关文章

随机推荐

热门专题