Nutch 二次开发之parse正文内容

关于nutch的基础知识能够參考lemo的专栏

nutch支持二次开发，为了满足搜索的准确率的问题，考虑只将网页正文的内容提取出来作为索引的内容，相应的是parse_text的数据。我使用的事nutch1.4 版本号，在cygwin下运行crawl命令进行爬取。

bin/nutch crawl urls -dir crawl -depth 3 -topN 30

爬取的流程例如以下：inject ：将urls下的url文档中的url注入到数据库，generate：从数据库中取得url获取须要爬取的url队列，fetch：从url爬取队列中爬取page，parse：解析page的内容。从这里看到我须要改写的是parse对网页解析部分，parse对网页进行解析后将解析的text放入crawl/segments下相应的parse_text目录下，我们能够通过命令

bin/nutch readseg -dump crawl/segments/20120710142020 segdata

查看详细爬取的内容。

从系统的扩展点，通过实现系统中的parser扩展点，就可以实现自己的parse应用，而系统中对html页面解析是通过默认的parse-html插件实现的，这里我们为了方便（但升级nutch版本号之后就不方便了），直接在parse-html插件处进行改动。

首先我们先找到parse-html实现parser借口的getparse方法，这种方法是详细解析网页内容的。

public ParseResult getParse(Content content) {

    HTMLMetaTags metaTags = new HTMLMetaTags();

    URL base;

    try {

      base = new URL(content.getBaseUrl());

    } catch (MalformedURLException e) {

      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());

    }

    String text = "";

    String title = "";

    Outlink[] outlinks = new Outlink[0];

    Metadata metadata = new Metadata();

    // parse the content

    DocumentFragment root;

    try {

      byte[] contentInOctets = content.getContent();

      InputSource input = new InputSource(new ByteArrayInputStream(contentInOctets));

      EncodingDetector detector = new EncodingDetector(conf);

      detector.autoDetectClues(content, true);

      detector.addClue(sniffCharacterEncoding(contentInOctets), "sniffed");

      String encoding = detector.guessEncoding(content, defaultCharEncoding);

      metadata.set(Metadata.ORIGINAL_CHAR_ENCODING, encoding);

      metadata.set(Metadata.CHAR_ENCODING_FOR_CONVERSION, encoding);

      input.setEncoding(encoding);

      if (LOG.isTraceEnabled()) { LOG.trace("Parsing..."); }

      root = parse(input);

    } catch (IOException e) {

      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());

    } catch (DOMException e) {

      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());

    } catch (SAXException e) {

      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());

    } catch (Exception e) {

      e.printStackTrace(LogUtil.getWarnStream(LOG));

      return new ParseStatus(e).getEmptyParseResult(content.getUrl(), getConf());

    }

    // get meta directives

    HTMLMetaProcessor.getMetaTags(metaTags, root, base);

    if (LOG.isTraceEnabled()) {

      LOG.trace("Meta tags for " + base + ": " + metaTags.toString());

    }

    // check meta directives

    if (!metaTags.getNoIndex()) {               // okay to index

      StringBuffer sb = new StringBuffer();

      if (LOG.isTraceEnabled()) { LOG.trace("Getting text..."); }

           try {

    	  utils.getText(sb, root);// 这里是详细解析text的位置

    	  text = sb.toString();

      } catch (SAXException e) {

    	  // TODO Auto-generated catch block

    	  e.printStackTrace();

      }

      sb.setLength(0);

      if (LOG.isTraceEnabled()) { LOG.trace("Getting title..."); }

      utils.getTitle(sb, root);         // extract title

      title = sb.toString().trim();

    }

    if (!metaTags.getNoFollow()) {              // okay to follow links

      ArrayList<Outlink> l = new ArrayList<Outlink>();   // extract outlinks

      URL baseTag = utils.getBase(root);

      if (LOG.isTraceEnabled()) { LOG.trace("Getting links..."); }

      utils.getOutlinks(baseTag!=null?baseTag:base, l, root);

      outlinks = l.toArray(new Outlink[l.size()]);

      if (LOG.isTraceEnabled()) {

        LOG.trace("found "+outlinks.length+" outlinks in "+content.getUrl());

      }

    }

    ParseStatus status = new ParseStatus(ParseStatus.SUCCESS);

    if (metaTags.getRefresh()) {

      status.setMinorCode(ParseStatus.SUCCESS_REDIRECT);

      status.setArgs(new String[] {metaTags.getRefreshHref().toString(),

        Integer.toString(metaTags.getRefreshTime())});

    }

    ParseData parseData = new ParseData(status, title, outlinks,

                                        content.getMetadata(), metadata);

    ParseResult parseResult = ParseResult.createParseResult(content.getUrl(),

                                                 new ParseImpl(text, parseData));

    // run filters on parse

    ParseResult filteredParse = this.htmlParseFilters.filter(content, parseResult,

                                                             metaTags, root);

    if (metaTags.getNoCache()) {             // not okay to cache

      for (Map.Entry<org.apache.hadoop.io.Text, Parse> entry : filteredParse)

        entry.getValue().getData().getParseMeta().set(Nutch.CACHING_FORBIDDEN_KEY,

                                                      cachingPolicy);

    }

    return filteredParse;

  }

我们从代码中能够看到详细解析text的位置，我们须要改动的就是这个位置的代码了，能够通过查看源码，nutch是通过Dom tree的方式进行解析text内容的，而我在这里为了拿到page的正文部分的内容，我选用了开源的工具boilerpipe进行正文的提取。插入如上函数的代码段为：

text = BoilerpipeUtils.getMainbodyTextByBoilerpipe(new InputSource(

    			  new ByteArrayInputStream(content.getContent())));

    	  if(text.equals("")){

    		  utils.getText(sb, root);

    	  	  text = sb.toString();

    	  	  if (LOG.isTraceEnabled()) {

    	  		  LOG.trace("Extract text using DOMContentUtils...");

    	  	  }

    	  }else if (LOG.isTraceEnabled()) {

    			  LOG.trace("Extract text using Boilerpipe...");

    	  }

    	  FileWriter fw = new FileWriter("E://mainbodypage//URLText.txt",true);

    	  fw.write("url::" + content.getUrl() + "\n");

    	  fw.write("text::" + text + "\n");

    	  fw.close();

我将相应的page的url和text内容写入到特定的path下，这样能够方便測试，如上代码段调用的静态方法类例如以下：

package org.apache.nutch.parse.html;

import org.xml.sax.InputSource;

import org.xml.sax.SAXException;

import de.l3s.boilerpipe.BoilerpipeExtractor;

import de.l3s.boilerpipe.BoilerpipeProcessingException;

import de.l3s.boilerpipe.document.TextDocument;

import de.l3s.boilerpipe.extractors.CommonExtractors;

import de.l3s.boilerpipe.sax.BoilerpipeSAXInput;

public class BoilerpipeUtils {

	public static String getMainbodyTextByBoilerpipe(InputSource is) throws BoilerpipeProcessingException, SAXException{

		final TextDocument doc = new BoilerpipeSAXInput(is).getTextDocument();

		final BoilerpipeExtractor extractor = CommonExtractors.ARTICLE_EXTRACTOR;

		extractor.process(doc);

		if(doc.getContent() != null && !doc.getContent().equals(""))

			return doc.getContent();

		else

			return "";

	  }

}

因为用到了开源的工具boilerpipe，因此须要将相关的jar包放入到插件文件夹下的lib文件夹中，同一时候相应的plugin.xml配置中runtime段例如以下：

<runtime>

      <library name="parse-html.jar">

         <export name="*"/>

      </library>

      <library name="tagsoup-1.2.1.jar"/>

      <library name="boilerpipe-1.2.0.jar">

      </library>

      <library name="nekohtml-1.9.13.jar">

      </library>

      <library name="xerces-2.9.1.jar">

      </library>

   </runtime>

至此就完毕了插件的功能，在eclipse下执行build project后执行如上的crawl命令，就可以得到自己想要的正文部分的parse_text数据了，假设在cwgwin下执行crawl命令，还会报NoClassDefFound的runtimeException，找不到指定的jar包，将如上的三个jar包放入到runtime/local/lib文件夹下就可以。

然而boilerpipe的正文提取效果还存在提升的空间，不尽理想；另外也能够用针对特定站点的定制功能去提取text信息。

Nutch 二次开发之parse正文内容的更多相关文章

Android开发之ContentProvider（内容提供者）
1. ContentProvider简介当应用继承ContentProvider类,并重写该类用于提供数据和存储数据的方法,就可以向其他应用共享其数据.虽然使用其他方法也可以对外共享数据,但数据访问 ...
Django开发之Ajax 返回内容报错
预期效果 Django通过Ajax POST提交数据,前台弹窗处理结果粗略代码 # views.py 代码 ...省略... msg = { 'code': 200, 'message': 'Hel ...
jmeter二次开发之java请求
现在很多公司都用的是微服务,每个服务的请求协议有可能不相同,怎样用jmeter二次开发自己的java请求? 下面是具体的开发步骤: 1,把需要的jar包添加到maven依赖中 jmeter中java ...
PDMS二次开发之PML开发一些常见查询语句
1.查找session 以及session number var !DBname DBname !db = object db(!DBname) !session = !db.lastsession( ...
用友二次开发之U810.1销售预订单导入
Openstack 二次开发之：在windows 环境下编译Openstack-java-sdk
在windows环境下使用maven对openstack-java-sdk进行编译编译源文件下载源代码 git clonehttps://github.com/woorea/openstack-j ...
EasyNVR、EasyDSS二次开发之：RTMP、HLS流在web页面进行无插件播放示例Demo代码
不管是基于EasyNVR还是EasyDSS,都是支持无插件直播,这也是未来视频直播的一个趋势.对于传统的浏览器插件播放谁用谁知道: 以上是软件自带播放展示背景需求对于EasyNVR和EasyDSS ...
dt二次开发之-url伪静态的自定义
dt内核的方便性在于代码内核完全开源,都可以根据自身需要进行优化整改,个人在这段时间的深入研究,发现这套内核的方便性,今天继续给大家分享下DT的url伪静态如何自定义函数. url自定义文件是在api ...
android软件开发之webView.addJavascriptInterface循环渐进【二】
本篇文章由:http://www.sollyu.com/android-software-development-webview-addjavascriptinterface-cycle-of-gra ...

随机推荐

win7 ie10输入网址显示无法显示此页问题的解决
忽然又一天,非常奇怪,所有的浏览器都无法访问网页,直接输入IP也是不行. 本人试过各种方法,包括用360进行修复:清除%temp%下文件:看是否设错了dns, 升级和修复IE,重新注册ie相关的dll ...
js点击事件代理时切换图片如何防抖动
由于图片的加载速度比较慢,我们可以直接用64base对图片进行编码,把编码加在图片的url中~~~这样加载会快一些,也不会有切换图片时出现的抖动效果
1 2 5 10 20 --> 800
用1元 2元 5元 10元 20元的钞票凑成800元的方法种数计算,使用了动态规划. 结果没打出来,只是保留在函数里各个vector中,调试可看所有结果. 优点:快缺点:占空间占内存耗时时间测试: ...
IIS启动网站
在启动一个网站前要先打开一个服务.可是Windows 的提示非常的奇怪: “除非 Windows Activation Service (WAS)和万维网发布服务(W3SVC)均处于运行状态,否则无法 ...
动画画圆的效果特效ios源码
一款不错的支持动画画圆的效果特效源码,该效果实现了动画画圆,还可以扩展成画其他平面图形功能等,大家可以下载看看吧. //定义所需要画的图形 -(void)intiUIOfView { U ...
理解Android的layout和measure
在Android UI开发中,总会有情况需要自定义View和View Group. 什么是View?就是Android中一个基本视图单位,一个Button是一个view, 一个Layout, 也是一个 ...
微信jsapi支付的坑
1.显示 redirect_uri 参数错误因为手机支付是需要微信授权的,所以检查配置授权域名地址是否正确填写(登陆微信公众平台,地址:https://mp.weixin.qq.com/cgi-b ...
compass安装教程
*:first-child { margin-top: 0 !important; } body>*:last-child { margin-bottom: 0 !important; } /* ...
关于反射的一个小问题---.NetFrameWork版本不一样导致不同的系统的问题
背景: 近期项目中用到发射,本人的电脑上是安装了.NetFrameWork 4.5,然后用着发射蛮顺溜的,啪啪,三下五除二,项目完成了,然后提交测试了,测试的电脑是虚拟机上安装了xp系统,然后.Net ...
HDU3496-Watch The Movie
描述: New semester is coming, and DuoDuo has to go to school tomorrow. She decides to have fun tonight ...

Nutch 二次开发之parse正文内容

Nutch 二次开发之parse正文内容的更多相关文章

随机推荐

热门专题