爬虫系统：通过Nutch扩展点开发插件(添加自定义索引字段到solr)

准备工作

1. **爬虫环境** —— *nutch2.3.1 + solr4.10.3 + hbase0.98*
2. **开发环境** —— *Eclipse Mars.2 Release（4.5.2）*
3. **所需jar包** —— *apache-nutch-2.3.jar、hadoop-common-2.6.0.jar、slf4j-api-1.7.9.jar*

什么是Nutch扩展点

> 好的爬虫系统应该同时具备**高扩展性**(scalability)和**高伸缩性**(extensibility)的特点。Nutch爬虫系统不仅是采用动态加载插件形式设计(可扩展性)，而且允许利用hadoop集群进行分布式爬取(可伸缩性)。用户可以根据自己的需求开发特定的爬虫系统，同时不需要过多担心业务量剧增会影响爬虫性能。
> Nutch提供了扩展接口【 *Parser、ParseFilter等*】，用户通过实现这些接口进行插件开发。

本文插件的意义

> 利用nutch原始插件爬取web数据，然后把数据放入solr建索引，此时solr中的索引字段只有默认配置的几个，如果我们需要加入额外的字段，则需要利用Nutch的扩展接口进行索引插件开发。

如何利用Nutch扩展点开发插件

1、确定实现哪个扩展点？
      本文需要在solr中新增索引字段，所以需要利用索引阶段的扩展点【IndexWriter、IndexingFilter】，Nutch已经实现了indexer-solr插件用于创建solr索引，我们可以重新实现indexer-solr插件替换掉原来的；或者利用索引过滤往索引对象【NutchDocument】中加入需要进行索引的字段。本文使用IndexingFilter。
2、如何开发插件？
      2.1 eclipse新建java项目；
      2.2 实现IndexingFilter接口；

	public class ExtraIndexer implements IndexingFilter {

		private static final Logger LOGGER = LoggerFactory.getLogger(ExtraIndexer.class);

		private Configuration conf;

		private String CRAWLID_VALUE;

		/**

		 * NutchDocument为索引数据对象

		 * WebPage为爬虫持久层数据表

		 */

		public NutchDocument filter(NutchDocument doc, String url, WebPage page) throws IndexingException {

			// just in case

			if (doc == null)

				return doc;

			addCrawlId(doc, url, page);

			addFetchTime(doc, url, page);

			return doc;

		}

		private NutchDocument addFetchTime(NutchDocument doc, String url, WebPage page) {

			String fetchTime = page.getFetchTime().toString();

			LOGGER.info(">>>>>>>>>>add fetchtime: " + fetchTime);

			doc.add("fetchTime", fetchTime);

			return doc;

		}

		private NutchDocument addCrawlId(NutchDocument doc, String url, WebPage page) {

			doc.add("crawlId", this.CRAWLID_VALUE);

			LOGGER.info(">>>>>>>>>>add crawlId: " + this.CRAWLID_VALUE);

			return doc;

		}

		public void setConf(Configuration conf) {

			this.conf = conf;

			this.CRAWLID_VALUE = conf.get(Nutch.CRAWL_ID_KEY);

			LOGGER.info(">>>>>>>>>>crawlID for indexing set to: " + this.CRAWLID_VALUE);

		}

		public Configuration getConf() {

			return this.conf;

		}

		@Override

		public Collection<Field> getFields() {

			return null;

		}

	}

2.3 编写配置文件；

plugin.xml：插件信息提供给Nutch识别.

<plugin

   id="index-extra"

   name="Extra Indexing Filter"

   version="1.0.0"

   provider-name="nutch.org">

   <runtime>

      <library name="index-extra.jar">

         <export name="*"/>

      </library>

   </runtime>

   <requires>

      <import plugin="nutch-extensionpoints"/>

   </requires>

   <extension id="org.apache.nutch.indexer.extra"

              name="Nutch Extra Indexing Filter"

              point="org.apache.nutch.indexer.IndexingFilter">

      <implementation id="ExtraIndexer"

                      class="org.apache.nutch.indexer.extra.ExtraIndexer"/>

   </extension>

</plugin>

build.xml：给ant提供编译信息

<project name="index-extra" default="jar-core">

  <import file="../build-plugin.xml"/>

</project>

ivy.xml：描述插件的相关依赖，给ivy提供信息方便管理这些依赖

<ivy-module version="1.0">

  <info organisation="org.apache.nutch" module="${ant.project.name}">

    <license name="Apache 2.0"/>

    <ivyauthor name="Apache Nutch Team" url="http://nutch.apache.org"/>

    <description>

        Apache Nutch

    </description>

  </info>

  <configurations>

    <include file="../../../ivy/ivy-configurations.xml"/>

  </configurations>

  <publications>

    <!--get the artifact from our module name-->

    <artifact conf="master"/>

  </publications>

  <dependencies>

  </dependencies>

</ivy-module>

2.4 在nutch安装目录下编译插件；

a、把index-extra源码加入到{NUTCH-HOME}/src/plugin

b、修改{NUTCH-HOME}/src/plugin/build.xml文件

c、修改{NUTCH-HOME}/build.xml文件

d、编辑{NUTCH-HOME}/conf中的相关配置文件

e、在{NUTCH-HOME}目录下运行：ant runtime

3、如何利用开发好的插件？

3.1 修改nutch-site配置文件；

<property>

   <name>plugin.includes</name>

   <value>protocol-httpclient|urlfilter-regex|index-(extra|basic|anchor|more|metadata)|indexer-solr|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|parse-(html|tika|text|metatags)</value>

</property>

3.2 修改schema.xml配置文件；

<field name="crawlId" type="string" stored="true" indexed="false"/>

<field name="fetchTime" type="string" stored="true" indexed="false"/>

3.3 修改solrindex-mapping.xml【nutch和solr索引映射】配置文件；

<field dest="fetchTime" source="fetchTime"/>

<field dest="crawlId" source="crawlId"/>

3.4 修改solr配置文件；

{NUTCH-HOME}/runtime/local/conf下的schema.xml复制到solr实例的conf目录下{SOLR-HOME}/collection1/conf/，并重启solr服务器

4、运行爬虫命令验证结果？

一站式命令：nohup bin/crawl urls/ craw-name http://××××:8080/solr/ 3

创建索引命令：nohup bin/nutch solrindex http://××××:8080/solr/ -all -crawlId craw-name &

小结

本文抛砖引玉，主要实现了在nutch索引阶段，通过扩展插件的手段，添加自定义的索引字段到NutchDocument索引数据对象中，从而在随后solr的CRUD阶段【indexer-solr】把添加的字段提交到solr。
**注：**博主水平有限，望批评指正！以求共勉！

通过Nutch扩展点开发插件(添加自定义索引字段到solr)的更多相关文章

七、K3 WISE 开发插件《Update字段级更新触发器 - BOS单审核后反写源单》
审核成功触发,是一个比较典型的场景.需要用到update触发器,跟踪到审核状态的变化. 引用的源码<采购检验单审核后反写收料通知单>,其中采购检验单是BOS自定义单据. if (objec ...
在半小时内从无到有开发并调试一款Chrome扩展（Chrome插件/谷歌浏览器插件）
原文转载自「刘悦的技术博客」https://v3u.cn/a_id_120 就在不久之前,我们目前这个毕业班的班长那日同学和我说,他正在公司开发Chrome扩展,看起来很高大上的技术,实际开发却非常简 ...
jQuery为开发插件提拱了两个方法:jQuery.fn.extend(); jQuery.extend();
jQuery为开发插件提拱了两个方法,分别是: jQuery.fn.extend(); jQuery.extend(); jQuery.fn jQuery.fn = jQuery.prototype ...
eclipse基础及开发插件
Eclipse:http://www.eclipse.org/downloads/ Compare Package:http://www.eclipse.org/downloads/packages/ ...
关于Eclipse开发插件(三)
视图之间实现事件监听两个视图中的组件之间的互动,在开发插件的时候是经常碰到的问题.点击视图1列表的某项时,视图2的文本框显示相应的字符. 第一种主动式: 主动式就是在视图1的代码块中获取对视图2的对 ...
Nutch+Lucene搜索引擎开发实践
网络拓扑图 1 网络拓扑图安装Java JDK 首先查看系统是否已经安装了其它版本号的JDK,假设有,先要把其它版本号的JDK卸载. 用root用户登录系统. # rpm-qa|grep gcj ...
jQuery中开发插件的两种方式
jQuery中开发插件的两种方式(附Demo) 做web开发的基本上都会用到jQuery,jQuery插件开发两种方式:一种是类扩展的方式开发插件,jQuery添加新的全局函数(jQuery的全局函数 ...
使用asp.net mvc引擎开发插件系统
一.前言我心中的插件系统应该是像Nop那样(更牛逼的如Orchard,OSGI.NET),每个插件模块不只是一堆实现了某个业务接口的dll,然后采用反射或IOC技术来调用,而是一个完整的mvc小应用 ...
三、K3 Cloud 开发插件《K3 Cloud插件开发新手指导 + K3 Cloud插件开发代码调试》
案例需求:在销售订单上新增一个按钮,在订单明细中新增一个字段,命名[即时库存]. 点击按钮,弹出“Hello World!”,并获取订单明细物料的即时库存,填入字段[即时库存]. 开发工具:Visua ...

随机推荐

myeclipse+tomcat中出现org.apache.juli.logging.LogFactory这样的错误[转]
将项目部署好后,启动tomcat后报错,java.lang.NoClassDefFoundError: org/apache/juli/logging/LogFactory 报这个错说明你用的是t ...
学习UML --用例图
用例图用于描述系统提供的系列功能.使用用例图的主要目的是帮助开发团队以一种可视化的方式理解系统的功能需求.用例图对系统的实现不做任何说明,仅仅是系统功能的描述. 用例图主要在需求分析阶段使用,用于描述 ...
JavaScript 语言精粹读书笔记
最近在看赵泽欣 / 鄢学鹍翻译的蝴蝶书, 把一些读后感言记录在这里. 主要是把作者的建议跟 ES5/ES5.1/ES6 新添加的功能进行了对比涉及到的一些定义 IIFE: Immediatel ...
javascript中数组与字符串之间的转换以及字符串的替换
数组转化为字符串: var a=['aa','bb','cc']; var b=a.join('-'); console.log(b)----->'aa-bb-cc' 字符串中的替换: 1.re ...
jQuery选择器(基本过滤选择器)第三节
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/stri ...
Problem F: 分数类的类型转换
Description 封装一个分数类Fract,用来处理分数功能和运算,支持以下操作: 1. 构造:传入两个参数n和m,表示n/m:分数在构造时立即转化成最简分数. 2. show()函数:分数 ...
BZOJ-2330-[SCOI2011]糖果（差分约束）
Description 幼儿园里有N个小朋友,lxhgww老师现在想要给这些小朋友们分配糖果,要求每个小朋友都要分到糖果.但是小朋友们也有嫉妒心,总是会提出一些要求,比如小明不希望小红分到的糖果比他的 ...
padding-使用必记
前言说起了padding可谓是盒子模型中最常用的一个属性,你真的了解padding吗?那我请问您设置padding会影响盒子的宽度与高度吗?也许好多人会回答padding会影响到盒子的宽度与高度.在 ...
很考验人的java内存加载面试题
源代码如下,求结果 public class MemoryAnalyse { public static int k = 0; public static MemoryAnalyse t1 = new ...
[转载] Rss 与 Feed 的概念区别
转载自http://www.chinaz.com/news/2011/0831/207961.shtml 可能很多刚刚接触博客的童鞋们,也和我一样不太了解:rss和feed概念或者说不了解rss和fe ...

通过Nutch扩展点开发插件(添加自定义索引字段到solr)