Nutch2.x 集成ElasticSearch 抓取+索引

http://blog.csdn.net/eryk86/article/details/14111811

使用https://github.com/apache/nutch.git导入nutch项目到intellij

配置ivy.xml和conf下的gora.properties、nutch-site.xml

修改ivy/ivy.xml

修改elasticsearch版本

<dependency org="org.elasticsearch" name="elasticsearch" rev="0.90.5" conf="*->default"/>

去掉如下内容注解

<dependency org="org.apache.gora" name="gora-hbase" rev="0.3" conf="*->default" />

修改软件版本，从1.2.15改成1.2.16，解决部分包导入失败问题

<dependency org="log4j" name="log4j" rev="1.2.16" conf="*->master" />

修改gora.properties

注掉如下几行

#gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver
#gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest
#gora.sqlstore.jdbc.user=sa
#gora.sqlstore.jdbc.password=

添加一行

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore

修改nutch-site.xml，增加如下配置项

<property>
<name>storage.data.store.class</name>
<value>org.apache.gora.hbase.store.HBaseStore</value>
</property>
<property>
<name>http.agent.name</name>
<value>NutchCrawler</value>
</property>
<property>
<name>parser.character.encoding.default</name>
<value>utf-8</value>
</property>
<property>
<name>http.accept.language</name>
<value>ja-jp, en-us, zh-cn,en-gb,en;q=0.7,*;q=0.3</value>
</property>
<property>
<name>generate.batch.id</name>
<value>1</value>
</property>

增加hbase配置文件hbase-site.xml到nutch/conf中

<configuration>
<property>
<name>hbase.rootdir</name>
<value>file:///data/hbase</value>
</property>
<property>
<name>hbase.zookeeper.property.dataDir</name>
<value>/data/zookeeper</value>
</property>
</configuration>

修改nutch/src/bin/nutch，文件开头增加

NUTCH_JAVA_HOME=/usr/local/jdk

修改src下org.apache.nutch.indexer.elastic.ElasticWriter 109行，使支持es0.90.5

item.isFailed()

删除nutch/conf下所有template文件

编译nutch

ant clean

ant runtime

修改nutch-site.xml

<property>
<name>plugin.folders</name>
<value>/home/eryk/workspace/nutch/runtime/local/plugins</value>
</property>

设置intelil，增加nutch/conf和nutch/runtime/lib到classpath

File->Project Structure->Dependencies 增加nutch/conf和nutch/runtime/local/lib目录

增加pom.xml的依赖库

<dependency>
<groupId>net.sourceforge.nekohtml</groupId>
<artifactId>nekohtml</artifactId>
<version>1.9.15</version>
</dependency>
<dependency>
<groupId>org.ccil.cowan.tagsoup</groupId>
<artifactId>tagsoup</artifactId>
<version>1.2</version>
</dependency>
<dependency>
<groupId>rome</groupId>
<artifactId>rome</artifactId>
<version>1.0</version>
</dependency>

修改pom.xml中es版本

<dependency>
<groupId>org.elasticsearch</groupId>
<artifactId>elasticsearch</artifactId>
<version>0.90.5</version>
<optional>true</optional>
</dependency>

修正依赖库的版本冲突

<dependency>
<groupId>org.restlet.jse</groupId>
<artifactId>org.restlet.ext.jackson</artifactId>
<version>2.0.5</version>
<exclusions>
<exclusion>
<artifactId>jackson-core-asl</artifactId>
<groupId>org.codehaus.jackson</groupId>
</exclusion>
<exclusion>
<artifactId>jackson-mapper-asl</artifactId>
<groupId>org.codehaus.jackson</groupId>
</exclusion>
</exclusions>
<optional>true</optional>
</dependency>
<dependency>
<groupId>org.apache.gora</groupId>
<artifactId>gora-core</artifactId>
<version>0.3</version>
<exclusions>
<exclusion>
<artifactId>jackson-mapper-asl</artifactId>
<groupId>org.codehaus.jackson</groupId>
</exclusion>
</exclusions>
<optional>true</optional>
</dependency>

修改src下org.apache.nutch.crawl.Crawler代码，增加-elasticindex和-batchId参数

Map<String,Object> argMap = ToolUtil.toArgMap(
Nutch.ARG_THREADS, threads,
Nutch.ARG_DEPTH, depth,
Nutch.ARG_TOPN, topN,
Nutch.ARG_SOLR, solrUrl,
ElasticConstants.CLUSTER,elasticSearchAddr, //使用es建立索引
Nutch.ARG_SEEDDIR, seedDir,
Nutch.ARG_NUMTASKS, numTasks,
Nutch.ARG_BATCH,batchId, //解决NullPointerException问题
GeneratorJob.BATCH_ID,batchId); //解决NullPointerException问题，貌似没用
run(argMap);

修改org.apache.nutch.indexer.elastic.ElasticWriter代码，支持-elasticindex ip:port传参

public void open(TaskAttemptContext job) throws IOException {

String clusterName = job.getConfiguration().get(ElasticConstants.CLUSTER);

if (clusterName != null && !clusterName.contains(":")) {

node = nodeBuilder().clusterName(clusterName).client(true).node();

} else {

node = nodeBuilder().client(true).node();

}

LOG.info(String.format("clusterName=[%s]",clusterName));

if(clusterName.contains(":")){

String[] addr = clusterName.split(":");

client = new TransportClient()

.addTransportAddress(new InetSocketTransportAddress(addr[0],Integer.parseInt(addr[1])));

}else{

client = node.client();

}

bulk = client.prepareBulk();

defaultIndex = job.getConfiguration().get(ElasticConstants.INDEX, "index");

maxBulkDocs = job.getConfiguration().getInt(

ElasticConstants.MAX_BULK_DOCS, DEFAULT_MAX_BULK_DOCS);

maxBulkLength = job.getConfiguration().getInt(

ElasticConstants.MAX_BULK_LENGTH, DEFAULT_MAX_BULK_LENGTH);

}

在nutch目录下增加urls目录，在url目录下新建seed.txt，写入要爬的种子地址

运行Crawler

传入参数

urls -elasticindex a2:9300 -threads 10 -depth 3 -topN 5 -batchId 1

观察nutch/hadoop.log日志

2013-11-03 22:57:36,682 INFO elasticsearch.node - [Ikonn] started
2013-11-03 22:57:36,682 INFO elastic.ElasticWriter - clusterName=[a2:9300]
2013-11-03 22:57:36,692 INFO elasticsearch.plugins - [Electron] loaded [], sites []
2013-11-03 22:57:36,863 INFO basic.BasicIndexingFilter - Maximum title length for indexing set to: 100
2013-11-03 22:57:36,864 INFO indexer.IndexingFilters - Adding org.apache.nutch.indexer.basic.BasicIndexingFilter
2013-11-03 22:57:36,864 INFO anchor.AnchorIndexingFilter - Anchor deduplication is: off
2013-11-03 22:57:36,865 INFO indexer.IndexingFilters - Adding org.apache.nutch.indexer.anchor.AnchorIndexingFilter
2013-11-03 22:57:37,946 INFO elastic.ElasticWriter - Processing remaining requests [docs = 86, length = 130314, total docs = 86]
2013-11-03 22:57:37,988 INFO elastic.ElasticWriter - Processing to finalize last execute
2013-11-03 22:57:41,986 INFO elastic.ElasticWriter - Previous took in ms 1590, including wait 3998
2013-11-03 22:57:42,020 INFO elasticsearch.node - [Ikonn] stopping ...
2013-11-03 22:57:42,032 INFO elasticsearch.node - [Ikonn] stopped
2013-11-03 22:57:42,032 INFO elasticsearch.node - [Ikonn] closing ...
2013-11-03 22:57:42,039 INFO elasticsearch.node - [Ikonn] closed
2013-11-03 22:57:42,041 WARN mapred.FileOutputCommitter - Output path is null in cleanup
2013-11-03 22:57:42,057 INFO elastic.ElasticIndexerJob - Done

查询es

http://a2:9200/_search?q=%E7%BE%8E%E5%A5%B3&pretty=true

返回结果，说明已经跑通了，观察hbase中，表已经自动建好，并存入了已经爬到的数据

参考

http://www.blogjava.net/paulwong/archive/2013/08/31/403513.html

http://my.oschina.net/mynote/blog/152845

http://www.searchtech.pro/nutch2.1-elasticsearch-mysql-local-Integrate

http://blog.csdn.net/laigood/article/details/7625862

Nutch2.x 集成ElasticSearch 抓取+索引的更多相关文章

nutch2.2.1+mysql抓取数据
基本环境:linux centos6.5 nutch2.2.1 源码包, mysql 5.5 ,elasticsearch1.1.1, jdk1.7 1.下载地址http://mirror.bjtu. ...
15-分析Ajax请求并抓取今日头条街拍美图
流程框架: 抓取索引页内容:利用requests请求目标站点,得到索引网页HTML代码,返回结果. 抓取详情页内容:解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 下载图片与保存数据库:将 ...
分析Ajax请求并抓取今日头条街拍美图
项目说明本项目以今日头条为例,通过分析Ajax请求来抓取网页数据. 有些网页请求得到的HTML代码里面并没有我们在浏览器中看到的内容.这是因为这些信息是通过Ajax加载并且通过JavaScript渲 ...
Python爬虫系列-分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. 2.抓取详情页内容解析返回结果,得到详情页的链接,并进一步抓取详情页的信息. 3.下载图片与保存数据库将 ...
【Python爬虫案例学习】分析Ajax请求并抓取今日头条街拍图片
1.抓取索引页内容利用requests请求目标站点,得到索引网页HTML代码,返回结果. from urllib.parse import urlencode from requests.excep ...
Nutch2.x 演示抓取第一个网站
http://www.micmiu.com/opensource/nutch/nutch2x-crawl-first-website/?utm_source=tuicool&utm_mediu ...
Nutch2.1+mysql+solr3.6.1+中文网站抓取
1.mysql 数据库配置 linux mysql安装步骤省略. 在首先进入/etc/my.cnf (mysql为5.1的话就不用修改my.cnf,会导致mysql不能启动)在[mysqld] 下添加 ...
windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步. 对nutc ...
Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引
原文地址: http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html Nutch 2.2.1发布快两月了,该版本与Nutch之前版本相比,有较大变化,特 ...

随机推荐

使用C#书写SQLite数据库增删改查语句（以及插入byte[]时遇到的问题总结）
在没有使用SQLite这种轻量级的数据库之前,只使用过Sqlserver2008进行数据的增删改查,公司使用的是大型的ORACLE数据库,还没有真正的会使用它.那时候觉得数据库很庞大,然而遇到SQLi ...
A generic error occurred in GDI+的解决方案
转自智慧光原文A generic error occurred in GDI+. 解决方法使用image1.RotateFlip(RotateFlipType.Rotate90FlipNone)方法 ...
mac os、linux及unix之间的关系
unix 是由贝尔实验室开发的多用户.多任务操作系统 linux是一类Unix操作系统的统称,严格来说,linux系统只有内核叫“linux”,而linux也只是表示其内核,但因为习惯使然,人们习惯 ...
IDEA2017 破解方式
1. 到网站 http://idea.lanyus.com/ 获取注册码. 2.填入下面的license server: http://intellij.mandroid.cn/ http://ide ...
数组和集合（三）：Set集合的使用总结
一.概述 · 继承collection接口 · 无序(不记录添加顺序).不允许元素重复.只允许存在一个null元素二.实现类 1. HashSet · 底层其实是包装了一个HashMap实现的 · ...
【Rsync项目实战一】备份全网服务器数据
目录 [Rsync项目实战]备份全网服务器数据 [企业案例] 1.1 环境部署 1.2 开始部署backup服务器:Rsync服务端过程: 1.3 开始部署nfs01服务器:Rsync客户端过程: [ ...
Perl 变量：数组变量
Perl 数组Perl 数组一个是存储标量值的列表变量,变量可以是不同类型.数组变量以 @ 开头.访问数组元素使用 $ + 变量名称 + [索引值] 格式来读取. 1.创建列表.数组1.数组变量以 @ ...
146. LRU Cache (List, HashTable)
Design and implement a data structure for Least Recently Used (LRU) cache. It should support the fol ...
activeMQ集群搭建及高可用
三台服务器搭建如下的集群,达到了高可用.也同时达到了负载的目的: /****************************************************************** ...
Verifying Package Integrity Using MD5 Checksums or GnuPG
In this note, I reference the MySQL manual file. After downloading the MySQL package that suits your ...

Nutch2.x 集成ElasticSearch 抓取+索引

Nutch2.x 集成ElasticSearch 抓取+索引的更多相关文章

随机推荐

热门专题