原文地址： http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html

Nutch 2.2.1发布快两月了，该版本与Nutch之前版本相比，有较大变化，特别是与MySQL联合应用的安装和配置过程有不少地方容易出错。本人在安装过程中也遇到了不少麻烦，大多问题通过baidu和google也没有找到解决方法，自己只能通过看代码和分析日志并试错，最终搞定了所遇到的各种问题，现将重要安装和配置过程整理如下。

1. MySQL数据库配置

l my.ini配置

分别在[client]、[mysql]下添加

default-character-set=utf8

在[mysqld]下添加：

character-set-server=utf8

l 权限授予

mysql –u root –p xxxx

GRANT ALL PRIVILEGES ON *.* TO root@"%" IDENTIFIED BY  "xxxx";

l 创建数据库与表

手动创建数据库nutch和数据表webpage【如果不想用默认的库名和表名也可在nutch安装后的相关配置文件中进行修改，见后续说明】，其中webpage的表结构如下：

CREATE TABLE `webpage` (

`id` varchar(767) NOT NULL,

`headers` blob,

`text` longtext DEFAULT NULL,

`status` int(11) DEFAULT NULL,

`markers` blob,

`parseStatus` blob,

`modifiedTime` bigint(20) DEFAULT NULL,

`prevModifiedTime` bigint(20) DEFAULT NULL,

`score` float DEFAULT NULL,

`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,

`batchId` varchar(32) CHARACTER SET latin1 DEFAULT NULL,

`baseUrl` varchar(767) DEFAULT NULL,

`content` longblob,

`title` varchar(2048) DEFAULT NULL,

`reprUrl` varchar(767) DEFAULT NULL,

`fetchInterval` int(11) DEFAULT NULL,

`prevFetchTime` bigint(20) DEFAULT NULL,

`inlinks` mediumblob,

`prevSignature` blob,

`outlinks` mediumblob,

`fetchTime` bigint(20) DEFAULT NULL,

`retriesSinceFetch` int(11) DEFAULT NULL,

`protocolStatus` blob,

`signature` blob,

`metadata` blob,

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

注：表中的字段根据nutch的conf文件“gora-sql-mapping”进行设置。同时也可通过自动方式生成数据库和表：配置好“gora-sql-mapping”、“gora.properties”及其它文件后，首次通过运行”bin/nutch inject urls”即可自动生成数据库和表，不过或许在自动生成的时候你会遇到问题，不过没有关系，通过及时查看hadoop.log文件你便会发现很多问题（如下图之一）与MySQL支持的数据类型、数据长度有关，只需要根据日志提示做修改、调试（可借助navicat工具像SQL Server方便操作数据库），然后再重复自动生成过程，直到成功为止。

2. Nutch的安装与配置

1) 获取nutch 2.2.x：从官网http://www.apache.org/dyn/closer.cgi/nutch/下载，然后解压至本地安装目录，如本地根目录为 ${NUTCH_HOME}；

2) 配置nutch对mysql的支持，修改${APACHE_NUTCH_HOME}/ivy/ivy.xml文件，分别：

l 将以下行的注释取消

<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.18″ conf=”*->default”/>

l 修改以下行。从默认的

<dependency org="org.apache.gora" name="gora-core" rev="0.3" conf="*->default"/>

　改成

<dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>

l 将以下行的注释取消

<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

注：上述第2和第3项，如果按默认的不做修改，将会在抓取网页时遇到以下错误。

Exception in thread “main” Java.lang.ClassNotFoundException:org.apache.gora.sql.store.SqlStore

3) 数据库连接配置

编辑${NUTCH_HOME}/conf/gora.properties文件，注释掉默认的数据库连接配置，同时添加以下配置内容：

###############################

# Default MySQL properties    #

###############################

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver

gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true

gora.sqlstore.jdbc.user=xxxx（MySQL用户名）

gora.sqlstore.jdbc.password=xxxx（MySQL密码）

4) 数据表映射配置

主要是修改 ${NUTCH_HOME}/conf/gora.properties 文件，这里的修改建议按照前面介绍的自动生成数据表的方法进行修改，网上说的要将primarykey 的长度从512修改成767，即 <primarykey column=”id” length=”767″/>。反正我照此操作没有成功（应该受编码格式的影响），最后改成<primarykey column=”id” length=”255″/>搞定了。

5) 修改nutch-site配置文件

我的做法是直接将nutch-default文件另存为nutch-site，然后修改nutch-site内容，包括：

l 添加http.agent.name的值

<property>

<name>http.agent.name</name>

<value>YourNutchSpider</value>

</property>

l 在文件末尾添加以下内容

<property>

             <name>http.accept.language</name>

             <value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value>

             <description>Value of the Accept-Language request header field.

             This allows selecting non-English language as default one to retrieve.

             It is a useful setting for search engines build for certain national group.

             </description>

    </property>

    <property>

             <name>storage.data.store.class</name>

             <value>org.apache.gora.sql.store.SqlStore</value>

             <description>The Gora DataStore class for storing and retrieving data.

             Currently the following stores are available:.

             </description>

    </property>

<property>

         <name>parser.character.encoding.default</name>

         <value>utf-8</value>

         <description>The character encoding to fall back to when no other information

         is available</description>

</property>

l 特别添加以下内容

<property>

    <name>generate.batch.id</name>

    <value>*</value>

</property>

如果不添加此项内容，则通过”bin/nutch crawl urls –threads n –depths n”爬取网页时，在日志中会看到以下错误：

java.lang.NullPointerException
at org.apache.avro.util.Utf8.<init>(Utf8.java:37)
at org.apache.nutch.crawl.GeneratorReducer.setup(GeneratorReducer.java:100)
at org.apache.hadoop.mapreduce.Reducer.run(Reducer.java:174)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:649)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:418)
at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:398)

并且“nutch-site”文件需要保存为utf-8格式，否则在执行nutch命令时会出现以下错误。

Exception in thread “main” java.lang.RuntimeException: com.sun.org.apache.xerces.internal.impl.io.malformedByteSequenceException: 1字节的UTF-8序列的字节 1 无效。

6) 编译nutch 2.2

在保证已安装ant的情况下（没有安装的可在网上baidu下ant的安装方法），回到nutch根目录，使用ant编译 ${NUTCH_HOME}。如果都按上述配置一步步做了，则编译过程将顺利完成。至此，Nutch 2.2的安装也已完成，接下来就可以根据需要配置网页抓取信息，进行网页抓取了。

3. 网页抓取配置

1) 设置抓取的网站

cd ${NUTCH_HOME}/runtime/local

mkdir -p urls

echo 'http://www.tianya.cn' > urls/seed.txt

2) 执行爬取操作

bin/nutch crawl urls -depth 3 -topN 5

执行完在mysql中即可查看到爬虫抓取的内容，如下图：

Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引的更多相关文章

网站SEO优化如何让百度搜索引擎绝的你的网站更有抓取和收录价值呢？_孙森SEO
今天孙森SEO为大家唠唠网站到底该如何优化才会让百度搜索引擎绝的你的网站更有抓取和收录价值呢? 第一方面:网站创造高品质的内容,可以为用户提供独特的价值. 1.百度作为搜索引擎,网站内容必须满足搜索 ...
HttpClient 4.x 执行网站登录并抓取网页的代码
HttpClient 4.x 的 API 变化还是很大,这段代码可用来执行登录过程,并抓取网页. HttpClient API 文档(4.0.x), HttpCore API 文档(4.1) pack ...
Nutch2.1+mysql+solr3.6.1+中文网站抓取
1.mysql 数据库配置 linux mysql安装步骤省略. 在首先进入/etc/my.cnf (mysql为5.1的话就不用修改my.cnf,会导致mysql不能启动)在[mysqld] 下添加 ...
Nutch学习笔记二——抓取过程简析
在上篇学习笔记中http://www.cnblogs.com/huligong1234/p/3464371.html 主要记录Nutch安装及简单运行的过程. 笔记中通过配置抓取地址http://b ...
nutch2.2.1+mysql抓取数据
基本环境:linux centos6.5 nutch2.2.1 源码包, mysql 5.5 ,elasticsearch1.1.1, jdk1.7 1.下载地址http://mirror.bjtu. ...
Phantomjs+Nodejs+Mysql数据抓取（1.数据抓取）
概要: 这篇博文主要讲一下如何使用Phantomjs进行数据抓取,这里面抓的网站是太平洋电脑网估价的内容.主要是对电脑笔记本以及他们的属性进行抓取,然后在使用nodejs进行下载图片和插入数据库操作. ...
抓取网站数据不再是难事了，Fizzler（So Easy）全能搞定
首先从标题说起,为啥说抓取网站数据不再难(其实抓取网站数据有一定难度),SO EASY!!!使用Fizzler全搞定,我相信大多数人或公司应该都有抓取别人网站数据的经历,比如说我们博客园每次发表完文章 ...
pythonのscrapy抓取网站数据
(1)安装Scrapy环境步骤请参考:https://blog.csdn.net/c406495762/article/details/60156205 需要注意的是,安装的时候需要根据自己的pyt ...
Nutch的配置以及动态网站的抓取
http://blog.csdn.net/jimanyu/article/details/5619949 一:配置Nutch: 1.解压缩的nutch后,以抓取http://www.163.com/为 ...

随机推荐

3500常用汉字与标点符号（已排除不支持GB2312的）
.?!,.::“”‘’…()<>〈〉[].,:;!?-'_"'()[]<>|&~;+-*/=<>0123456789ABCEFGHIJKLMNOP ...
CentOS 6.0 缺少 mcrypt 扩展解决办法
解决办法:安装php-mcrypt libmcrypt libmcrypt-devel这三个库文件 1.安装第三方yum源(默认yum源里面没有这几个库文件,不能使用yum安装) #wget http ...
Windows执行打开文件命令
ShellExecute(NULL, "open", localFile.c_str(), NULL, NULL, SW_SHOW); 会调用该文件类型关联的 ...
OE7设置菜单为什么这么少？
默认安装的OE7设置菜单只有很少的功能: 如果需要更多的OE定制,必须开启“技术特性”选项:
【LeetCode 239】Sliding Window Maximum
Given an array nums, there is a sliding window of size k which is moving from the very left of the a ...
BF-KMP 算法
#define _CRT_SECURE_NO_WARNINGS #include<stdio.h> #include<stdlib.h> #include<string. ...
【Unity入门】碰撞检测与触发检测
版权声明:本文为博主原创文章,转载请注明出处. 在Unity里面,游戏物体的碰撞我们可以通过刚体组件(Rigidbody)和碰撞器组件(Collider)来进行检测.首先在场景里面添加一个Plane面 ...
Epic - Spiral Matrix
Given aNXN matrix, starting from the upper right corner of the matrix start printingvalues in a coun ...
Mysql字符串截取函数SUBSTRING的用法说明
感觉上MySQL的字符串函数截取字符,比用程序截取(如PHP或JAVA)来得强大,所以在这里做一个记录,希望对大家有用. 函数: 1.从左开始截取字符串 left(str, length) 说明:le ...
java 编写hadoop程序中使用第三方libxx.so库
在使用java编写hadoop处理程序时遇到了,java使用依赖的第三方libxx.so库的情况,找到了一种可行的方法,记录一下,希望对别人也有帮助: 加入需要使用的lib库为libxxx.so 1. ...

Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引

1. MySQL数据库配置

2. Nutch的安装与配置

3. 网页抓取配置

Nutch 2.2+MySQL+Solr4.2实现网站内容的抓取和索引的更多相关文章

随机推荐

热门专题