nutch2.2.1+mysql抓取数据

基本环境：linux centos6.5 nutch2.2.1 源码包， mysql 5.5 ，elasticsearch1.1.1, jdk1.7

1、下载地址http://mirror.bjtu.edu.cn/apache/nutch/2.2.1/ 解压

2、修改数据存储方式是mysql

　　修改nutch根目录/ivy/ivy.xml文件，原来mysql数据存储是注释的。

   <dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>

104     <!-- Uncomment this to use SQL as Gora backend. It should be noted that the

105     gora-sql 0.1.1-incubating artifact is NOT compatable with gora-core 0.3. Users should

106     downgrade to gora-core 0.2.1 in order to use SQL as a backend. -->

107

108     <dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

109

110     <!-- Uncomment this to use MySQL as database with SQL as Gora store. -->

111

112     <dependency org="mysql" name="mysql-connector-java" rev="5.1.18" conf="*->default">

3、修改连接数据库地址和用户名,在 nutch根目录/conf/gora.properties 将原来的注释掉

#gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver

#gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest

#gora.sqlstore.jdbc.user=sa

#gora.sqlstore.jdbc.password=

# MySQL properties #

###############################

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver

gora.sqlstore.jdbc.url=jdbc:mysql://ip:3306/nutch? useUnicode=true&characterEncoding=utf8&autoReconnect=true&zeroDateTimeBehavior=convertToNull

gora.sqlstore.jdbc.user=user

gora.sqlstore.jdbc.password=pwd

4、修改修改conf的nutch-site.xml

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>

<property>

<name>http.agent.name</name>

<value>My Spider</value>

</property>

<property>

<name>http.accept.language</name>

<value>ja-jp,zh-cn,en-us,en-gb,en;q=0.7,*;q=0.3</value>

</property>

<property>

<name>parser.character.encoding.default</name>

<value>utf-8</value>

<description>The character encoding to fall back to when no other information

is available</description>

</property>

<property>

<name>storage.data.store.class</name>

<value>org.apache.gora.sql.store.SqlStore</value>

</property>

<property>

<name>plugin.includes</name>

<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>

</property>

</configuration>

5、使用ant 编译源码

　　在nutch 目录下执行 ant

job:

      [jar] Building jar: /home/hadoop/nutch221/build/apache-nutch-2.2.1.job

runtime:

    [mkdir] Created dir: /home/hadoop/nutch221/runtime

    [mkdir] Created dir: /home/hadoop/nutch221/runtime/local

    [mkdir] Created dir: /home/hadoop/nutch221/runtime/deploy

     [copy] Copying 1 file to /home/hadoop/nutch221/runtime/deploy

     [copy] Copying 2 files to /home/hadoop/nutch221/runtime/deploy/bin

     [copy] Copying 1 file to /home/hadoop/nutch221/runtime/local/lib

     [copy] Copying 1 file to /home/hadoop/nutch221/runtime/local/lib/native

     [copy] Copying 26 files to /home/hadoop/nutch221/runtime/local/conf

     [copy] Copying 2 files to /home/hadoop/nutch221/runtime/local/bin

     [copy] Copying 100 files to /home/hadoop/nutch221/runtime/local/lib

     [copy] Copying 106 files to /home/hadoop/nutch221/runtime/local/plugins

     [copy] Copied 2 empty directories to 2 empty directories under /home/hadoop/nutch221/runtime/local/test

BUILD SUCCESSFUL

Total time: 41 seconds     编译成功。

6 创建数据库

CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; 

CREATE TABLE `webpage` (`id` varchar(767) CHARACTER SET latin1 NOT NULL,

`headers` blob,

`text` mediumtext DEFAULT NULL,

`status` int(11) DEFAULT NULL,

`markers` blob,

`parseStatus` blob,

`modifiedTime` bigint(20) DEFAULT NULL,

`score` float DEFAULT NULL,

`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,

`baseUrl` varchar(512) CHARACTER SET latin1 DEFAULT NULL,

`content` mediumblob,

`title` varchar(2048) DEFAULT NULL,

`reprUrl` varchar(512) CHARACTER SET latin1 DEFAULT NULL,

`fetchInterval` int(11) DEFAULT NULL,

`prevFetchTime` bigint(20) DEFAULT NULL,

`inlinks` mediumblob,

`prevSignature` blob,

`outlinks` mediumblob,

`fetchTime` bigint(20) DEFAULT NULL,

`retriesSinceFetch` int(11) DEFAULT NULL,

`protocolStatus` blob,

`signature` blob,

`metadata` blob,

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

7、执行爬行操作：

bin/nutch crawl urls -depth 3

执行完在mysql中即可以查看到爬虫抓取的内容

8、执行索引操作：

bin/nutch elasticindex clustername -all

遇到问题：在执行第7步的时候出现异常：

hadoop@master bin]$ nutch crawl urls -depth 3

Exception in thread "main" java.lang.ClassNotFoundException: org.apache.gora.sql.store.SqlStore

    at java.net.URLClassLoader$1.run(URLClassLoader.java:366)

    at java.net.URLClassLoader$1.run(URLClassLoader.java:355)

    at java.security.AccessController.doPrivileged(Native Method)

    at java.net.URLClassLoader.findClass(URLClassLoader.java:354)

    at java.lang.ClassLoader.loadClass(ClassLoader.java:425)

    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:308)

    at java.lang.ClassLoader.loadClass(ClassLoader.java:358)

    at java.lang.Class.forName0(Native Method)

    at java.lang.Class.forName(Class.java:190)

    at org.apache.nutch.storage.StorageUtils.getDataStoreClass(StorageUtils.java:89)

    at org.apache.nutch.storage.StorageUtils.createWebStore(StorageUtils.java:73)

    at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:221)

    at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)

    at org.apache.nutch.crawl.Crawler.run(Crawler.java:136)

    at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)

    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

    at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

#####################

参照网上资料：http://blog.sina.com.cn/s/blog_3c9872d00101p4f0.html 还是没有解决。

#官方解决办法：

#http://mail-archives.apache.org/mod_mbox/nutch-user/201307.mbox/%3CCAErFeLSwoZ2UhxMA1iYi7H-L52Ojo-j9KoWT7xDittBzvB0F0A@mail.gmail.com%3E

######################

20141103

问题解决办法：重新编译一下即可

又出现一个新的问题：

./nutch crawl ../urls -depth 3
InjectorJob: Using class org.apache.gora.sql.store.SqlStore as the Gora storage class.
Exception in thread "main" java.lang.RuntimeException: job failed: name=inject ../urls, jobid=job_local713211278_0001
   at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
   at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233)
   at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)

./nutch crawl ../urls -depth 3 -topN 5
InjectorJob: Using class org.apache.gora.sql.store.SqlStore as the Gora storage class.
Exception in thread "main" java.lang.RuntimeException: job failed: name=inject ../urls, jobid=job_local1302478362_0001
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:54)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233)

文章参考：

官网资料：http://nlp.solutions.asia/?p=362

https://issues.apache.org/jira/browse/NUTCH-1473

nutch2.2.1+mysql抓取数据的更多相关文章

windows环境下nutch2.x 在eclipse中实现抓取数据存进mysql详细步骤
nutch2.x 在eclipse中实现抓取数据存进mysql步骤最近在研究nutch,花了几天时间,也遇到很多问题,最终结果还是成功了,在此记录,并给其他有兴趣的人提供参考,共同进步. 对nutc ...
node.js抓取数据（fake小爬虫）
在node.js中,有了 cheerio 模块.request 模块,抓取特定URL页面的数据已经非常方便. 一个简单的就如下 var request = require('request'); va ...
Cacti 抓取数据方式安装spine
安装好cacti后首先要设置获取数据的方式 Cacti 获取数据的方式有两种,1.监控端的脚本(可以是php, shell, perl 或其他脚本)2.或者 snmp 协议获取. Cacti 会在固定 ...
nodejs--实现跨域抓取数据
最近公司安排给我一个任务,抓取页面数据:http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1 ...
java抓取网页数据，登录之后抓取数据。
最近做了一个从网络上抓取数据的一个小程序.主要关于信贷方面,收集的一些黑名单网站,从该网站上抓取到自己系统中. 也找了一些资料,觉得没有一个很好的,全面的例子.因此在这里做个笔记提醒自己. 首先需要一 ...
C# WebBrowser控件模拟登录抓取数据
参考博客:C#中的WebBrowser控件的使用参考博客:C#中利用WebBrowser控件,获得HTML源码一.问题点: 1.模拟登录后,如果带有嵌套的iframe嵌套,不好读取iframe内容 ...
PHP的cURL库：抓取网页，POST数据及其他,HTTP认证抓取数据
From : http://developer.51cto.com/art/200904/121739.htm 下面是一个小例程: ﹤?php// 初始化一个 cURL 对象$curl = curl_ ...
php中封装的curl函数(抓取数据)
介绍一个封闭好的函数,封闭了curl函数的常用步骤,方便抓取数据. 代码如下: <?php /** * 封闭好的 curl函数 * 用途:抓取数据 * edit by www.jbxue.com ...
php中CURL技术模拟登陆抓取数据实战，抓取某校教务处学生成绩。
这两天有基友要php中curl抓取教务处成绩的源码,用于微信公众平台的开发.下面笔者只好忍痛割爱了.php中CURL技术模拟登陆抓取数据实战,抓取沈阳工学院教务处学生成绩. 首先,教务处登录需要验证码 ...

随机推荐

【UR #2】跳蚤公路
[UR #2]跳蚤公路参照yjc方法.也就是地铁环线那个题. 求每个点不在负环内的x的取值范围.然后所有1到j能到i的j的范围取交.得到答案. 每个边形如kx+b的直线,每个环也是每个点不在负环内 ...
Linux环境进程间通信----系统 V 消息队列（二）
一.消息队列是一条由消息连接而成的链表,它保存在内核中,通过消息队列的引用标示符来访问. 二.消息队列不同于管道,通信的两个进程可以是完全无关的进程,它们之间不需要约定同步的方法.只要消息队列存在并且 ...
STM32嵌入式开发学习笔记（五）：中断
我们过去了解了用循环实现延时,或用系统滴答计时器实现延时,但这两种方法都有一种问题:会阻塞处理器的运行.下面我们学习一种不阻塞处理器运行其他事件的功能:时钟中断. 所谓中断,就是让处理器放下手头的事情 ...
flask json
导入 from flask import Flask,jsonify 1.列表 def index(): arr=['mkdir','md','touch'] return jsonify(arr) ...
剑指offer——40字符串的排列
题目描述输入一个字符串,按字典序打印出该字符串中字符的所有排列.例如输入字符串abc,则打印出由字符a,b,c所能排列出来的所有字符串abc,acb,bac,bca,cab和cba. 输入描述: 输 ...
JavaFX开发环境安装配置
JavaFX开发环境安装配置从Java8开始,JDK(Java开发工具包)包括了JavaFX库. 因此,要运行JavaFX应用程序,您只需要在系统中安装Java8或更高版本. 除此之外,IDE(如E ...
JUC源码分析-线程池篇（一）：ThreadPoolExecutor
JUC源码分析-线程池篇(一):ThreadPoolExecutor Java 中的线程池是运用场景最多的并发框架,几乎所有需要异步或并发执行任务的程序都可以使用线程池.在开发过程中,合理地使用线程池 ...
c# winForm DotNetBar控件之SuperGridControl
1.添加表头 sgc.PrimaryGrid.SelectionGranularity = SelectionGranularity.Row;//点击选中一行 DevComponents.DotNet ...
python获取全部股票每日基本面指标，用于选股分析、报表展示等
接口:daily_basic 更新时间:交易日每日15点-17点之间描述:获取全部股票每日重要的基本面指标,可用于选股分析.报表展示等. 积分:用户需要至少300积分才可以调取,具体请参阅本文最下方 ...
30-Ubuntu-用户权限-01-用户和权限的基本概念
1.用户用户是Linux系统工作中重要的一环,用户管理包括用户和组管理. 在Linux系统中,不论是由本机或是远程管理登录系统,每个系统都必须拥有一个账号,并且对于不同的系统资源拥有不同的使用权限. ...

nutch2.2.1+mysql抓取数据

nutch2.2.1+mysql抓取数据的更多相关文章

随机推荐

热门专题