【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析

在创建一个job后，就要开始job的运行，运行的全流程如下：

1、在界面上启动job

2、index.jsp

查看上述页面对应的源代码

<a href='"+request.getContextPath()+"/console/action.jsp?action=start'>Start</a>

3、action.jsp

    String sAction = request.getParameter("action");

    if(sAction != null)

    {

        // Need to handle an action

        if(sAction.equalsIgnoreCase("start"))

        {

            // Tell handler to start crawl job

            handler.startCrawler();

        } else if(sAction.equalsIgnoreCase("stop")) {

            // Tell handler to stop crawl job

            handler.stopCrawler();

        } else if(sAction.equalsIgnoreCase("terminate")) {

            // Delete current job

            if(handler.getCurrentJob()!=null){

                handler.deleteJob(handler.getCurrentJob().getUID());

            }

        } else if(sAction.equalsIgnoreCase("pause")) {

            // Tell handler to pause crawl job

            handler.pauseJob();

        } else if(sAction.equalsIgnoreCase("resume")) {

            // Tell handler to resume crawl job

            handler.resumeJob();

        } else if(sAction.equalsIgnoreCase("checkpoint")) {

            if(handler.getCurrentJob() != null) {

                handler.checkpointJob();

            }

        }

    }

    response.sendRedirect(request.getContextPath() + "/index.jsp");

4、CrawlJobHandler.jsp

（1）

    public void startCrawler() {

        running = true;

        if (pendingCrawlJobs.size() > 0 && isCrawling() == false) {

            // Ok, can just start the next job

            startNextJob();

        }

    }

（2）

    protected final void startNextJob() {

        synchronized (this) {

            if(startingNextJob != null) {

                try {

                    startingNextJob.join();

                } catch (InterruptedException e) {

                    e.printStackTrace();

                    return;

                }

            }

            startingNextJob = new Thread(new Runnable() {

                public void run() {

                    startNextJobInternal();

                }

            }, "StartNextJob");

            startingNextJob.start();

        }

    }

（3）

   protected void startNextJobInternal() {

        if (pendingCrawlJobs.size() == 0 || isCrawling()) {

            // No job ready or already crawling.

            return;

        }

        this.currentJob = (CrawlJob)pendingCrawlJobs.first();

        assert pendingCrawlJobs.contains(currentJob) :

            "pendingCrawlJobs is in an illegal state";

        pendingCrawlJobs.remove(currentJob);

        try {

            this.currentJob.setupForCrawlStart();

            // This is ugly but needed so I can clear the currentJob

            // reference in the crawlEnding and update the list of completed

            // jobs.  Also, crawlEnded can startup next job.

            this.currentJob.getController().addCrawlStatusListener(this);

            // now, actually start

            this.currentJob.getController().requestCrawlStart();

        } catch (InitializationException e) {

            loadJob(getStateJobFile(this.currentJob.getDirectory()));

            this.currentJob = null;

            startNextJobInternal(); // Load the next job if there is one.

        }

    }

（4）

    public void requestCrawlStart() {

        runProcessorInitialTasks();

        sendCrawlStateChangeEvent(STARTED, CrawlJob.STATUS_PENDING);

        String jobState;

        state = RUNNING;

        jobState = CrawlJob.STATUS_RUNNING;

        sendCrawlStateChangeEvent(this.state, jobState);

        // A proper exit will change this value.

        this.sExit = CrawlJob.STATUS_FINISHED_ABNORMAL;

        Thread statLogger = new Thread(statistics);

        statLogger.setName("StatLogger");

        statLogger.start();

        frontier.start();

    }

【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析的更多相关文章

【Heritrix基础教程之1】在Eclipse中配置Heritrix
一.新建项目并将Heritrix源代码导入 1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包: 2.在E ...
【Heritrix基础教程之1】在Eclipse中配置Heritrix 分类： H3_NUTCH 2014-06-01 00:00 1262人阅读评论(0) 收藏
一.新建项目并将Heritrix源码导入 1.下载heritrix-1.14.4-src.zip和heritrix-1.14.4.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包: 2.在Ec ...
【Heritrix基础教程之3】Heritrix的基本架构
Heritrix可分为四大模块: 1.控制器CrawlController 2.待处理的uri列表 Frontier 3.线程池 ToeThread 4.各个步骤的处理器 (1)Pre-fetch ...
【Heritrix基础教程之3】Heritrix的基本架构分类： H3_NUTCH 2014-06-01 16:56 1267人阅读评论(0) 收藏
Heritrix可分为四大模块: 1.控制器CrawlController 2.待处理的uri列表 Frontier 3.线程池 ToeThread 4.各个步骤的处理器 (1)Pre-fetch ...
【Heritrix基础教程之2】Heritrix基本内容介绍
1.版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0 (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projec ...
【Heritrix基础教程之2】Heritrix基本内容介绍分类： B1_JAVA H3_NUTCH 2014-06-01 13:02 878人阅读评论(0) 收藏
1.版本说明 (1)最新版本:3.3.0 (2)最新release版本:3.2.0 (3)重要历史版本:1.14.4 3.1.0及之前的版本:http://sourceforge.net/projec ...
OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务
OpenVAS漏洞扫描基础教程之OpenVAS概述及安装及配置OpenVAS服务 1. OpenVAS基础知识 OpenVAS(Open Vulnerability Assessment Sys ...
Python基础教程之List对象转
Python基础教程之List对象时间:2014-01-19 来源:服务器之家投稿:root 1.PyListObject对象typedef struct { PyObjec ...
Python基础教程之udp和tcp协议介绍
Python基础教程之udp和tcp协议介绍 UDP介绍 UDP --- 用户数据报协议,是一个无连接的简单的面向数据报的运输层协议.UDP不提供可靠性,它只是把应用程序传给IP层的数据报发送出去,但 ...

随机推荐

tomcat解决乱码
今天遇到个问题,太尴尬了: 本来做好并测试号的项目提交到svn, 组员下了之后,又部分url传递的中文参数在另一个jsp接收出现乱码(只有我的不乱码). 改了之后更尴尬的事情发生了:组员的全部不乱码, ...
The FastCGI process exited unexpectedly
ERROR:HTTP Error 500.0 - Internal Server Error D:\Program Files\php\php-cgi.exe - The FastCGI proces ...
JAVA操作properties文件
va中的properties文件是一种配置文件,主要用于表达配置信息,文件类型为*.properties,格式为文本文件,文件的内容是格式是"键=值"的格式,在properties ...
Zend Studio 文件头和方法注释设置
在zend studio中选择窗口->首选项->PHP–>编辑器 –>模板 –>新建然后添加 funinfo或fileinfo 模板代码根据下边定义的COPY过去就可以 ...
解决Webservice内存溢出
public class FileExercise : System.Web.Services.WebService { [WebMethod] public void HelloWorld() { ...
解决Webservice内存溢出-用XmlWriter
XmlWriter 表示一个编写器,该编写器提供一种快速.非缓存和只进的方式来生成包含 XML 数据的流或文件.这个就可以不占用内存,将数据放入磁盘中.也就不会出现内存溢出 public class ...
mysql死锁——mysql之四
1.MySQL常用存储引擎的锁机制 MyISAM和MEMORY采用表级锁(table-level locking) BDB采用页面锁(page-level locking)或表级锁,默认为页面锁 In ...
sh里没有多行注释，只能每一行加一个#号
sh里没有多行注释,只能每一行加一个#号.只能像这样: #-------------------------------------------- # 这是一个自动打ipa的脚本,基于webfrogs ...
大量客户反映wordpress的网站打开巨慢，经分析发现，这些网站大都使用了google的字体服务，由于最近google的服务已经被大陆屏蔽，所以wordpress的网站打开时，会卡在字体加载上。
一会你安装完wp,发现打开巨卡的话,看看这个帖子:http://bbs.myhostcn.com/thread-1026-1-1.html最近一段时间,大量客户反映wordpress的网站打开巨慢, ...
UESTC_秋实大哥与连锁快餐店 2015 UESTC Training for Graph Theory<Problem A>
A - 秋实大哥与连锁快餐店 Time Limit: 9000/3000MS (Java/Others) Memory Limit: 65535/65535KB (Java/Others) S ...

【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析

【Heritrix基础教程之4】开始一个爬虫抓取的全流程代码分析的更多相关文章

随机推荐

热门专题