StartContext是注入时全部seed的上下文信息假设爬虫在抓取过程其中须要共享一些变量。那么可使用StartContext作为容器。

构造器具体资料

  • StartContext

    public StartContext()
    构造一个StartContext。

    通经常使用来充当seedRequest的容器

  • StartContext

    public StartContext(java.lang.String url,
    java.lang.Class<? extends PageProcessor> processorCls)
    构造一个StartContext。而且增加一个种子URL
    參数:
    url -
    processorCls -
  • StartContext

    public StartContext(java.lang.String url,
    java.lang.Class<? extends PageProcessor> processorCls,
    PageRequest.PageEncoding pageEncoding)
    构造一个StartContext。而且增加一个种子URL
    參数:
    url -
    processorCls -
    pageEncoding - URL相应网页的编码

方法具体资料

  • createPageRequest

    public PageRequest createPageRequest(java.lang.String url,
    java.lang.Class<? extends PageProcessor> processorCls)
    创建网页下载请求PageRequest
    參数:
    url - 这个请求相应的http或者https 地址
    processorCls - 下载完毕后处理这个网页Page的PageProcessor的class对象
    返回:
    PageRequest
  • createPageRequest

    public PageRequest createPageRequest(java.lang.String url,
    java.lang.Class<? extends PageProcessor> processorCls,
    int priority,
    PageRequest.PageEncoding pageEncoding)
    创建网页下载请求PageRequest
    參数:
    url - 这个请求相应的http或者https 地址
    processorCls - 下载完毕后处理这个网页Page的PageProcessor的class对象
    priority - 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。
    pageEncoding - 这个PageRequest相应URL的网页编码格式。

    假设不指定那么会用crawTaskBuilder中指定的usePageEncoding。假设crawTaskBuilder没有 使用usePageEncoding。则默认用UTF-8编码

    返回:
    PageRequest
  • createPageRequest

    public PageRequest createPageRequest(java.lang.String url,
    java.lang.Class<? extends PageProcessor> processorCls,
    int priority)
    创建网页下载请求PageRequest
    參数:
    url - 这个请求相应的http或者https 地址
    processorCls - 下载完毕后处理这个网页Page的PageProcessor的class对象
    priority - 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。
    返回:
    PageRequest
  • createBinaryRequest

    public BinaryRequest createBinaryRequest(java.lang.String url,
    java.lang.Class<? extends BinaryProcessor> processorCls)
    创建一个二进制下载请求
    參数:
    url - 这个请求相应的http或者https 地址
    processorCls - 文件下载时处理这个InputStream的BinaryProcessor的class对象
    返回:
    BinaryRequest
  • createTransactionRequest

    public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack)
    创建支持事务的下载请求。
    參数:
    transactionCallBack - 事务完毕后的回调接口的Class
    返回:
    TransactionRequest
  • createTransactionRequest

    public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack,
    BasicRequest... child)
    给定一个child集合创建支持事务的下载请求。
    參数:
    transactionCallBack - 事务完毕后的回调接口
    child - child集合
    返回:
    TransactionRequest
  • injectSeed

    public void injectSeed(BasicRequest request)
    注入种子
    參数:
    request -
  • getSeedRequests

    public java.util.List<BasicRequest> getSeedRequests()
    返回该StartContext所包括的全部种子URL
    返回:

  • getContextAttribute

    public java.lang.Object getContextAttribute(java.lang.String attribute)
    返回attribute相应的value 这种方法是线程安全的
    參数:
    key -
    返回:
    返回attribute相应的value
  • putContextAttribute

    public java.lang.Object putContextAttribute(java.lang.String attribute,
    java.lang.Object value)
    向StartContext域put一个属性值。并返回之前的attribute相应的value。

    假设之前没有attribute属性那么返回null。这种方法是线程安全的

    參数:
    attribute -
    value -
    返回:
    返回之前的attribute相应的value。假设之前没有attribute属性那么返回null
  • getSeedSize

    public int getSeedSize()
    返回种子URL的个数
    返回:

isEmpty

public boolean isEmpty()
返回StartContext是否为空。
返回:

GuozhongCrawler系列教程 (4) StartContext具体解释的更多相关文章

  1. GuozhongCrawler系列教程 (1) 三大PageDownloader

    GuozhongCrawler  QQ群 202568714 教程源代码下载地址:http://pan.baidu.com/s/1pJBmerL GuozhongCrawler内置三大PageDown ...

  2. GuozhongCrawler系列教程 (2) CrawTaskBuilder具体解释

    GuozhongCrawler是分层架构.要高速学习CrawlTask独立的配置多少要了解框架的源码.所以CrawTaskBuilder提供要更加扁平且易于理解的的方式创建CrawTask 方法具体资 ...

  3. GuozhongCrawler系列教程 (5) TransactionRequest具体解释

    为了实现和维护并发抓取的属性信息提供线程安全的事务请求.TransactionRequest是一个抽象类自己不能设置Processor,却须要实现 TransactionCallBack接口.Tran ...

  4. Angular2入门系列教程7-HTTP(一)-使用Angular2自带的http进行网络请求

    上一篇:Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数 感觉这篇不是很好写,因为涉及到网络请求,如果采用真实的网络请求,这个例子大家拿到手估计还要自己写一个web ...

  5. C#微信公众号开发系列教程二(新手接入指南)

    http://www.cnblogs.com/zskbll/p/4093954.html 此系列前面已经更新了两篇博文了,都是微信开发的前期准备工作,现在切入正题,本篇讲解新手接入的步骤与方法,大神可 ...

  6. 【ASP.NET Identity系列教程(一)】ASP.NET Identity入门

    注:本文是[ASP.NET Identity系列教程]的第一篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...

  7. 【ASP.NET Identity系列教程(二)】运用ASP.NET Identity

    注:本文是[ASP.NET Identity系列教程]的第二篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...

  8. 【ASP.NET Identity系列教程(三)】Identity高级技术

    注:本文是[ASP.NET Identity系列教程]的第三篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...

  9. 随笔分类 - 无废话ExtJs系列教程

    随笔分类 - 无废话ExtJs系列教程 摘自:http://www.cnblogs.com/iamlilinfeng/category/385121.html ExtJs 入门教程 摘要: extjs ...

随机推荐

  1. Java之基于Eclipse搭建SSH框架(上)

    http://blog.csdn.net/snowwitch/article/details/50925382 http://www.cnblogs.com/hww123/archive/2016/0 ...

  2. jQuery向父辈遍历的方法

      通过DOM树可以可容易的访问到html文档中的所有元素 例如向上访问父辈的元素有以下方法 1.parent()方法可以得到所定元素的直接父元素 $("span").parent ...

  3. chromium的安装程序

    转自:http://www.xue163.com/182/6/1822338.html#pinglun 这篇文章主要简单讲解chromium的安装程序mini_installer 在编译mini_in ...

  4. github pages+hexo自建博客

    1.github创建新项目,然后开启pages即可 2.全局安装hexo npm install -g hexo 3.初始化hexo hexo init 4.安装hexo的依赖 npm i 5.基本上 ...

  5. linux服务器之间的文件同步;rsync+inotifywait;同步多个目录

    1.双向同步:unison+inotify 2.单向同步:rsync+inotify python版的pyinotify 本文介绍第二种方法: 1.Inotify 是一个 Linux特性,它监控文件系 ...

  6. WebSocket原理分析

    Web应用的通信过程通常是客户端通过浏览器发出一个请求,服务器端接收请求后进行处理并返回结果给客户端,客户端浏览器将信息呈现.这种机制对于信息变化不是特别频繁的应用可以良好支撑,但对于实时要求高.海量 ...

  7. [置顶] All about control file in Oracle Database

    --数据库实例启动的三个阶段: NOMOUNT(START):打开初始化参数文件 MOUNT:打开控制文件 OPEN:打开数据文件和日志文件 --控制文件 控制文件的作用:管理数据库的状态和描述数据库 ...

  8. Code a simple telnet client using sockets in python

    测试端口是否开放的python脚本 原文: https://www.binarytides.com/code-telnet-client-sockets-python/ 配置: 120.79.14.8 ...

  9. Windows Xp不用安装软件管理多个远程桌面连接

    一直使用系统默认的Mstsc来进行远程连接,但如果要连接N个远程的话就比较麻烦 之前也找过第三方的管理软件如:mRemoteNG 此软件有优点就不说了,但我在使用此软件时有一个很大的问题,就是如果一个 ...

  10. 转:Tortoise SVN 版本控制常用操作知识

    转自:http://www.cnblogs.com/csharp4/archive/2010/11/26/1889317.html 今天老大跑过来问我如何把SVN服务器上的当前版本回退到某一个版本上去 ...