GuozhongCrawler系列教程 (4) StartContext具体解释
StartContext是注入时全部seed的上下文信息假设爬虫在抓取过程其中须要共享一些变量。那么可使用StartContext作为容器。
构造器具体资料
StartContext
public StartContext()
构造一个StartContext。通经常使用来充当seedRequest的容器
StartContext
public StartContext(java.lang.String url,
java.lang.Class<? extends PageProcessor> processorCls)构造一个StartContext。而且增加一个种子URL- 參数:
url
-processorCls
-
StartContext
public StartContext(java.lang.String url,
java.lang.Class<? extends PageProcessor> processorCls,
PageRequest.PageEncoding pageEncoding)构造一个StartContext。而且增加一个种子URL- 參数:
url
-processorCls
-pageEncoding
- URL相应网页的编码
方法具体资料
createPageRequest
public PageRequest createPageRequest(java.lang.String url,
java.lang.Class<? extends PageProcessor> processorCls)创建网页下载请求PageRequest- 參数:
url
- 这个请求相应的http或者https 地址processorCls
- 下载完毕后处理这个网页Page的PageProcessor的class对象- 返回:
- PageRequest
createPageRequest
public PageRequest createPageRequest(java.lang.String url,
java.lang.Class<? extends PageProcessor> processorCls,
int priority,
PageRequest.PageEncoding pageEncoding)创建网页下载请求PageRequest- 參数:
url
- 这个请求相应的http或者https 地址processorCls
- 下载完毕后处理这个网页Page的PageProcessor的class对象priority
- 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。pageEncoding
- 这个PageRequest相应URL的网页编码格式。假设不指定那么会用crawTaskBuilder中指定的usePageEncoding。假设crawTaskBuilder没有 使用usePageEncoding。则默认用UTF-8编码
- 返回:
- PageRequest
createPageRequest
public PageRequest createPageRequest(java.lang.String url,
java.lang.Class<? extends PageProcessor> processorCls,
int priority)创建网页下载请求PageRequest- 參数:
url
- 这个请求相应的http或者https 地址processorCls
- 下载完毕后处理这个网页Page的PageProcessor的class对象priority
- 设置这个PageRequest的priority。须要注意的仅仅有使用crawTaskBuilder.useQueuePriorityRequest或者crawTaskBuilder.useQueueDelayedPriorityRequest的时候 priority才会起作用并排序。- 返回:
- PageRequest
createBinaryRequest
public BinaryRequest createBinaryRequest(java.lang.String url,
java.lang.Class<? extends BinaryProcessor> processorCls)创建一个二进制下载请求- 參数:
url
- 这个请求相应的http或者https 地址processorCls
- 文件下载时处理这个InputStream的BinaryProcessor的class对象- 返回:
- BinaryRequest
createTransactionRequest
public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack)
创建支持事务的下载请求。- 參数:
transactionCallBack
- 事务完毕后的回调接口的Class- 返回:
- TransactionRequest
createTransactionRequest
public TransactionRequest createTransactionRequest(TransactionCallBack transactionCallBack,
BasicRequest... child)给定一个child集合创建支持事务的下载请求。- 參数:
transactionCallBack
- 事务完毕后的回调接口child
- child集合- 返回:
- TransactionRequest
injectSeed
public void injectSeed(BasicRequest request)
注入种子- 參数:
request
-
getSeedRequests
public java.util.List<BasicRequest> getSeedRequests()
返回该StartContext所包括的全部种子URL- 返回:
getContextAttribute
public java.lang.Object getContextAttribute(java.lang.String attribute)
返回attribute相应的value 这种方法是线程安全的- 參数:
key
-- 返回:
- 返回attribute相应的value
putContextAttribute
public java.lang.Object putContextAttribute(java.lang.String attribute,
java.lang.Object value)向StartContext域put一个属性值。并返回之前的attribute相应的value。假设之前没有attribute属性那么返回null。这种方法是线程安全的
- 參数:
attribute
-value
-- 返回:
- 返回之前的attribute相应的value。假设之前没有attribute属性那么返回null
getSeedSize
public int getSeedSize()
返回种子URL的个数- 返回:
isEmpty
public boolean isEmpty()
- 返回:
GuozhongCrawler系列教程 (4) StartContext具体解释的更多相关文章
- GuozhongCrawler系列教程 (1) 三大PageDownloader
GuozhongCrawler QQ群 202568714 教程源代码下载地址:http://pan.baidu.com/s/1pJBmerL GuozhongCrawler内置三大PageDown ...
- GuozhongCrawler系列教程 (2) CrawTaskBuilder具体解释
GuozhongCrawler是分层架构.要高速学习CrawlTask独立的配置多少要了解框架的源码.所以CrawTaskBuilder提供要更加扁平且易于理解的的方式创建CrawTask 方法具体资 ...
- GuozhongCrawler系列教程 (5) TransactionRequest具体解释
为了实现和维护并发抓取的属性信息提供线程安全的事务请求.TransactionRequest是一个抽象类自己不能设置Processor,却须要实现 TransactionCallBack接口.Tran ...
- Angular2入门系列教程7-HTTP(一)-使用Angular2自带的http进行网络请求
上一篇:Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数 感觉这篇不是很好写,因为涉及到网络请求,如果采用真实的网络请求,这个例子大家拿到手估计还要自己写一个web ...
- C#微信公众号开发系列教程二(新手接入指南)
http://www.cnblogs.com/zskbll/p/4093954.html 此系列前面已经更新了两篇博文了,都是微信开发的前期准备工作,现在切入正题,本篇讲解新手接入的步骤与方法,大神可 ...
- 【ASP.NET Identity系列教程(一)】ASP.NET Identity入门
注:本文是[ASP.NET Identity系列教程]的第一篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
- 【ASP.NET Identity系列教程(二)】运用ASP.NET Identity
注:本文是[ASP.NET Identity系列教程]的第二篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
- 【ASP.NET Identity系列教程(三)】Identity高级技术
注:本文是[ASP.NET Identity系列教程]的第三篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
- 随笔分类 - 无废话ExtJs系列教程
随笔分类 - 无废话ExtJs系列教程 摘自:http://www.cnblogs.com/iamlilinfeng/category/385121.html ExtJs 入门教程 摘要: extjs ...
随机推荐
- HDU 4685 Prince and Princess (2013多校8 1010题 二分匹配+强连通)
Prince and Princess Time Limit: 6000/3000 MS (Java/Others) Memory Limit: 65535/32768 K (Java/Othe ...
- OOW 2015 MYSQL
https://events.rainfocus.com/oow15/catalog/oracle.jsp?search.event=openworldEvent&search.mysql=d ...
- TCP通信粘包问题分析和解决(全)(转)
TCP通信粘包问题分析和解决(全) 在socket网络程序中,TCP和UDP分别是面向连接和非面向连接的.因此TCP的socket编程,收发两端(客户端和服务器端)都要有成对的socket,因此,发送 ...
- 十款最常见的Linux发行版及目标用户(1)
1. Debian Debian运行起来极其稳定,这使得它非常适合用于服务器.Debian平 时维护三套正式的软件库和一套非免费软件库,这给另外几款发行版(比如Ubuntu和Kali等)带来了灵感.D ...
- [Android Studio] Android Studio如何查看branch列表及切换branch(转载)
转载地址:http://blog.csdn.net/hyr83960944/article/details/36185231 用Git bash去切换相信大家都会,一行命令行搞定的问题.而在Andro ...
- 1644 免费馅饼 题解(c++)
1644 免费馅饼(巴蜀oj上的编号) 题面: SERKOI最新推出了一种叫做"免费馅饼"的游戏. 游戏在一个舞台上进行.舞台的宽度为W格,天幕的 ...
- C语言指针加1问题以及字节对齐问题
今天早上自己写了一段代码,然后测试的时候发现结果总是和预期的不一样,而且偏差的有点离谱,冥思苦想了将近五个小时,最后在我要开始怀疑人生的时候,发现原来是自己犯了一个极其低级但又容易被忽略的问题.好吧, ...
- 刚子扯谈:网站运营在左 技术在右 真TM扯
朋友的书 鄙人的书 2013年8月5日,雨未下,天猴焖 开片语:今天的扯谈内容是我转载我Java学习交流群里面一个哥们,当然我推荐他加入了朋友的网络分析师这个群,我认为那样对他有更大帮助.现在他是XX ...
- 使用WebView出现web page not available
很有可能是没有设置权限,所以不能浏览相应的URL,设置如下: 在AndroidManifest.xml中添加 <uses-permission android:name="androi ...
- 让editplus支持sql编辑
摘自: http://www.cnblogs.com/yeminglong/archive/2011/10/15/2212991.html 让editplus支持sql编辑 时比较喜欢用editplu ...