GuozhongCrawler系列教程（2） CrawTaskBuilder具体解释

GuozhongCrawler是分层架构。要高速学习CrawlTask独立的配置多少要了解框架的源码。所以CrawTaskBuilder提供要更加扁平且易于理解的的方式创建CrawTask

方法具体资料

useThread
```
public CrawTaskBuilder useThread(int threadNum)
```
设置CrawlTask下载处理Request的线程数量

參数:

threadNum -

返回:

CrawTaskBuilder

usePipeline
```
public CrawTaskBuilder usePipeline(java.lang.Class<?

extends Pipeline> pipelineCls)
```
设置实现好的Pipeline类Class

參数:

pipelineCls - 持久化处理类

返回:

CrawTaskBuilder

usePageRetryCount
```
public CrawTaskBuilder usePageRetryCount(int retryCount)
```
假设因为网络问题。请求url时可能会出现失败的情况。那么你设置最大又一次请求的次数默认又一次请求1次

參数:

retryCount -

返回:

CrawTaskBuilder

usePageEncoding
```
public CrawTaskBuilder usePageEncoding(PageRequest.PageEncoding defaultEncoding)
```
一般抓取某个站点会有统一的编码，假设你不想每次都调用PageRequest.setPageEncoding的话，那么你能够设置一个默认的编码

返回:

injectStartUrl

public CrawTaskBuilder injectStartUrl(java.lang.String url,

                             java.lang.Class<? extends PageProcessor> processorCls,

                             java.util.Map<java.lang.String,java.lang.Object> contextAttribute,

                             PageRequest.PageEncoding pageEncoding)

加入种子URL设置附加參数和页面编码格式每一个injectStartUrl方法注入的种子URL会用一个单独的StatContext包装。假设StatContext在抓取过程中不会产生较多新的跟进Request 那么推荐你使用useDynamicEntrance设置入口URL将会更加提升效率

參数:: url -; contextAttribute -; PageEncoding -
返回:

injectStartUrl
```
public CrawTaskBuilder injectStartUrl(java.lang.String url,

                             java.lang.Class<? extends PageProcessor> processorCls,

                             java.util.Map<java.lang.String,java.lang.Object> contextAttribute)
```
加入种子URL并设置附加參数每一个injectStartUrl方法注入的种子URL会用一个单独的StatContext包装。假设StatContext在抓取过程中不会产生较多新的跟进Request 那么推荐你使用useDynamicEntrance设置入口URL将会更加提升效率

參数:

url -

contextAttribute -

返回:

injectStartUrl
```
public CrawTaskBuilder injectStartUrl(java.lang.String url,

                             java.lang.Class<? extends PageProcessor> processorCls)
```
加入种子URL。并指定PageProcessor。每一个injectStartUrl方法注入的种子URL会用一个单独的StatContext包装。假设StatContext在抓取过程中不会产生较多新的跟进Request 那么推荐你使用useDynamicEntrance设置入口URL将会更加提升效率

參数:

url -

返回:

useDynamicEntrance
```
public CrawTaskBuilder useDynamicEntrance(java.lang.Class<? extends DynamicEntrance> dynamicEntranceCls)
```
假设你想在单个StartContext中直接初始化跟进URL，或者让爬虫分批注入种子的话。

那么DynamicEntrance提供了这种接口

參数:

dynamicEntranceCls - DynamicEntrance的继承实现类

返回:

useQueuePriorityRequest
```
public CrawTaskBuilder useQueuePriorityRequest()
```
使用优先级队列。在一些抓取分页较多情景下推荐使用QueuePriorityRequest。由于它能非常好的保证优先级高的Request优先被处理。从而防止队列金字塔式的膨胀

返回:

useQueueDelayedPriorityRequest
```
public CrawTaskBuilder useQueueDelayedPriorityRequest(int delayInMilliseconds)
```
使用延迟优先级队列。和QueuePriorityRequest类似。但QueueDelayedPriorityRequest额外提供了延迟抓取的功能在一些由于请求频率过快而被封的站点上推荐使用QueueDelayedPriorityRequest

參数:

delayInMilliseconds - 每次取Request距离上次时间延迟delayInMilliseconds毫秒

返回:

useTaskLifeListener
```
public CrawTaskBuilder useTaskLifeListener(TaskLifeListener listener)
```
设置监听器，监听爬虫的CrawlTask的onStart 和 onFinish。在此你能够发送邮件或者其它方式来知晓爬虫的运行情况

參数:

listener -

返回:

useCookie
```
public CrawTaskBuilder useCookie(java.util.Set<Cookie> cookies)
```
设置Cookie，当Driver创建时设置cookies。

在须要登录情况下你能够将登录好的Cookies注入downloader

參数:

listener -

返回:

addChromeDriverLifeListener
```
public void addChromeDriverLifeListener(ChromeDriverLifeListener chromeDriverLifeListener)
```
当你使用ChromeDownloader作为下载器时能够设置ChromeDriverLifeListener

參数:

listener -

addWebDriverLifeListener
```
public void addWebDriverLifeListener(WebDriverLifeListener webDriverLifeListener)
```
当你使用WebDriverDownloader作为下载器时能够设置ChromeDriverLifeListener

參数:

listener -

addHttpClientLifeListener
```
public void addHttpClientLifeListener(HttpClientLifeListener httpClientLifeListener)
```
当你使用默认的DefaultPageDownloader作为下载器时能够设置HttpClientLifeListener

參数:

listener -

useProxyIpPool
```
public CrawTaskBuilder useProxyIpPool(java.lang.Class<? extends ProxyIpPool> proxyIpPoolCls,

                             int initSize,

                             long pastTime,

                             int max_use_count)
```
使用代理IP切换机制时设置一个ProxyIpPool的实现类就可以。

在封IP站点下推荐使用收费版代理IP效果更佳

參数:

proxyIpPoolCls -

initSize - 每次代理IP缓冲池IP不足时载入IP的个数，推荐使用公式initSize=thread*5

pastTime - 每一个IP自身的过期时间，当代理IP过期时间到的时候会被清除。这个值依据代理IP的质量决定

max_use_count - 每一个代理IP最多使用的次数。推荐使用公式max_use_count=（目标站点连续请求才被封的次数）减去 2到3

返回:

useProxyIpPoolInstance
```
public CrawTaskBuilder useProxyIpPoolInstance(ProxyIpPool proxyIpPool)
```
当然你也能够自己构造一个实例设置ProxyIpPool

參数:

proxyIpPool -

返回:

抛出:

java.lang.SecurityException

java.lang.NoSuchMethodException

useTimer
```
public final CrawTaskBuilder useTimer(int hour,

                       long period,

                       int endHour)
```
使用定时循环启动，使用24小时制

參数:

hour - 从几点開始启动，假设当前时间小于改时间则等待到改时间启动

period - 每次抓取时间间隔单位毫秒

endHour - 到几点结束

返回:

useDownloadFileThread
```
public CrawTaskBuilder useDownloadFileThread(int thread)
```
设置同一时候下载文件的线程数，默认3个线程

參数:

thread -

返回:

CrawTaskBuilder

useDownloadFileDelayTime
```
public CrawTaskBuilder useDownloadFileDelayTime(int millisecond)
```
文件下载延迟，默认300ms

參数:

millisecond -

返回:

build
```
public CrawlTask build()
```
配置完毕。就可以创建CrawlTask

返回:

CrawlTask

GuozhongCrawler系列教程（2） CrawTaskBuilder具体解释的更多相关文章

GuozhongCrawler系列教程（1）三大PageDownloader
GuozhongCrawler QQ群 202568714 教程源代码下载地址:http://pan.baidu.com/s/1pJBmerL GuozhongCrawler内置三大PageDown ...
GuozhongCrawler系列教程（4） StartContext具体解释
StartContext是注入时全部seed的上下文信息假设爬虫在抓取过程其中须要共享一些变量.那么可使用StartContext作为容器. 构造器具体资料 StartContext public S ...
GuozhongCrawler系列教程（5） TransactionRequest具体解释
为了实现和维护并发抓取的属性信息提供线程安全的事务请求.TransactionRequest是一个抽象类自己不能设置Processor,却须要实现 TransactionCallBack接口.Tran ...
Angular2入门系列教程7-HTTP（一）-使用Angular2自带的http进行网络请求
上一篇:Angular2入门系列教程6-路由(二)-使用多层级路由并在在路由中传递复杂参数感觉这篇不是很好写,因为涉及到网络请求,如果采用真实的网络请求,这个例子大家拿到手估计还要自己写一个web ...
C#微信公众号开发系列教程二（新手接入指南）
http://www.cnblogs.com/zskbll/p/4093954.html 此系列前面已经更新了两篇博文了,都是微信开发的前期准备工作,现在切入正题,本篇讲解新手接入的步骤与方法,大神可 ...
【ASP.NET Identity系列教程（一）】ASP.NET Identity入门
注:本文是[ASP.NET Identity系列教程]的第一篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
【ASP.NET Identity系列教程（二）】运用ASP.NET Identity
注:本文是[ASP.NET Identity系列教程]的第二篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
【ASP.NET Identity系列教程（三）】Identity高级技术
注:本文是[ASP.NET Identity系列教程]的第三篇.本系列教程详细.完整.深入地介绍了微软的ASP.NET Identity技术,描述了如何运用ASP.NET Identity实现应用程序 ...
随笔分类 - 无废话ExtJs系列教程
随笔分类 - 无废话ExtJs系列教程摘自:http://www.cnblogs.com/iamlilinfeng/category/385121.html ExtJs 入门教程摘要: extjs ...

随机推荐

容斥原理求M以内有多少个跟N是互质的
开始系统的学习容斥原理!通常我们求1-n中与n互质的数的个数都是用欧拉函数! 但如果n比较大或者是求1-m中与n互质的数的个数等等问题,要想时间效率高的话还是用容斥原理! 本题是求[a,b]中与n ...
conversion function to_char to_number
SELECT )||']', ,'9,999.999')||']', ,'99,999.999')||']', ,'fm99,999.999')||']', '['|| to_char(0.25)|| ...
mysql 列转行,合并字段的方法
数据表(表名:xsk) +----+------+-----------+-------+ | id | name| course | score | +----+------+----------- ...
URAL 2062 Ambitious Experiment（分块）
[题目链接] http://acm.timus.ru/problem.aspx?space=1&num=2062 [题目大意] 给出两个操作,操作一给出区间[l,r],对l到r中的每一个下标i ...
MR实现--矩阵乘法
import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io ...
Java下List<Long>转List<String>或者List<Long>转List<Integer>
说明:很遗憾,没有快速方法,只能遍历然后循环增加进去. 方法: for(String str : list) { int i = Integer.paseInt(str); intList.add(i ...
<摘录>Linux下动态共享库加载时的搜索路径详解
对动态库的实际应用还不太熟悉的读者可能曾经遇到过类似“error while loading shared libraries”这样的错误,这是典型的因为需要的动态库不在动态链接器ld.so的搜索路径 ...
在WPF 4.5中跨线程更新集合
WPF中一个非常强大的功能是数据绑定,我们可以把一个集合绑定到ListBox中,当集合的数据发生变更时,ListBox界面也会同步变更.本身这是一个非常美好的事情,但是美中不足的是:当把集合绑定到Li ...
Bootstrap标签Tabs
 <ul class="nav nav-tabs" role="tablist"> <li class=&quo ...
关于 easyui datagridfilter 中的combox 过滤
var_activitimodel_datagrid.datagrid({ singleSelect: true, fit: true, striped: true, fitColumns: fals ...

GuozhongCrawler系列教程 （2） CrawTaskBuilder具体解释

方法具体资料

useThread

usePipeline

usePageRetryCount

usePageEncoding

injectStartUrl

injectStartUrl

injectStartUrl

useDynamicEntrance

useQueuePriorityRequest

useQueueDelayedPriorityRequest

useTaskLifeListener

useCookie

addChromeDriverLifeListener

addWebDriverLifeListener

addHttpClientLifeListener

useProxyIpPool

useProxyIpPoolInstance

useTimer

useDownloadFileThread

useDownloadFileDelayTime

build

GuozhongCrawler系列教程 （2） CrawTaskBuilder具体解释的更多相关文章

随机推荐

热门专题

GuozhongCrawler系列教程（2） CrawTaskBuilder具体解释

GuozhongCrawler系列教程（2） CrawTaskBuilder具体解释的更多相关文章