本文是Heritrix的使用的高级篇，针对对Heritrix已经能够运行的码农朋友们！

我们在抓取网页的时候，网页的链接中往往会包含有js、css、图片、视频等文件，第一次执行抓取任务的时候，许多农民朋友们可能会发现抓取速度令人着急，可能是由于抓取了太多的不必要的数据文件，尤其是视频文件，少则几十兆，多则上百兆，这严重影响了我们的抓取的速度，还有一些缓存文件，配置文件等等。

　　那么如何才能做到只抓取html网页呢？（这里暂且不讨论抓取抓取指定域名的html网页，在之后的文章中可能会列出来！）

1、Modules——>Extractor

由于我们只对html文件中的链接感兴趣，所以去除了以下三个extractor。

ExtractorCSS

ExtractorJS

ExtractorSWF

修改前：

修改后：

2、Submodules——>midfetch-decide-rules

添加org.archive.crawler.deciderules.FilterDecideRule到midfetch-decide-rules

添加org.archive.crawler.filter.ContentTypeRegExpFilter和org.archive.crawler.deciderules.DecidingFilter

然后添加org.archive.crawler.deciderules.FetchStatusDecideRule到DecidingFilter

修改前：

修改后：

3、Setting——>midfetch-decide-rules

修改 regexp: 的值为“text/html*”【没有引号】

修改target-status的值为200

修改后为：

这样Heritrix就不会下载除了Content-Type为text/html并且Status Code为200之外的其他文件。

到此，设置就基本结束了！【本方法经实践检验】

===========================参考网址===========================

http://www.360doc.com/content/13/1122/14/13518188_331292907.shtml

===========================参考网址===========================

Heritrix个性化设置抓取目标的更多相关文章

利用cookies+requests包登陆微博，使用xpath抓取目标用户的用户信息、微博以及对应评论
本文目的:介绍如何抓取微博内容,利用requests包+cookies实现登陆微博,lxml包的xpath语法解析网页,抓取目标内容. 所需python包:requests.lxml 皆使用pip安装 ...
Charles设置抓取https请求
1.在手机上设置HTTP代理,将手机与电脑连接. 打开手机设置-WLAN,设置代理 2.(iPhone)使用iPhone自带的浏览器打开Safari,并输入地址:http://charlesproxy ...
Fiddler设置抓取https请求
环境准备 1.安装最新版本的Fiddler程序官网地址:https://www.telerik.com/fiddler 本文写的时候,fiddler最新的版本为5.0 2.安装fiddler证书生成 ...
Fiddler设置抓取FireFox火狐的包
参考 http://blog.csdn.net/zhoutaohenan/article/details/8477993 亲测有效 Fiddler使用教程 http://blog.csdn.net/o ...
fiddler设置抓取HTTPS协议数据包
1．打开工具里的选项 2．选择弹窗中的HTTPS选项,如下图进行勾选 3．若浏览器显示不安全链接则需要添加证书提示如下点击确定证书安装成功,可以查看安装的证书,点击Action 下图即可查看fidd ...
Heritrix源码分析(十四) 如何让Heritrix不间断的抓取（转）
欢迎加入Heritrix群(QQ):109148319,10447185 , Lucene/Solr群(QQ) : 118972724 本博客已迁移到本人独立博客: http://www.yun5u ...
nodejs抓取数据一(列表抓取)
纯属初学...有很多需要改进的地方,请多多指点... 目标是抓取58同城这个大分类下的列表数据: http://cd.58.com/caishui/?PGTID=14397169455980.924 ...
php爬虫入门 - 登录抓取内容
PHP 写爬虫说实话我也想用Python的,毕竟人家招牌.无奈我Python还停留在看语法的阶段,实在太惭愧,鞭笞一下自己加油学习.这里用php的CURL库进行页面抓取. 同事使用的系统需要先登录, ...
大数据抓取采集框架(摘抄至http://blog.jobbole.com/46673/)
摘抄至http://blog.jobbole.com/46673/ 随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前.如何能够做到所见即所得的无阻拦式采集.如 ...

随机推荐

JQuery（上）
1.流行的JavaScript类库 -- 框架.插件 )为了简化 JavaScript 的开发, 一些 JavsScript 库诞生了. JavaScript 库封装了很多预定义的对象和实用函数 ...
json具体解释
<span style="font-size:12px;">function testJson() { var jsonData = { "firstName ...
java中文乱码解决之道（二）—–字符编码详解：基础知识 + ASCII + GB**
原文出处:http://cmsblogs.com/?p=1412 在上篇博文(java中文乱码解决之道(一)—–认识字符集)中,LZ简单介绍了主流的字符编码,对各种编码都是点到为止,以下LZ将详细阐述 ...
PHP+jQuery实现翻板抽奖
翻板抽奖的实现流程:前端页面提供6个方块,用数字1-6依次表示6个不同的方块,当抽奖者点击6个方块中的某一块时,方块翻转到背面,显示抽奖中奖信息.看似简单的一个操作过程,却包含着WEB技术的很多知识面 ...
JavaScript可以这样用
javascript:Qrlink(<%#Eval("ActivityType")%>,<%#Eval("ID")%>,<%#Ev ...
javascript高级知识点——实例类型
代码信息来自于http://ejohn.org/apps/learn/. 分析一下对象的结构 function Ninja(){} var ninja = new Ninja(); console.l ...
学习使用GitHub（一）--之入门
因为经常Windows和linux系统交替的使用,在实验室一台电脑,在家一台电脑,自己的电脑和实验室的电脑上面的代码往往没法同步,以前由于种种原因(其实就是懒,没有学习GitHub这样的代码管理工具) ...
EBS 开发中如何动态启用和禁止请求（Current Request）的参数
EBS 开发中如何动态启用和禁止请求(Current Request)的参数 (版权声明,本人原创或者翻译的文章如需转载,如转载用于个人学习,请注明出处:否则请与本人联系,违者必究) 我们可以使用依赖 ...
利用VHDL读写file文件
library ieee; use std.textio.all; use ieee.std_logic_textio.all; use ieee.std_logic_1164 ...
asp.net core + angular2
asp.net core + angular2 的环境配置国内整个对 asp.net core 和 angular2这些新出来的关注度不是太好.跟国外比很大差距. 我在试着去做这个整合的时候也碰到 ...

Heritrix个性化设置抓取目标

1、Modules——>Extractor

2、Submodules——>midfetch-decide-rules

3、Setting——>midfetch-decide-rules

Heritrix个性化设置抓取目标的更多相关文章

随机推荐

热门专题